Быстрое распространение скрытого звука с временными условиями

Модели Stable Audio представляют собой модели скрытой диффузии, состоящие из нескольких различных частей, похожих на Stable Diffusion: вариационный автокодировщик (VAE), текстовый кодировщик и модель условной диффузии на основе U-Net.

VAE сжимает стереозвук в шумоустойчивое и обратимое скрытое кодирование с потерями, которое обеспечивает более быстрое генерирование и обучение, чем работа с самими необработанными аудиосэмплами. Мы используем полностью сверточную архитектуру, основанную на Описать аудиокодек Архитектуры кодера и декодера, обеспечивающие кодирование и декодирование звука произвольной длины, а также высококачественный вывод.

Чтобы настроить модель на текстовые подсказки, мы используем кодировщик замороженного текста ХЛОПАТЬ В ЛАДОШИ модель обучена с нуля на нашем наборе данных. Использование модели CLAP позволяет текстовым объектам содержать некоторую информацию о связях между словами и звуками. Мы используем текстовые функции предпоследнего уровня кодировщика текста CLAP, чтобы получить информативное представление токенизированного входного текста. Эти текстовые функции передаются в диффузную сеть U-Net через уровни перекрестного внимания.

Что касается встраивания времени, мы вычисляем два свойства во время обучения при сборе фрагмента аудио из наших обучающих данных: второе, с которого начинается фрагмент (называемое «секунды_начало»), и общее количество секунд в исходном аудиофайле (называемое « секунды_всего»). Например, если мы возьмем 30-секундный фрагмент из 80-секундного аудиофайла, причем этот фрагмент начинается с 0:14, то «секунды_начала» будут равны 14, а «секунды_тотал» — 80. Эти значения секунд переводятся в промежуточные значения. вторые дискретные изученные внедрения и объединяются с токенами подсказки перед передачей на уровни перекрестного внимания U-Net. Во время вывода те же самые значения передаются модели в качестве условий, что позволяет пользователю указать общую продолжительность выходного звука.

Диффузионная модель для Stable Audio представляет собой параметр U-Net 907M, основанный на модели, используемой в Мусай. Он использует комбинацию остаточных слоев, слоев самообслуживания и слоев перекрестного внимания для шумоподавления входных данных, обусловленных встраиванием текста и времени. В U-Net были добавлены реализации внимания с эффективным использованием памяти, чтобы позволить модели более эффективно масштабироваться для более длинных последовательностей.

Набор данных

Для обучения нашей флагманской модели Stable Audio мы использовали набор данных, состоящий из более чем 800 000 аудиофайлов, содержащих музыку, звуковые эффекты и основы отдельных инструментов, а также соответствующие текстовые метаданные, предоставленные в рамках сделки с поставщиком стандартной музыки AudioSparx. Этот набор данных содержит более 19 500 часов аудио.

Будущая работа и открытые модели

Stable Audio представляет собой передовое исследование в области генерации звука, проведенное лабораторией исследований генеративного звука Stability AI, Harmonai. Мы продолжаем совершенствовать архитектуру наших моделей, наборы данных и процедуры обучения, чтобы улучшить качество вывода, управляемость, скорость вывода и длину вывода.

Следите за предстоящими выпусками Harmonai, включая модели с открытым исходным кодом на основе Stable Audio и обучающий код, позволяющий обучать модели генерации звука.

2023-09-13 10:00:00

1694602097
#Быстрое #распространение #скрытого #звука #временными #условиями #стабильность

Быстрое распространение скрытого звука с временными условиями — стабильность AI

Набор данных

Будущая работа и открытые модели

Related

Leave a Comment Cancel reply

Набор данных

Будущая работа и открытые модели

Share this:

Related

Leave a Comment Cancel reply