Stability AI представляет модель Stable Audio 2.0 для создания звуковых клипов

Stability AI Ltd. сегодня представила новую версию Stable Audio, своей системы искусственного интеллекта для создания звуковых клипов, которая предлагает значительно расширенный набор функций.

Оригинальная версия ИИ дебютировала в сентябре прошлого года. Stable Audio 1.0, как известна модель первого поколения, может генерировать аудиофайлы длиной до 90 секунд. Модель Stable Audio 2.0, которую Stability AI выпустила сегодня, может генерировать треки вдвое длиннее и с большим количеством пользовательских настроек.

Предыдущая версия системы генерировала звук на основе текстовых подсказок. Между тем, Stable Audio 2.0 способен принимать не только текст, но и существующие звуковые клипы, предоставленные пользователем. Искусственный интеллект может сопоставлять стиль генерируемого им звука с этими клипами, что позволяет клиентам более точно согласовывать выходные файлы со своими требованиями.

В Stable Audio 2.0 также представлены другие улучшения. Stability AI утверждает, что модель может генерировать «структурированные композиции, включающие вступление, развитие и завершение». Еще одним улучшением по сравнению с системой предыдущего поколения является то, что Stable Audio 2.0 может генерировать звуковые эффекты.

Новые возможности являются результатом серьезного обновления базовой архитектуры искусственного интеллекта.

Как и его предшественник, Stable Audio 2.0 основан на так называемой диффузионной модели. Модели диффузии — это нейронные сети, широко используемые для создания медиафайлов. Что отличает их от других алгоритмов ИИ, так это способ их обучения: во время разработки они получают набор звуковых клипов, содержащих ошибки, и получают задачу восстановить исходный звук.

Stable Audio 2.0 использует специализированную реализацию технологии, известную как модель скрытой диффузии. Как и другие нейронные сети, такие модели обучаются на наборе данных, аналогичном файлам, которые они будут обрабатывать в рабочей среде. Но перед началом обучения набор данных преобразуется в математическую структуру, называемую скрытым пространством, которая делает процесс разработки ИИ более эффективным.

Скрытое пространство содержит только самые важные сведения из набора данных, на котором оно основано. Менее важные детали удаляются, что уменьшает общий объем информации, которую модели ИИ должны обрабатывать во время обучения. Такое уменьшение объемов данных сокращает количество оборудования, необходимого для обучения ИИ, что, в свою очередь, снижает затраты.

Первая версия Stable Audio также была основана на модели скрытой диффузии. В новой версии, выпущенной сегодня, реализован более эффективный механизм создания скрытых пространств. «Он фиксирует и воспроизводит основные функции, отфильтровывая менее важные детали для более связного поколения», — подробно рассказала компания в своем блоге.

Инженеры Stability AI также добавили новую нейронную сеть на основе архитектуры Transformer. Архитектура, разработанная компанией Google LLC в 2017 году, в основном используется для построения языковых моделей. Трансформатор может учитывать большое количество контекстной информации при интерпретации фрагмента данных, что позволяет ему давать более точные результаты, чем более ранние нейронные сети.

«Сочетание этих двух элементов приводит к созданию модели, способной распознавать и воспроизводить крупномасштабные структуры, необходимые для высококачественных музыкальных композиций», — пояснил Stability AI.

Stable Audio 2.0 доступен потребителям бесплатно через веб-сайт, созданный компанией для этой модели. Скоро он станет доступен через интерфейс прикладного программирования. API позволит другим компаниям интегрировать Stable Audio 2.0 в свои приложения.

Фото: Unsplash

Ваш голос поддержки важен для нас и помогает нам сохранять контент БЕСПЛАТНЫМ.

Один щелчок ниже поддерживает нашу миссию по предоставлению бесплатного, глубокого и актуального контента.

Присоединяйтесь к нашему сообществу на YouTube

Присоединяйтесь к сообществу, в которое входят более 15 000 экспертов #CubeAlumni, в том числе генеральный директор Amazon.com Энди Джасси, основатель и генеральный директор Dell Technologies Майкл Делл, генеральный директор Intel Пэт Гелсингер и многие другие светила и эксперты.

«TheCUBE — важный партнер отрасли. Ребята, вы действительно являетесь частью наших мероприятий, и мы очень ценим, что вы приходите, и я знаю, что люди тоже ценят контент, который вы создаете», – Энди Джасси.

СПАСИБО

2024-04-03 20:26:04

1712178110
#Stability #представляет #модель #Stable #Audio #для #создания #звуковых #клипов

Stability AI представляет модель Stable Audio 2.0 для создания звуковых клипов

Ваш голос поддержки важен для нас и помогает нам сохранять контент БЕСПЛАТНЫМ.

Один щелчок ниже поддерживает нашу миссию по предоставлению бесплатного, глубокого и актуального контента.

Присоединяйтесь к нашему сообществу на YouTube

Related

Leave a Comment Cancel reply

Ваш голос поддержки важен для нас и помогает нам сохранять контент БЕСПЛАТНЫМ.

Один щелчок ниже поддерживает нашу миссию по предоставлению бесплатного, глубокого и актуального контента.

Присоединяйтесь к нашему сообществу на YouTube

Share this:

Related

Leave a Comment Cancel reply