Meta представляет Audiobox AI для клонирования голоса и создания окружающих звуков

Готовы ли вы повысить узнаваемость своего бренда? Подумайте о том, чтобы стать спонсором AI Impact Tour. Узнайте больше о возможностях здесь.

Клонирование голоса — одна из областей, быстро развивающихся благодаря генеративному искусственному интеллекту. Этот термин относится к воспроизведению вокальных стилей человека — высоты звука, тембра, ритма, манер и уникального произношения — с помощью технологий.

В то время как стартапы, в том числе ElevenLabs получили десятки миллионов Чтобы посвятить себя этому делу, Meta Platforms, материнская компания Facebook, Instagram, WhatsApp и Oculus VR, выпустила собственную бесплатную программу клонирования голоса, Аудиобокс — с подвохом.

Представленный сегодня на сайт Меты Исследователи, работающие в лаборатории Facebook AI Research (FAIR), описывают Audiobox как «новую фундаментальную исследовательскую модель для генерации звука», созданную на основе более ранних работ в этой области. Голос окно.

«Он может генерировать голоса и звуковые эффекты, используя комбинацию голосового ввода и текстовых подсказок на естественном языке, что позволяет легко создавать собственный звук для широкого спектра случаев использования», — говорится в сообщении. Веб-страница аудиобокса.

ВБ Событие

Тур по воздействию искусственного интеллекта

Присоединяйтесь к корпоративному сообществу искусственного интеллекта в рамках тура VentureBeat AI Impact Tour, который пройдет в ближайшем к вам городе!

Узнать больше

Просто введите предложение, которое вы хотите произнести клонированным голосом, или описание звука, который вы хотите создать, и Audiobox сделает все остальное. Пользователи также могут записать свой собственный голос и клонировать его с помощью Audiobox.

«Семейство» ИИ, генерирующих звук

Мета далее отметила, что фактически создала «семейство моделей»: одну для имитации речи, а другую для создания большего количества окружающих звуков и звуковых эффектов, таких как лай собак, сирены или играющие дети, и что все они «построены на общем я». -контролируемая модель Audiobox SSL».

Самоконтролируемое обучение (SSL) — это метод глубокого обучения машинного обучения (ML), в котором алгоритмам искусственного интеллекта поручается генерировать собственные метки для немаркированных данных, в отличие от контролируемого обучения, где данные уже могут быть помечены.

Исследователи опубликовал научную статью объясняя некоторые из их методологии и обоснования использования подхода SSL, написав: «Поскольку помеченные данные не всегда доступны или имеют высокое качество, а масштабирование данных является ключом к обобщению, наша стратегия состоит в том, чтобы обучить эту базовую модель с использованием аудио без какого-либо контроля», такие как расшифровки, подписи или атрибутивные метки, которые можно найти в больших количествах».

Конечно, большинство ведущих моделей генеративного искусственного интеллекта в значительной степени зависят от данных, сгенерированных человеком, для обучения созданию нового контента, и Audiobox не является исключением. Исследователи FAIR опирались на «160 тысяч часов речи (в основном на английском языке), 20 тысяч часов музыки и 6 тысяч часов звуковых образцов».

«Речевая часть включает в себя аудиокниги, подкасты, прочитанные предложения, разговоры, разговоры и записи, сделанные в дикой природе, включая различные акустические условия и невербальные голоса. Чтобы обеспечить справедливость и хорошее представительство людей из различных групп, в него входят носители из более чем 150 стран, говорящие на более чем 200 различных основных языках».

В исследовательской работе не уточняется, откуда именно были получены эти данные и были ли они в открытом доступе, но это, безусловно, важный вопрос для различных художники, авторыи музыка издатели подавать в суд на множество компаний, занимающихся искусственным интеллектом, за обучение материалам, потенциально защищенным авторским правом, без явного согласия создателей/правообладателей. Мы обратились к представителю Meta за разъяснениями и сообщим, когда получим их.

Вы можете попробовать сами и клонировать свой голос прямо сейчас.

Чтобы продемонстрировать возможности Audiobox, Meta также выпустила множество интерактивных демонстраций, в том числе ту, которая позволяет записывать звук, когда пользователь говорит о тексте предложения, и воспроизводит его голос.

Затем пользователь может ввести текст, который он хочет произнести своим клонированным голосом, и услышать, как он прочитает ему его клонированный голос.

Вы можете попробовать это сами здесь. В моем случае полученный клонированный звук, сгенерированный ИИ, был пугающе похож, хотя и не совсем такой же, как мой собственный голос (о чем свидетельствовали моя жена и ребенок, которые слышали его, не зная, что это было).

Мета также позволяет пользователям генерировать совершенно новые голоса из текстовых описаний того, как они должны звучать, например «глубокий женский голос», «высокий мужской голос из США» и т. д., а также изменять стиль голосов, записанных пользователем, или вводить текст. подсказка для создания совершенно нового звука. Я попробовал последнее с «лаем собак» и получил две версии, которые в моих ушах были неотличимы от реальной вещи.

Теперь о главном: Meta включает в себя заявление об отказе от ответственности вместе со своими интерактивными демонстрациями Audiobox, в котором отмечается, что «это исследовательская демонстрация, и ее нельзя использовать в каких-либо коммерческих целях», и, кроме того, что она доступна только для тех, кто не входит в число «разработчиков». штатов Иллинойс или Техас», где законы штатов явно запрещают тот тип аудиоколлекции, который Meta делает для демо-версий.

Интересно, как это На прошлой неделе было представлено новое веб-приложение Imagine by Meta AI для создания изображенийAudiobox также не имеет открытого исходного кода, что противоречит приверженности Meta к этой области, о чем ранее свидетельствовал выпуск ее Семейство больших языковых моделей (LLM) Llama 2. Мы также спросили нашего представителя Meta об этом и о том, будет ли Audiobox в какой-то момент открыт с открытым исходным кодом и будет ли он обновляться, когда мы получим ответ.

Таким образом, технология на данный момент не может быть использована в каких-либо целях зарабатывания денег или бизнеса, а также ее не могут использовать жители двух самых густонаселенных штатов США. Но поскольку ИИ развивается быстрыми темпами, ожидайте, что ситуация изменится и в ближайшем будущем появятся коммерческие версии, если не от Meta, то от других.

Миссия VentureBeat должен стать цифровой городской площадкой для лиц, принимающих технические решения, где они смогут получить знания о преобразующих корпоративных технологиях и совершать сделки. Откройте для себя наши брифинги.

2023-12-12 02:25:21

1702362004
#Meta #представляет #Audiobox #для #клонирования #голоса #создания #окружающих #звуков

Meta представляет Audiobox AI для клонирования голоса и создания окружающих звуков

ВБ Событие

«Семейство» ИИ, генерирующих звук

Вы можете попробовать сами и клонировать свой голос прямо сейчас.

Related

Leave a Comment Cancel reply

ВБ Событие

«Семейство» ИИ, генерирующих звук

Вы можете попробовать сами и клонировать свой голос прямо сейчас.

Share this:

Related

Leave a Comment Cancel reply