Home » Генератор речи VALL-E 2 от Microsoft «достиг человеческого паритета», но его выпуск слишком опасен, говорят ученые

Генератор речи VALL-E 2 от Microsoft «достиг человеческого паритета», но его выпуск слишком опасен, говорят ученые

Генератор речи VALL-E 2 от Microsoft «достиг человеческого паритета», но его выпуск слишком опасен, говорят ученые

Компания Microsoft разработала новый генератор речи на базе искусственного интеллекта (ИИ), который, по-видимому, настолько убедителен, что его нельзя представить публике.

VALL-E 2 — это генератор текста в речь (TTS), который может воспроизводить голос человека, используя всего несколько секунд аудио.

Исследователи Microsoft заявили, что VALL-E 2 способен генерировать «точную, естественную речь в точности как голос исходного говорящего, сопоставимую с человеческим голосом», в статье, опубликованной 17 июня на сервере предварительной печати arXiv. Другими словами, новый генератор голоса ИИ достаточно убедителен, чтобы его можно было принять за настоящего человека — по крайней мере, по словам его создателей.

«VALL-E 2 — это новейшее достижение в области нейронных кодековых языковых моделей, которое знаменует собой важную веху в синтезе текста в речь с нулевого выстрела (TTS), впервые достигая человеческого паритета», — пишут исследователи в статье. «Более того, VALL-E 2 последовательно синтезирует высококачественную речь, даже для предложений, которые традиционно сложны из-за своей сложности или повторяющихся фраз».

Связанный: Новый алгоритм искусственного интеллекта выявляет дипфейки с точностью 98% — лучше, чем любой другой инструмент, существующий на данный момент

В этом контексте равенство с человеческим голосом означает, что речь, генерируемая VALL-E 2, соответствует или превосходит качество человеческой речи в тестах, используемых Microsoft.

Механизм искусственного интеллекта способен на это благодаря включению двух ключевых функций: «Выборка с учетом повторений» и «Моделирование группового кода».

Repetition Aware Sampling улучшает способ, которым ИИ преобразует текст в речь, обращаясь к повторениям «токенов» — небольших единиц языка, таких как слова или части слов — предотвращая бесконечные циклы звуков или фраз в процессе декодирования. Другими словами, эта функция помогает варьировать шаблон речи VALL-E 2, делая ее более плавной и естественной.

Read more:  NYT «Strands» № 41: подсказки, спангграммы и ответы на субботу, 13 апреля.

Между тем, групповое моделирование кода повышает эффективность за счет сокращения длины последовательности — или количества отдельных токенов, которые модель обрабатывает в одной входной последовательности. Это ускоряет генерацию речи VALL-E 2 и помогает справиться с трудностями, возникающими при обработке длинных строк звуков.

Исследователи использовали аудиосэмплы из речевых библиотек LibriSpeech и VCTK, чтобы оценить, насколько хорошо VALL-E 2 соответствует записям человеческих дикторов. Они также использовали ELLA-V — оценочную структуру, разработанную для измерения точности и качества сгенерированной речи — чтобы определить, насколько эффективно VALL-E 2 справляется с более сложными задачами генерации речи.

«Наши эксперименты, проведенные на наборах данных LibriSpeech и VCTK, показали, что VALL-E 2 превосходит предыдущие системы TTS с нулевым выстрелом по надежности речи, естественности и схожести говорящих», — пишут исследователи. «Это первый в своем роде проект, который достиг человеческого паритета по этим показателям».

Исследователи отметили в своей статье, что качество выходных данных VALL-E 2 зависит от продолжительности и качества речевых подсказок, а также от факторов окружающей среды, таких как фоновый шум.

«Чисто исследовательский проект»

Несмотря на свои возможности, Microsoft не выпустит VALL-E 2 для публики из-за потенциальных рисков ненадлежащего использования. Это совпадает с растущей обеспокоенностью вокруг клонирования голоса и технологии deepfake. Другие компании ИИ, такие как OpenAI, ввели аналогичные ограничения на свои голосовые технологии.

«VALL-E 2 — это чисто исследовательский проект. В настоящее время у нас нет планов по включению VALL-E 2 в продукт или расширению доступа для общественности», — написали исследователи в сообщении в блоге. «Это может нести потенциальные риски при неправильном использовании модели, например, подделке голосовой идентификации или выдаче себя за определенного говорящего».

Тем не менее, они предположили, что речевые технологии ИИ могут найти практическое применение в будущем. «VALL-E 2 может синтезировать речь, которая сохраняет личность говорящего, и может использоваться для образовательного обучения, развлечений, журналистики, самостоятельного создания контента, функций доступности, интерактивных систем голосового ответа, перевода, чат-бота и так далее», — добавили исследователи.

Read more:  После первого поражения Тайсон Фьюри предполагает, что судьи отдали предпочтение украинскому сопернику

Они продолжили: «Если модель обобщается на невидимых говорящих в реальном мире, она должна включать протокол, гарантирующий, что говорящий одобряет использование своего голоса, и модель обнаружения синтезированной речи».

2024-07-10 11:30:49


1720612782
#Генератор #речи #VALLE #от #Microsoft #достиг #человеческого #паритета #но #его #выпуск #слишком #опасен #говорят #ученые

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.