Home » Встречайте SeamlessM4T, модель Meta AI, которая может переводить речь или текст со 100 языков.

Встречайте SeamlessM4T, модель Meta AI, которая может переводить речь или текст со 100 языков.

Посетите нашу библиотеку по запросу, чтобы просмотреть сеансы VB Transform 2023. Зарегистрируйтесь здесь


В рамках более широких усилий по устранению языковых барьеров и поддержанию связей между людьми Meta разработала многоязычную базовая модель который может понимать почти 100 языков по речи или тексту и генерировать переводы на один или оба языка в режиме реального времени.

Мультимодальная технология, получившая официальное название SeamlessM4T, была публично представлена, чтобы помочь исследователям развивать разработку и внедрять универсальные приложения, способные преобразовывать речь в речь, речь в текст и т. д. текст в речь и текстовый перевод. Он был доступен вместе с SeamlessAlign, мультимодальным набором данных перевода, включающим в себя 265 000 часов добытой речи и выравниваний текста.

Это предложение знаменует собой значительное развитие применения ИИ в лингвистике, учитывая, что это единая система, выполняющая множество задач в области речи и текста. До этого этот подход в основном включал разные системы для разных задач, например специальную систему для перевода речи в речь.

Что может SeamlessM4T?

Как объясняет Мета, SeamlessM4T неявно распознает исходный язык без необходимости использования отдельной модели идентификации языка. Он может распознавать речь и текст почти на 100 языках и воспроизводить текст почти на таком же количестве, а также речь на 36 языках. Что еще более интересно, он также может выяснить, когда в одном предложении смешано более одного языка, и обеспечить переводы на один целевой язык (например, предложение, произнесенное на телугу и хинди и переведенное на английский язык).

Событие

VB Transform 2023 по требованию

Вы пропустили сессию с VB Transform 2023? Зарегистрируйтесь, чтобы получить доступ к библиотеке по запросу для всех наших рекомендуемых сеансов.

Read more:  3 вещи, о которых сожалеют долгожители | Business Insider Japan

Зарегистрироваться

При тестировании с помощью BLASER 2.0, который позволяет оценивать речевые и текстовые единицы, модель работала лучше с фоновыми шумами и изменениями говорящего в задачах преобразования речи в текст (со средним улучшением 37% и 48% соответственно) по сравнению с текущей версией. современные модели для задач преобразования речи в текст.

«SeamlessM4T превосходит своих предыдущих конкурентов», — заявила Мета в своем отчете. Сообщение блога. «Мы также значительно улучшаем производительность поддерживаемых языков с низким и средним уровнем ресурсов (с меньшим цифровым следом) и поддерживаем высокую производительность на языках с высокими ресурсами (например, английском)».

Когда это будет разработано, это может привести к созданию крупномасштабных универсальных систем перевода, позволяющих людям, говорящим на разных языках, общаться более эффективно.

Примечательно, что Google также работает в этом направлении и объявила Универсальная модель речи (USM), который может выполнять автоматическое распознавание речи (ASR) как для широко распространенных, так и для языков с ограниченными ресурсами.

Как все это работает?

Чтобы воплотить модель в жизнь, Meta извлекла веб-данные (десятки миллиардов предложений) и речь (4 миллиона часов) из общедоступных источников и выровняла их для создания набора данных SeamlessAlign. В общей сложности компания заявила, что ей удалось согласовать более 443 000 часов речи с текстами и создать около 29 000 часов согласования речи с речью. Используя эти данные, компания обучила многозадачную модель UnitY для получения желаемых мультимодальных результатов.

«Многозадачная модель UnitY состоит из трех основных последовательных компонентов», — объясняет Мета. «Задачей кодировщиков текста и речи является распознавание ввода почти на 100 языках. Затем текстовый декодер передает это значение текста почти на 100 языков, после чего следует модель преобразования текста в единицы для декодирования в дискретные акустические единицы для 36 языков речи… Декодированные дискретные единицы затем преобразуются в речь с помощью многоязычного устройства HiFi-GAN. вокодер».

Read more:  Плавание в центре или на краю

Еще не идеально

Тем не менее, важно отметить, что SeamlessM4T на данный момент далек от совершенства. Оценки показали, что эта модель имеет как дополнительную токсичность (хотя на 63% меньше, чем у современных моделей), так и проблемы гендерной предвзятости.

Согласно белая бумага Подробно описывая технологию, SeamlessM4T обобщает формы мужского рода при переводе с нейтральных терминов (со средним предпочтением примерно 10%), но демонстрирует недостаточную надежность при изменении пола примерно на 3%.

«Мы обнаруживаем токсичность как на входе, так и на выходе демо-версии», — сказал Мета. «Если токсичность обнаруживается только на выходе, это означает, что токсичность добавляется. В этом случае мы включаем предупреждение и не показываем выходные данные… Что касается предвзятости, мы начали наши усилия по оценке гендерной предвзятости в языках в масштабе. Теперь мы можем количественно оценить гендерную предвзятость в десятках направлений перевода речи, распространив на речь наш ранее разработанный набор данных Multilingual HolisticBias».

Компания подчеркнула, что это постоянная работа, и что она продолжит исследования и принимать меры в этих областях для дальнейшего повышения надежности и безопасности модели SeamlessM4T.

Миссия VentureBeat должна стать цифровой городской площадью, на которой лица, принимающие технические решения, смогут получить знания о трансформирующих корпоративных технологиях и заключать сделки. Откройте для себя наши брифинги.

2023-08-22 20:05:00


1692784848
#Встречайте #SeamlessM4T #модель #Meta #которая #может #переводить #речь #или #текст #со #языков

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.