Сейчас ты меня слышишь? Искусственный интеллект для борьбы с шумным звуком с помощью генеративного искусственного интеллекта

Шумные записи интервью и выступлений — проклятие существования аудиоинженеров. Но один немецкий стартап надеется исправить это с помощью уникального технического подхода, который использует генеративный искусственный интеллект для повышения четкости голосов в видео.

Сегодня, AI-кустика вышел из тайны с финансированием в размере 1,9 миллиона евро. По словам соучредителя и генерального директора Фабиана Зайпеля, технология AI-coustics выходит за рамки стандартного шумоподавления и работает с любым устройством и динамиком.

«Наша основная миссия — сделать каждое цифровое взаимодействие, будь то конференц-связь, потребительское устройство или случайное видео в социальных сетях, таким же ясным, как трансляция из профессиональной студии», — сказал Зайпель в интервью >.

Зайпель, звукоинженер по образованию, в 2021 году вместе с Корвином Йедике, преподавателем машинного обучения в Берлинском техническом университете, основал компанию AI-coustics. Зайпель и Йедике познакомились во время изучения аудиотехнологий в Берлинском техническом университете, где они часто сталкивались с плохим звуком. качество онлайн-курсов и учебных пособий, которые им пришлось пройти.

«Нас движет личная миссия — решить широко распространенную проблему низкого качества звука в цифровых коммуникациях», — сказал Зайпель. «Хотя мой слух немного ухудшился из-за создания музыки, когда мне было чуть больше двадцати, у меня всегда были проблемы с онлайн-контентом и лекциями, что заставило нас в первую очередь работать над темой качества речи и разборчивости».

Рынок программного обеспечения для подавления шума и улучшения голоса на базе искусственного интеллекта уже очень устойчив. Среди конкурентов AI-coustics — компания Insoundz, которая использует генеративный искусственный интеллект для улучшения потоковой передачи и предварительно записанных речевых фрагментов, а также Вид.иопакет для редактирования видео с инструментами для удаления фонового шума из клипов.

Но Зейпель говорит, что AI-coustics имеет уникальный подход к разработке механизмов искусственного интеллекта, которые выполняют реальную работу по снижению шума.

Стартап использует модель, обученную на образцах речи, записанных в студии стартапа в Берлине, родном городе AI-кустики. Людям платят за запись образцов (Сейпель не говорит, сколько именно), которые затем добавляются в набор данных для обучения модели шумоподавления ИИ-акустики.

«Мы разработали уникальный подход для моделирования звуковых артефактов и проблем — например, шума, реверберации, сжатия, микрофонов с ограниченной полосой частот, искажений, клиппирования и т. д. — в процессе обучения», — сказал Зайпель.

Могу поспорить, что некоторые будут недовольны схемой единовременного вознаграждения создателей AI-coustics, учитывая, что модель, которую обучает стартап, может оказаться весьма прибыльной в долгосрочной перспективе. (Идут здоровые споры о том, заслуживают ли создатели обучающих данных для моделей ИИ вознаграждения за свой вклад.) Но, возможно, более серьезная и насущная проблема — это предвзятость.

Хорошо известно, что алгоритмы распознавания речи могут создавать предвзятости, которые в конечном итоге наносят вред пользователям. А изучать опубликованные в журнале The Proceedings of the National Academy of Sciences, показали, что системы распознавания речи ведущих компаний в два раза чаще неправильно расшифровывают звук, исходящий от чернокожих говорящих, чем от белых говорящих.

По словам Зайпеля, пытаясь бороться с этим, AI-coustics концентрируется на привлечении «разнообразных» участников, предоставляющих образцы речи. Он добавил: «Размер и разнообразие являются ключом к устранению предвзятости и обеспечению работы технологии для всех языков, личности говорящего, возраста, акцента и пола».

Это был не самый научный тест, но я загрузил три видеоклипа — интервью с фермером 18 векаа демонстрация вождения автомобиля и Протест из-за израильско-палестинского конфликта — на платформу AI-coustics, чтобы увидеть, насколько хорошо она работает с каждым из них. ИИ-акустика действительно выполнила свое обещание повысить четкость; На мой взгляд, в обработанных клипах было гораздо меньше окружающего фонового шума, заглушающего динамики.

Вот предыдущий клип о фермере 18-го века:

И после:

Зайпель считает, что технология искусственного интеллекта будет использоваться для улучшения записанной речи, а также для улучшения записанной речи и, возможно, даже будет встроена в такие устройства, как звуковые панели, смартфоны и наушники, для автоматического повышения четкости голоса. В настоящее время, AI-coustics предлагает веб-приложение и API для постобработки аудио- и видеозаписей, а также SDK, который вводит платформу AI-coustics в существующие рабочие процессы, приложения и оборудование.

Зайпель говорит, что AI-coustics, которая зарабатывает деньги за счет сочетания подписок, ценообразования по требованию и лицензирования, в настоящее время имеет пять корпоративных клиентов и 20 000 пользователей (хотя и не все платят). В планах на ближайшие несколько месяцев — расширение команды компании из четырех человек и улучшение базовой модели улучшения речи.

«До наших первоначальных инвестиций AI-coustics вела довольно бережливую деятельность с низкой скоростью расходования средств, чтобы пережить трудности рынка венчурных инвестиций», — сказал Зайпель. «Теперь AI-coustics имеет обширную сеть инвесторов и наставников в Германии и Великобритании для получения консультаций. Сильная технологическая база и способность работать на разных рынках с использованием одной и той же базы данных и основных технологий дают компании гибкость и возможность совершать небольшие повороты».

На вопрос о том, могут ли технологии мастеринга звука, такие как AI-кустика, украсть рабочие места как опасаются некоторые экспертыЗайпель отметил потенциал искусственного интеллекта для ускорения трудоемких задач, которые в настоящее время ложатся на плечи аудиоинженеров.

«Студия создания контента или менеджер вещания могут сэкономить время и деньги, автоматизируя части процесса производства звука с помощью AI-кустики, сохраняя при этом высочайшее качество речи», — сказал он. «Качество и разборчивость речи по-прежнему являются досадной проблемой практически для каждого потребителя или профессионального устройства, а также при производстве или потреблении контента. Любое приложение, в котором речь записывается, обрабатывается или передается, потенциально может извлечь выгоду из нашей технологии».

Финансирование приняло форму транша капитала и долга от Connect Ventures, Inovia Capital, FOV Ventures и финансового директора Ableton Яна Бола.

2024-03-25 18:43:01

1711523905
#Сейчас #ты #меня #слышишь #Искусственный #интеллект #для #борьбы #шумным #звуком #помощью #генеративного #искусственного #интеллекта

Сейчас ты меня слышишь? Искусственный интеллект для борьбы с шумным звуком с помощью генеративного искусственного интеллекта

Related

Leave a Comment Cancel reply

Share this:

Related

Leave a Comment Cancel reply