Европейские стартапы в области искусственного интеллекта стремятся улучшить языковые навыки чат-ботов

Европейские стартапы стремятся решить проблему популярных чат-ботов с искусственным интеллектом: качество ответов на языках, отличных от английского.

В среду компания Silo AI из Хельсинки выступит с инициативой по внесению вклада в создание новых больших языковых моделей, лежащих в основе продуктов генеративного ИИ, таких как ChatGPT от OpenAI и Bard от Google, на европейских языках, включая шведский, исландский, норвежский и датский.

Финская компания присоединяется к другим группам, работающим над улучшением технологии чат-ботов, которые дают реалистичные ответы на письменные запросы на таких языках, как немецкий, иврит и арабский.

Эти шаги происходят по мере того, как компании по всему миру начинают внедрять программное обеспечение для искусственного интеллекта, созданное такими компаниями, как OpenAI и Google, поддерживаемые Microsoft, что заставляет критиков выражать обеспокоенность по поводу чрезмерной зависимости от мощной закрытой технологии, созданной небольшой группой участников, в основном из США.

«Европейская инициатива должна . . . собирать знания с европейской точки зрения, и мы можем контролировать, какие данные в них загружаются», — сказал Питер Сарлин, исполнительный директор Silo AI.

Google Bard в настоящее время работает только на английском языке. ChatGPT OpenAI поддерживает десятки языков, включая европейские языки, хинди, фарси и другие. Однако, по словам тех, кто всесторонне протестировал его, он не одинаково точен для всех языков.

Silo AI пытается решить проблему, собрав команду опытных ученых в области искусственного интеллекта со всей Европы. Они будут создавать, обучать и эксплуатировать модели на скандинавском языке на самом мощном суперкомпьютере континента LUMI, который расположен в Финляндии и был модифицирован для работы с программным обеспечением для генеративного ИИ.

Инициатива новой команды, известная как SiloGen, со временем планирует расшириться на большее количество языков.

Однако проблема не только в лингвистике. Создание моделей в Европе может гарантировать, что качество данных, используемых для обучения, будет отражать культуру и этику стран за пределами США, в том числе в вопросах конфиденциальности, сказал Сарлин.

Модель Silo AI также будет с открытым исходным кодом, что означает, что ее может анализировать и адаптировать любой, кто захочет ее развернуть. Это контрастирует с закрытыми моделями OpenAI и Google, с которыми компании могут неохотно делиться своими конфиденциальными или проприетарными данными.

Другие европейские усилия включают OpenGPT-X и LEAM, обе инициативы под руководством Германии по разработке языковых моделей с открытым исходным кодом. Модели OpenGPT-X создаются совместно с немецким стартапом в области искусственного интеллекта Aleph Alpha.

Когда он был запущен в прошлом году, группа, стоящая за OpenGPT-X, предупредила, что отсутствие доступа к деталям таких моделей, как GPT-4, угрожает «цифровому суверенитету и рыночной независимости» Европы в области ИИ, что может препятствовать росту европейских компаний и исследований.

Марко Тромбетти, исполнительный директор итальянской компании по цифровому переводу Translated, сказал, что ведущие чат-боты были запрограммированы так, чтобы показывать наилучшие результаты на английском языке, что «нечестно по отношению к остальному миру».

Чтобы противостоять этому, его компания создала инструмент живого перевода для ChatGPT, который работает на 60 языках и нацелен на улучшение ответов инструмента.

«Это похоже на скачок на пять лет назад с точки зрения технологии для неанглоязычного мира, который фактически создает мир с двумя скоростями», — сказал Тромбетти о текущих генеративных инструментах искусственного интеллекта.

Такие опасения звучат не только в Европе. Управление инноваций Израиля потратило 7,5 млн шекелей (около 2,1 млн долларов) на создание Ассоциации обработки естественного языка. Группа пытается обратить вспять «плохое и недостаточное качество распознавания речи на иврите и арабском языке в различных типах компьютеризированных систем», — сказал Дрор Бин, ее исполнительный директор.

Бин сказал, что из-за ограниченного финансирования исследований ИИ в арабоязычных странах и относительно небольшого числа носителей иврита в мире есть опасения, что они останутся позади, поскольку продукты ИИ будут интегрированы в коммерческие приложения, такие как Microsoft Office и Google Workspace.

«Качество понимания и распознавания человеческой речи на иврите и арабском языке ниже и представляет собой барьер для реализации и применения передовых услуг», — добавил он.

Дополнительный отчет Джона Торнхилла

Европейские стартапы в области искусственного интеллекта стремятся улучшить языковые навыки чат-ботов

Related

Leave a Comment Cancel reply

Share this:

Related

Leave a Comment Cancel reply