Европейские стартапы стремятся решить проблему популярных чат-ботов с искусственным интеллектом: качество ответов на языках, отличных от английского.
В среду компания Silo AI из Хельсинки выступит с инициативой по внесению вклада в создание новых больших языковых моделей, лежащих в основе продуктов генеративного ИИ, таких как ChatGPT от OpenAI и Bard от Google, на европейских языках, включая шведский, исландский, норвежский и датский.
Финская компания присоединяется к другим группам, работающим над улучшением технологии чат-ботов, которые дают реалистичные ответы на письменные запросы на таких языках, как немецкий, иврит и арабский.
Эти шаги происходят по мере того, как компании по всему миру начинают внедрять программное обеспечение для искусственного интеллекта, созданное такими компаниями, как OpenAI и Google, поддерживаемые Microsoft, что заставляет критиков выражать обеспокоенность по поводу чрезмерной зависимости от мощной закрытой технологии, созданной небольшой группой участников, в основном из США.
«Европейская инициатива должна . . . собирать знания с европейской точки зрения, и мы можем контролировать, какие данные в них загружаются», — сказал Питер Сарлин, исполнительный директор Silo AI.
Google Bard в настоящее время работает только на английском языке. ChatGPT OpenAI поддерживает десятки языков, включая европейские языки, хинди, фарси и другие. Однако, по словам тех, кто всесторонне протестировал его, он не одинаково точен для всех языков.
Silo AI пытается решить проблему, собрав команду опытных ученых в области искусственного интеллекта со всей Европы. Они будут создавать, обучать и эксплуатировать модели на скандинавском языке на самом мощном суперкомпьютере континента LUMI, который расположен в Финляндии и был модифицирован для работы с программным обеспечением для генеративного ИИ.
Инициатива новой команды, известная как SiloGen, со временем планирует расшириться на большее количество языков.
Однако проблема не только в лингвистике. Создание моделей в Европе может гарантировать, что качество данных, используемых для обучения, будет отражать культуру и этику стран за пределами США, в том числе в вопросах конфиденциальности, сказал Сарлин.
Модель Silo AI также будет с открытым исходным кодом, что означает, что ее может анализировать и адаптировать любой, кто захочет ее развернуть. Это контрастирует с закрытыми моделями OpenAI и Google, с которыми компании могут неохотно делиться своими конфиденциальными или проприетарными данными.
Другие европейские усилия включают OpenGPT-X и LEAM, обе инициативы под руководством Германии по разработке языковых моделей с открытым исходным кодом. Модели OpenGPT-X создаются совместно с немецким стартапом в области искусственного интеллекта Aleph Alpha.
Когда он был запущен в прошлом году, группа, стоящая за OpenGPT-X, предупредила, что отсутствие доступа к деталям таких моделей, как GPT-4, угрожает «цифровому суверенитету и рыночной независимости» Европы в области ИИ, что может препятствовать росту европейских компаний и исследований.
Марко Тромбетти, исполнительный директор итальянской компании по цифровому переводу Translated, сказал, что ведущие чат-боты были запрограммированы так, чтобы показывать наилучшие результаты на английском языке, что «нечестно по отношению к остальному миру».
Чтобы противостоять этому, его компания создала инструмент живого перевода для ChatGPT, который работает на 60 языках и нацелен на улучшение ответов инструмента.
«Это похоже на скачок на пять лет назад с точки зрения технологии для неанглоязычного мира, который фактически создает мир с двумя скоростями», — сказал Тромбетти о текущих генеративных инструментах искусственного интеллекта.
Такие опасения звучат не только в Европе. Управление инноваций Израиля потратило 7,5 млн шекелей (около 2,1 млн долларов) на создание Ассоциации обработки естественного языка. Группа пытается обратить вспять «плохое и недостаточное качество распознавания речи на иврите и арабском языке в различных типах компьютеризированных систем», — сказал Дрор Бин, ее исполнительный директор.
Бин сказал, что из-за ограниченного финансирования исследований ИИ в арабоязычных странах и относительно небольшого числа носителей иврита в мире есть опасения, что они останутся позади, поскольку продукты ИИ будут интегрированы в коммерческие приложения, такие как Microsoft Office и Google Workspace.
«Качество понимания и распознавания человеческой речи на иврите и арабском языке ниже и представляет собой барьер для реализации и применения передовых услуг», — добавил он.
Дополнительный отчет Джона Торнхилла