Исследователи из лаборатории искусственного интеллекта Амазонка Веб-сервисы (АВС) обнаружили, что большое количество онлайн-контента поступает из источников машинного перевода (MT).
Этот контент, который переводится на множество разных языков, часто имеет низкое качество, что, по словам команды, подчеркивает острую необходимость в качестве данных и учете источников при обучении больших языковых моделей (LLM).
Исследователи также обнаружили, что машинно-генерируемый контент часто встречается при переводах на языки, у которых меньше ресурсов, и что он составляет значительную часть всего контента в сети.
Критерий отбора
«Мы действительно заинтересовались этой темой, потому что несколько коллег, которые работают в области машинного перевода и являются носителями языков с ограниченными ресурсами, отметили, что большая часть Интернета на их родном языке, по-видимому, создается с помощью машинного перевода», — Мехак Даливал, бывший стажер прикладных наук в AWS. и нынешний аспирант Калифорнийского университета в Санта-Барбаре рассказал Материнская плата.
«Таким образом, идея действительно пришла от носителей языка с ограниченными ресурсами, и мы провели исследование, чтобы лучше понять проблему и увидеть, насколько она широко распространена».
Команда разработала обширный ресурс, известный как Multi-Way ccMatrix (MWccMatrix), чтобы лучше понять особенности контента, переведенного машинами. Этот ресурс содержит 6,4 миллиарда уникальных предложений на 90 различных языках и включает кортежи перевода, которые представляют собой наборы предложений на разных языках, которые являются переводами друг друга.
Исследование, представленное в Корнелльский университет сервер предварительной печати arXiv, обнаружили, что огромные объемы веб-контента часто переводятся на множество языков, в основном с помощью машинного перевода. Этот контент не только широко распространен в переводах на языки с меньшим количеством ресурсов, но также составляет значительную часть всего веб-контента на этих языках.
Исследователи также заметили предвзятость при выборе контента, который переводится на несколько языков, вероятно, с целью получения дохода от рекламы.
В документе делается вывод: «Технологии МТ значительно улучшились за последнее десятилетие, но все еще не соответствуют человеческим качествам. Контент MT добавлялся в Интернет на протяжении многих лет с использованием систем MT, доступных на тот момент, поэтому большая часть MT в сети, вероятно, имеет очень низкое качество по современным стандартам. Это может привести к созданию менее плавных моделей LLM с большим количеством галлюцинаций, а систематическая ошибка отбора указывает на то, что данные могут быть более низкого качества даже без учета ошибок MT. Качество данных имеет решающее значение в обучении LLM, где высококачественные корпуса, такие как книги и статьи в Википедии, обычно подвергаются повышению выборки в несколько раз».
Больше от TechRadar Pro
2024-02-03 18:59:49
1706992246
#Берите #противотанковые #ракеты #столько #сколько #вам #нужно #исследователи #Amazon #считают #что #огромное #количество #открытой #сети #это #всего #лишь #чушь #созданная #искусственным #интеллектом #машинным #переводом