«Берите противотанковые ракеты столько, сколько вам нужно» — исследователи Amazon считают, что огромное количество открытой сети — это всего лишь чушь, созданная искусственным интеллектом и машинным переводом.

Исследователи из лаборатории искусственного интеллекта Амазонка Веб-сервисы (АВС) обнаружили, что большое количество онлайн-контента поступает из источников машинного перевода (MT).

Этот контент, который переводится на множество разных языков, часто имеет низкое качество, что, по словам команды, подчеркивает острую необходимость в качестве данных и учете источников при обучении больших языковых моделей (LLM).

Исследователи также обнаружили, что машинно-генерируемый контент часто встречается при переводах на языки, у которых меньше ресурсов, и что он составляет значительную часть всего контента в сети.

Критерий отбора

«Мы действительно заинтересовались этой темой, потому что несколько коллег, которые работают в области машинного перевода и являются носителями языков с ограниченными ресурсами, отметили, что большая часть Интернета на их родном языке, по-видимому, создается с помощью машинного перевода», — Мехак Даливал, бывший стажер прикладных наук в AWS. и нынешний аспирант Калифорнийского университета в Санта-Барбаре рассказал Материнская плата.

«Таким образом, идея действительно пришла от носителей языка с ограниченными ресурсами, и мы провели исследование, чтобы лучше понять проблему и увидеть, насколько она широко распространена».

Команда разработала обширный ресурс, известный как Multi-Way ccMatrix (MWccMatrix), чтобы лучше понять особенности контента, переведенного машинами. Этот ресурс содержит 6,4 миллиарда уникальных предложений на 90 различных языках и включает кортежи перевода, которые представляют собой наборы предложений на разных языках, которые являются переводами друг друга.

Исследование, представленное в Корнелльский университет сервер предварительной печати arXiv, обнаружили, что огромные объемы веб-контента часто переводятся на множество языков, в основном с помощью машинного перевода. Этот контент не только широко распространен в переводах на языки с меньшим количеством ресурсов, но также составляет значительную часть всего веб-контента на этих языках.

Исследователи также заметили предвзятость при выборе контента, который переводится на несколько языков, вероятно, с целью получения дохода от рекламы.

В документе делается вывод: «Технологии МТ значительно улучшились за последнее десятилетие, но все еще не соответствуют человеческим качествам. Контент MT добавлялся в Интернет на протяжении многих лет с использованием систем MT, доступных на тот момент, поэтому большая часть MT в сети, вероятно, имеет очень низкое качество по современным стандартам. Это может привести к созданию менее плавных моделей LLM с большим количеством галлюцинаций, а систематическая ошибка отбора указывает на то, что данные могут быть более низкого качества даже без учета ошибок MT. Качество данных имеет решающее значение в обучении LLM, где высококачественные корпуса, такие как книги и статьи в Википедии, обычно подвергаются повышению выборки в несколько раз».

Больше от TechRadar Pro

2024-02-03 18:59:49

1706992246
#Берите #противотанковые #ракеты #столько #сколько #вам #нужно #исследователи #Amazon #считают #что #огромное #количество #открытой #сети #это #всего #лишь #чушь #созданная #искусственным #интеллектом #машинным #переводом

Related

Leave a Comment Cancel reply

Share this:

Related

Leave a Comment Cancel reply