ИИ, обученные друг на друге, начинают производить мусорный контент: исследование

Специалисты по машинному обучению говорят, что ИИ, обученный исключительно на других ИИ, в конечном итоге превратится в тарабарщину.
Один автор сравнил эффект с загрязнением, сказав: «Мы собираемся заполнить Интернет ерундой».
По их словам, это означает, что обучение ИИ путем парсинга веб-страниц будет становиться все менее и менее эффективным.

Эксперты по машинному обучению предсказывают, что по мере того, как все больше и больше контента, созданного ИИ, публикуется в Интернете, будущие ИИ, обученные на этом материале, в конечном итоге превратятся в тарабарщину.

Группа британских и канадских ученых выпустила бумага в мае, пытаясь понять, что происходит после того, как несколько поколений ИИ обучаются друг на друге.

В одном случае ИИ девятого поколения начал болтать о зайцах, хотя исходный материал был о средневековой архитектуре.

Математика показывает, что «через несколько поколений текст становится мусором». один из авторов, профессор Росс Андерсон из Кембриджского университета, написал в блоге о выводах. Изображения тоже теряют разборчивость, говорили они.

Ученые, чья статья еще не прошла рецензирование, называют это «крахом модели».

Обычно считается, что большие языковые модели (LLM), такие как ChatGPT и OpenAI, были обучены на огромных объемах данных, извлеченных из Интернета, которые, конечно, до недавнего времени в основном генерировались людьми.

Но по мере того, как наше использование этих инструментов растет, контент, созданный ИИ, массово добавляется в онлайн-пул данных, на которых будут учиться будущие LLM.

По словам ученых, в течение поколений обучения это означает, что ошибки и случаи абсурда будут накапливаться, что сделает невозможным для более поздних ИИ отличить правду от вымысла. ИИ «начнут неправильно интерпретировать то, что они считают реальным, укрепляя свои собственные убеждения», — написали они.

Андерсон использовал произведения Моцарта и его менее талантливого современника Антонио Сальери, чтобы проиллюстрировать проблему.

«Если вы тренируете музыкальную модель на Моцарте, вы можете ожидать результат, который немного похож на Моцарта, но без блеска — назовем его «Сальери»», — написал он. «А если сейчас Сальери обучает следующее поколение и так далее, то как будет звучать пятое или шестое поколение?»

Ведущий автор, доктор Илья Шумайлов из Оксфордского университета, сказал Insider, что проблема заключается в восприятии вероятности ИИ после обучения на более раннем ИИ. Невероятные события все реже и реже отражаются в его выводах, сужая то, чему будет обучаться следующий ИИ. что вывод — понимает быть можно.

В одном примере, приведенном в статье, созданный человеком текст о средневековой архитектуре был передан через языковую модель ИИ, результаты которой затем использовались для обучения следующих поколений ИИ.

Первоначальный текст, в котором ловко обрабатывались конкурирующие архитектурные теории, прошел через этот цикл несколько раз.

К девятому поколению текст превратился в чушь. Он гласил: «Архитектура. Помимо того, что здесь обитает одна из крупнейших в мире популяций черных @-@ хвостатых зайцев, белых @-@ хвостатых зайцев, синих @-@ хвостатых зайцев, красных @-@ хвостатых зайцев, желтых @- “

Андерсон сравнил это с массовым загрязнением, написав: «Точно так же, как мы забросали океаны пластиковым мусором и наполнили атмосферу углекислым газом, мы собираемся заполнить Интернет ерундой».

Контент, созданный искусственным интеллектом, уже находит широкое распространение в Интернете. В мае, Служба по борьбе с дезинформацией в Интернете NewsGuard предупредила что было обнаружено 49 новостных сайтов, которые, как оказалось, полностью написаны ИИ.

А маркетинговые и PR-агентства все чаще передают свои тексты чат-ботам, лишая людей-писателей работы, как сообщает The Washington Post.

Но, следуя выводам Шумайлова и Андерсона, писатели-люди, надеющиеся не быть побежденными ИИ, пока не должны глотать шампанское.

По словам Шумайлова, в данных, созданных человеком, нет ничего абсолютно необходимого для обучения ИИ. Причина, по которой они полезны, заключается в количестве естественных вариаций, ошибок и невероятных результатов, которые дает наш язык, сказал Шумайлов.

«Так что люди определенно помогут», — сказал он. «В то же время это не означает, что человеческие данные — это большое требование».

2023-06-19 16:41:02

1687194463
#ИИ #обученные #друг #на #друге #начинают #производить #мусорный #контент #исследование

ИИ, обученные друг на друге, начинают производить мусорный контент: исследование

Related

Leave a Comment Cancel reply

Share this:

Related

Leave a Comment Cancel reply