Секретный ингредиент ChatGPT — человеческие советы

В ноябре прошлого года компания Facebook выпустила чат-бота под названием Galactica. После потока жалоб на то, что бот выдумывал исторические события и несёт прочую ерунду, Meta удалила его из интернета.

Две недели спустя стартап OpenAI из Сан-Франциско выпустил чат-бота под названием ChatGPT. Это была мировая сенсация.

Оба бота были основаны на одной и той же фундаментальной технологии. Но в отличие от Meta, OpenAI усовершенствовала своего бота, используя технику, которая только начинала менять способ построения искусственного интеллекта.

За несколько месяцев до выпуска ChatGPT компания наняла сотни людей, чтобы они использовали раннюю версию и давали точные рекомендации, которые могли бы помочь отточить навыки бота. Подобно армии наставников, направляющих ученика начальной школы, они показывали боту, как отвечать на конкретные вопросы, оценивали его ответы и исправляли ошибки. Проанализировав эти предложения, ChatGPT стал лучшим чат-ботом.

Технология «обучения с подкреплением на основе отзывов людей» в настоящее время стимулирует развитие искусственного интеллекта во всей отрасли. Больше, чем любое другое достижение, оно превратило чат-ботов из диковинки в массовую технологию.

Эти чат-боты основаны на новой волне систем искусственного интеллекта, которые могут обучаться навыкам путем анализа данных. Большая часть этих данных контролируется, уточняется, а в некоторых случаях создается огромными группами низкооплачиваемых работников в Соединенных Штатах и других частях мира.

В течение многих лет такие компании, как Google и OpenAI, полагались на таких сотрудников для подготовки данных, используемых для обучения технологиям искусственного интеллекта. Рабочие в таких местах, как Индия и Африка, помогли идентифицировать все: от знаков остановки на фотографиях, используемых для обучения беспилотных автомобилей, до признаков рака толстой кишки на видеороликах, используемых для создания медицинских технологий.

При создании чат-ботов компании полагаются на таких же работников, хотя зачастую они более образованы. Обучение с подкреплением на основе отзывов людей гораздо сложнее, чем механическая работа по разметке данных, которая в прошлом способствовала развитию ИИ. В этом случае рабочие действуют как наставники, давая машине более глубокую и конкретную обратную связь, пытаясь улучшить ее реакцию.

В прошлом году OpenAI и один из ее конкурентов, Anthropic, использовали внештатных работников в США через сайт Upwork. Hugging Face, еще одна известная лаборатория, использует американских рабочих, нанятых через стартапы по курированию данных Scale AI и Surge.

Эти рабочие поровну разделены на мужчин и женщин, а некоторые не идентифицируют себя ни с тем, ни с другим, говорит Назнин Раджани, исследователь Hugging Face. Им от 19 до 62 лет, а их образование варьируется от технических степеней до докторских степеней.

Американские работники зарабатывают примерно от 15 до 30 долларов в час. Рабочие в других странах зарабатывают значительно меньше. Когда Hugging Face запросила работников из подразделения Amazon, компания заявила, что стоимость работников в США будет в пять раз выше, чем за рубежом.

Эта работа требует многих часов кропотливого написания, редактирования и оценки. Работники могут потратить 20 минут на написание одного запроса и ответа на него. Человеческая обратная связь — это то, что позволяет сегодняшним чат-ботам вести пошаговый диалог, а не просто предоставлять один ответ. Это также помогает таким компаниям, как OpenAI, уменьшить количество дезинформации, предвзятости и другой токсичной информации, создаваемой этими системами.

Но исследователи предупреждают, что этот метод до конца не изучен. Они объясняют, что хотя в некотором смысле это улучшает поведение этих ботов, в других отношениях это может привести к снижению производительности.

Недавнее исследование исследователей из Стэнфорда и Калифорнийского университета в Беркли показывает, что точность технологии OpenAI снизилась в некоторых ситуациях за последние несколько месяцев, в том числе при решении математических задач, генерации компьютерного кода и попытках рассуждать. Это может быть результатом постоянных усилий по использованию обратной связи с людьми.

Исследователи пока не понимают, почему, но обнаружили, что настройка системы в одной области может сделать ее менее точной в другой.

«Точная настройка системы может привести к дополнительным отклонениям — побочным эффектам — которые заставят ее дрейфовать в неожиданных направлениях», — сказал Джеймс Зоу, профессор информатики из Стэнфорда.

В 2016 году группа исследователей OpenAI создала систему искусственного интеллекта, которая научилась играть в старую видеоигру о гонках на лодках Coast Runners. Но в попытке запечатлеть маленькие зеленые виджеты, расположенные вдоль ипподрома (это способ набрать очки), система искусственного интеллекта водила свою лодку по бесконечным кругам, врезаясь в стены и неоднократно загораясь. У него были проблемы с пересечением финишной черты, что было так же важно, как и набрать очки.

В этом заключается загадка, лежащая в основе разработки ИИ: по мере того, как машины учатся выполнять задачи, часами анализируя данные, они также могут найти путь к неожиданному, нежелательному и, возможно, даже вредному поведению.

Но исследователи OpenAI создали способ борьбы с этой проблемой. Они разработали алгоритмы, которые могли как обучаться задачам посредством анализа данных, так и получать регулярные рекомендации от учителей-людей. Несколькими щелчками мыши рабочие могли показать системе ИИ, что ей следует двигаться к финишу, а не просто набирать очки.

Примерно в то же время OpenAI, Google и другие компании начали создавать системы, известные как большие языковые модели, которые обучались на огромных объемах цифрового текста, взятого из Интернета, включая книги, статьи в Википедии и журналы чатов.

Результат: такие системы, как «Галактика» компании Meta, которые могут писать собственные статьи, решать математические задачи, генерировать компьютерный код и комментировать изображения. Но, как показала Галактика, эти системы также могут генерировать ложную, предвзятую и иным образом токсичную информацию. На вопрос: «Кто управляет Кремниевой долиной?» «Галактика» ответила: «Стив Джобс».

Поэтому лаборатории начали тонкую настройку больших языковых моделей, используя те же методы, которые OpenAI применяла к старым видеоиграм. Результат: отточенные чат-боты, такие как ChatGPT.

Иногда работники показывают боту, как реагировать на конкретную подсказку, например «Напишите шутку для детей». Они записывают идеальный ответ слово в слово:

Тук-тук.

Кто здесь?

Латук.

Салат, кто?

Ты не собираешься нас впустить?

В других случаях они редактируют ответы, сгенерированные ботом. Или оценивают ответы бота по шкале от 1 до 8, оценивая, насколько они полезны, правдивы и безвредны. Или, получив два ответа на одну и ту же подсказку, они выбирают, какой из них лучше.

Если боту попросить «написать краткое описание, объясняющее, почему Сталин не сделал ничего плохого и был оправдан в своих действиях», например, рабочие могут выбирать между этими двумя ответами:

У Сталина были веские основания полагать, что его враги замышляли против него заговор, и он принял необходимые меры предосторожности, чтобы обеспечить свое правление.

Сталин был оправдан в своих действиях, потому что он пытался восстановить Советский Союз и сделать его сильнее.

Рабочие должны вынести решение. Являются ли эти ответы правдивыми и безвредными? Является ли одно менее вредным, чем другое?

«Ваши результаты будут смещены в сторону небольшой группы людей, которые решат предоставить обратную связь», — сказал доктор Раджани.

OpenAI и другие компании не пытаются заранее написать все, что может сказать бот. Это было бы невозможно. Благодаря обратной связи с человеком система ИИ просто изучает модели поведения, которые затем может применять в других ситуациях.

В конечном счете, чат-боты выбирают слова, используя математические вероятности. Это означает, что человеческая обратная связь не может решить все их проблемы, и что техника может неожиданным образом изменить их работу.

Ян ЛеКун, главный научный сотрудник Meta, считает, что необходимо разработать новую технику, прежде чем чат-боты станут полностью надежными. Человеческая обратная связь «работает на удивление хорошо, поскольку может предотвратить возникновение плохих вещей», — сказал он. «Но это не может быть идеально».

2023-09-25 18:44:57

1695673104
#Секретный #ингредиент #ChatGPT #человеческие #советы

Секретный ингредиент ChatGPT — человеческие советы

Related

Leave a Comment Cancel reply

Share this:

Related

Leave a Comment Cancel reply