Что такое ChatGPT? Новый Франкенштейн в мире технологий?

Нью-Дели: Пока мир сходит с ума от управляемого искусственным интеллектом (ИИ) чат-бота под названием ChatGPT, который пишет стихи и эссе и делает юмористические комментарии, как ваш дружелюбный приятель, разговорный ИИ открыл несколько границ для реальных случаев использования в будущем. , только при бережном обращении.

Согласно OpenAI, компании, стоящей за chatGPT, они обучили модель ИИ, которая взаимодействует в диалоговом режиме.

Формат диалога позволяет ChatGPT отвечать на дополнительные вопросы, признавать свои ошибки, оспаривать неверные предпосылки и отклонять неуместные запросы.

ChatGPT является родственной моделью InstructGPT, которая обучена следовать инструкциям в подсказке и предоставлять подробный ответ, согласно OpenAI, который был приобретен Microsoft за 1 миллиард долларов.

Вот как это работает
Компания обучила модель с помощью «обучения с подкреплением на основе отзывов людей» (RLHF), используя те же методы, что и InstructGPT, но с небольшими отличиями в настройке сбора данных.

«Мы обучили первоначальную модель с помощью тонкой настройки под наблюдением: инструкторы по искусственному интеллекту проводили беседы, в которых они играли обе стороны — пользователя и помощника по искусственному интеллекту», — говорит OpenAI.

Команды предоставили инструкторам доступ к написанным образцам предложениям, чтобы помочь им составить свои ответы.

«Мы смешали этот новый набор данных диалога с набором данных InstructGPT, который мы преобразовали в формат диалога», — сообщили в компании.

Чтобы создать модель вознаграждения для обучения с подкреплением, потребовались разговоры тренеров по ИИ с чат-ботом.

«Мы случайным образом выбрали написанное моделью сообщение, отобрали несколько альтернативных вариантов завершения и попросили инструкторов по ИИ оценить их. Используя эти модели вознаграждения, мы можем точно настроить модель с помощью «оптимизации проксимальной политики». Мы выполнили несколько итераций этого процесса», объяснил OpenAI.

Каковы его ограничения?
ChatGPT иногда пишет правдоподобно звучащие, но неправильные или бессмысленные ответы.

По словам компании, решить эту проблему сложно, так как во время обучения RL в настоящее время нет источника правды, а обучение модели быть более осторожной заставляет ее отклонять вопросы, на которые она может ответить правильно.

Кроме того, контролируемое обучение вводит модель в заблуждение, потому что «идеальный ответ зависит от того, что знает модель, а не от того, что знает человек-демонстратор».

ChatGPT чувствителен к изменениям фразировки ввода или повторным попыткам ввести одно и то же приглашение. Например, при одной формулировке вопроса модель может заявить, что не знает ответа, но при небольшой перефразировке может ответить правильно, согласно OpenAI.

Модель часто чрезмерно многословна и злоупотребляет определенными фразами, например, повторяет, что это языковая модель, обученная OpenAI.

«Эти проблемы возникают из-за предвзятости в обучающих данных (инструкторы предпочитают более длинные ответы, которые выглядят более исчерпывающими) и хорошо известных проблем чрезмерной оптимизации», — признали в компании.

«Хотя мы приложили усилия, чтобы заставить модель отклонять неуместные запросы, она иногда будет реагировать на вредные инструкции или проявлять предвзятое поведение. Мы используем API модерации, чтобы предупреждать или блокировать определенные типы небезопасного контента, но мы ожидаем, что он будет некоторые ложные отрицательные и положительные результаты на данный момент», — добавил он.

В настоящее время компания собирает отзывы пользователей.

Что такое ChatGPT? Новый Франкенштейн в мире технологий?

Related

Leave a Comment Cancel reply

Share this:

Related

Leave a Comment Cancel reply