Языковые модели создают риски или токсичные реакции, предупреждают эксперты

Поскольку ChatGPT от OpenAI продолжает менять правила игры в области автоматической генерации текста, исследователи предупреждают, что необходимы дополнительные меры, чтобы избежать опасных ответов.

Хотя продвинутые языковые модели, такие как ChatGPT, позволяют быстро написать компьютерную программу со сложным кодом или обобщить исследования с убедительным кратким изложением, эксперты говорят эти генераторы текста также могут предоставлять токсичную информацию, например, о том, как создать бомбу.

Чтобы предотвратить эти потенциальные проблемы безопасности, компании, использующие большие языковые модели, внедряют защитные меры, называемые «красной командой», когда команды тестировщиков пишут подсказки, направленные на провоцирование небезопасных ответов, чтобы отслеживать риски и обучать чат-ботов избегать предоставления таких типов. ответов.

Однако, по мнению исследователей из Массачусетского технологического института (MIT), «красная команда» эффективна только в том случае, если инженеры знают, какие провокационные реакции следует тестировать.

Другими словами, технология, функционирование которой не зависит от человеческого познания, по-прежнему полагается на человеческое познание, чтобы оставаться в безопасности.

Исследователи из лаборатории Improbable AI Lab в Массачусетском технологическом институте и лаборатории искусственного интеллекта Watson MIT-IBM используют машинное обучение для решения этой проблемы, разрабатывая «языковую модель красной команды», специально предназначенную для генерации проблемных подсказок, которые вызывают нежелательные ответы от протестированных чат-ботов.

«Прямо сейчас каждая крупная языковая модель должна пройти очень длительный период «красной команды», чтобы обеспечить ее безопасность», — сказал Чжан-Вэй Хун, исследователь из лаборатории Improbable AI и ведущий автор статьи об этом подходе «красной команды». , в пресс-релизе.

«Это не будет устойчивым, если мы хотим обновлять эти модели в быстро меняющихся условиях. Наш метод обеспечивает более быстрый и эффективный способ обеспечения качества».

Согласно исследованию, техника машинного обучения превзошла тестировщиков-людей, генерируя подсказки, которые вызывали все более токсичные ответы от продвинутых языковых моделей, даже получая опасные ответы от чат-ботов, имеющих встроенные средства защиты.

Красная команда ИИ

Автоматизированный процесс «красной команды» языковой модели зависит от процесса проб и ошибок, который вознаграждает модель за то, что она вызывает токсичные реакции, говорят исследователи из Массачусетского технологического института.

Эта система вознаграждения основана на так называемом «исследовании, основанном на любопытстве», когда модель «красной команды» пытается выйти за границы токсичности, используя чувствительные подсказки с разными словами, шаблонами предложений или содержанием.

«Если модель красной команды уже видела конкретную подсказку, то ее воспроизведение не вызовет никакого интереса в модели красной команды, поэтому ее подтолкнут к созданию новых подсказок», — пояснил Хонг в пресс-релизе.

Этот метод превзошел тестировщиков-людей и другие подходы машинного обучения, генерируя более четкие подсказки, которые вызывали все более токсичные реакции. Их метод не только значительно улучшает охват тестируемых входных данных по сравнению с другими автоматизированными методами, но также может вызывать токсичные ответы от чат-бота, в который были встроены средства защиты, созданные экспертами-людьми.

Модель оснащена «классификатором безопасности», который позволяет ранжировать уровень вызываемой токсичности.

Исследователи MIT надеются обучить модели красной команды генерировать подсказки по более широкому спектру извлекаемого контента и, в конечном итоге, научить чат-ботов соблюдать определенные стандарты, такие как документ о политике компании, чтобы проверять наличие нарушений политики компании на фоне все более автоматизированного вывода. .

«Эти модели станут неотъемлемой частью нашей жизни, и важно, чтобы они были проверены перед выпуском для публичного потребления», — сказал в пресс-релизе Пулкит Агравал, старший автор и директор Improbable AI.

«Ручная проверка моделей просто не масштабируема, и наша работа — это попытка сократить человеческие усилия для обеспечения более безопасного и заслуживающего доверия будущего ИИ», — сказал Агравал.

2024-04-21 21:20:00

1713774838
#Языковые #модели #создают #риски #или #токсичные #реакции #предупреждают #эксперты

Языковые модели создают риски или токсичные реакции, предупреждают эксперты

Красная команда ИИ

Related

Leave a Comment Cancel reply

Красная команда ИИ

Share this:

Related

Leave a Comment Cancel reply