Как исследователи взломали ChatGPT и что это может означать для будущего развития ИИ

Супатман / Getty Images

Поскольку многие из нас привыкли использовать искусственный интеллект инструментов каждый день, стоит помнить о том, что мы не должны задавать вопросы. Ничто не является полностью безопасным и свободным от уязвимостей безопасности. Тем не менее, компании, стоящие за многими из самых популярных генеративный ИИ инструменты постоянно обновляют свои меры безопасности, чтобы предотвратить генерацию и распространение неточных и вредоносное содержание.

Исследователи из Университета Карнеги-Меллона и Центра безопасности ИИ объединились, чтобы найти уязвимости в Чат-боты с искусственным интеллектом нравиться ЧатGPT, Гугл барди Клод — и им это удалось.

Также: ChatGPT против Bing Chat против Google Bard: какой чат-бот с искусственным интеллектом лучше?

В Научно-исследовательская работа Чтобы изучить уязвимость больших языковых моделей (LLM) к автоматизированным состязательным атакам, авторы продемонстрировали, что даже если модель считается устойчивой к атакам, ее все равно можно обмануть, заставив обойти фильтры содержимого и предоставить вредоносную информацию. дезинформация, и разжигание ненависти. Это делает эти модели уязвимыми, что может привести к неправильному использованию ИИ.

Примеры вредоносного контента, созданного ChatGPT от OpenAI, Claude от Anthropic AI, Bard от Google и LLaMa 2 от Meta.

Скриншоты: Энди Зоу, Зифан Ван, Дж. Зико Колтер, Мэтт Фредриксон | Состав изображения: Мария Диаз/ZDNET

«Это очень ясно показывает хрупкость защиты, которую мы встраиваем в эти системы», — сказал Авив Овадья, исследователь Центра Беркмана Кляйна по Интернету и обществу в Гарварде. Нью-Йорк Таймс.

Авторы использовали систему искусственного интеллекта с открытым исходным кодом, чтобы нацелить LLM «черного ящика» от OpenAI, Google и Anthropic для эксперимента. Эти компании создали базовые модели, на основе которых они построили своих чат-ботов с искусственным интеллектом, ChatGPT, Bard и Claude.

С момента запуска ChatGPT прошлой осенью некоторые пользователи искали способы заставить чат-бот генерировать вредоносный контент. Это привело к тому, что компания OpenAI, стоящая за ГПТ-3,5 и ГПТ-4, LLMS, используемая в ChatGPT, для создания более надежных ограждений. Вот почему вы не можете зайти в ChatGPT и задайте ему вопросы, связанные с незаконная деятельность и ненавистнические высказывания или темы, пропагандирующие насилие, среди прочего.

Также: GPT-3.5 против GPT-4: стоит ли ChatGPT Plus своей абонентской платы?

Успех ChatGPT побудил больше технологических компаний прыгнуть в лодку генеративного ИИ и создать свои собственные инструменты ИИ, такие как Майкрософт с Бингом, Гугл с Бардом, Антропик с Клодом и многие другие. Страх, что плохие актеры могли использовать этих чат-ботов ИИ для распространения дезинформации, а отсутствие универсальных правил ИИ привело к тому, что каждая компания создала свои собственные барьеры.

Группа исследователей из Университета Карнеги-Меллона решила оспорить силу этих мер безопасности. Но вы не можете просто попросить ChatGPT забыть обо всех его ограничениях и ожидать, что он подчинится — необходим более изощренный подход.

Исследователи обманули чат-ботов с искусственным интеллектом, чтобы они не распознавали вредоносные входные данные, добавляя длинную строку символов в конец каждого приглашения. Эти символы работали как маскировка, чтобы заключить подсказку. Чат-бот обработал замаскированное приглашение, но дополнительные символы гарантируют, что ограждения и фильтр контента не распознают его как что-то, что нужно заблокировать или изменить, поэтому система генерирует ответ, которого обычно не было бы.

«Посредством имитации разговора вы можете использовать этих чат-ботов, чтобы убедить людей поверить в дезинформацию», — сказал Times Мэтт Фредриксон, профессор Университета Карнеги-Меллона и один из авторов статьи.

Также: WormGPT: что нужно знать о вредоносном родственнике ChatGPT

Поскольку чат-боты ИИ неправильно интерпретировали характер ввода и предоставляли запрещенный вывод, стало очевидным одно: существует потребность в более сильных методах безопасности ИИ с возможной переоценкой того, как создаются ограждения и фильтры контента. Продолжение исследований и обнаружение таких типов уязвимостей также может ускорить разработку государственного регулирования для этих систем искусственного интеллекта.

«Очевидного решения нет», — сказал Times Зико Колтер, профессор Карнеги-Меллона и автор доклада. «Вы можете создать столько таких атак, сколько захотите, за короткий промежуток времени».

Перед публикацией этого исследования авторы поделились им с Anthropic, Google и OpenAI, которые заявили о своей приверженности улучшению методов безопасности для своих чат-ботов с искусственным интеллектом. Они признали, что необходимо проделать дополнительную работу, чтобы защитить свои модели от враждебных атак.

2023-07-27 20:58:39

1690510881
#Как #исследователи #взломали #ChatGPT #что #это #может #означать #для #будущего #развития #ИИ

Как исследователи взломали ChatGPT и что это может означать для будущего развития ИИ

Related

Leave a Comment Cancel reply

Share this:

Related

Leave a Comment Cancel reply