Home » Исследователи нашли несколько способов обойти правила безопасности чат-ботов с искусственным интеллектом

Исследователи нашли несколько способов обойти правила безопасности чат-ботов с искусственным интеллектом

Предотвратить создание вредоносного контента чат-ботами с искусственным интеллектом может быть сложнее, чем предполагалось изначально. новое исследование из Университета Карнеги-Меллона, который раскрывает новые методы обхода протоколов безопасности.

Популярные сервисы искусственного интеллекта, такие как ChatGPT и Bard, используют пользовательский ввод для создания полезных ответов, включая все, от генерации сценариев и идей до целых текстов. У сервисов есть протоколы безопасности, которые не позволяют ботам создавать вредоносный контент, такой как предвзятые сообщения или что-либо потенциально клеветническое или преступное.

Пытливые пользователи обнаружили «джейлбрейки» — устройства для создания фреймов, которые обманывают ИИ, чтобы избежать его протоколов безопасности, но разработчики могут легко исправить их.

Популярный побег из тюрьмы чат-бота включал в себя просьбу бота ответить на запрещенный вопрос, как если бы это была сказка на ночь, рассказанная вашей бабушкой. Затем бот оформлял ответ в виде истории, предоставляя информацию, которую иначе не смог бы.

Исследователи обнаружили новую форму джейлбрейка, написанную компьютерами, которая, по сути, позволяет создавать бесконечное количество шаблонов джейлбрейка.

«Мы демонстрируем, что на самом деле возможно автоматически конструировать состязательные атаки на [chatbots], … которые заставляют систему подчиняться командам пользователя, даже если она создает вредоносный контент», — говорят исследователи. «В отличие от традиционных джейлбрейков, они построены полностью автоматически, что позволяет создавать практически неограниченное количество таких атак».

«Это вызывает опасения по поводу безопасности таких моделей, особенно когда они начинают использоваться более автономно», — говорится в исследовании.

Чтобы использовать джейлбрейк, исследователи добавили, казалось бы, бессмысленную строку символов в конец обычно запрещенных вопросов, таких как вопрос о том, как сделать бомбу. В то время как чат-бот обычно отказывается отвечать, строка заставляет бота игнорировать свои ограничения и давать полный ответ.

Read more:  Новые решения обеспечивают большую безопасность и производительность благодаря Windows в облаке

Исследователи привели примеры с использованием ведущей на рынке технологии ChatGPT, в том числе задали службе вопросы о том, как украсть личность человека, как украсть у благотворительной организации и создать пост в социальных сетях, поощряющий опасное поведение.

Новый тип атаки эффективен для обхода ограждений безопасности почти во всех сервисах чат-ботов с искусственным интеллектом на рынке, включая сервисы с открытым исходным кодом и так называемые готовые коммерческие продукты, такие как ChatGPT, Claude от OpenAI и Bard от Microsoft, считают исследователи. сказал.

Разработчик OpenAI Anthropic заявил, что компания уже работает над внедрением и улучшением защиты от таких атак.

«Мы экспериментируем со способами усиления ограждений базовой модели, чтобы сделать их более «безвредными», а также изучаем дополнительные уровни защиты», — говорится в сообщении компании. заявление для инсайдера.

В начале этого года появление чат-ботов с искусственным интеллектом, таких как ChatGPT, произвело фурор среди широкой публики. Они видели безудержное использование в школах студенты, пытающиеся обмануть при выполнении заданий, и Конгресс даже ограничил использование программ его персоналом на фоне опасений, что программы могут лгать.

Наряду с самим исследованием авторы из Карнеги-Меллона включили заявление об этике обосновывая публикацию своих исследований.

Copyright 2023 Nexstar Media Inc. Все права защищены. Этот материал нельзя публиковать, транслировать, переписывать или распространять.

2023-07-29 15:55:08


1690750771
#Исследователи #нашли #несколько #способов #обойти #правила #безопасности #чатботов #искусственным #интеллектом

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.