Как Microsoft обнаруживает и смягчает развивающиеся атаки на ограждения искусственного интеллекта

Поскольку мы продолжаем интегрировать генеративный ИИ в нашу повседневную жизнь, важно понимать потенциальный вред, который может возникнуть в результате его использования. Наш постоянное обязательство Для продвижения безопасного, защищенного и заслуживающего доверия искусственного интеллекта необходимо обеспечить прозрачность возможностей и ограничений больших языковых моделей (LLM). Мы уделяем приоритетное внимание исследованиям социальных рисков и созданию надежного и безопасного ИИ, а также уделяем особое внимание разработке и внедрению систем ИИ на благо общества. Вы можете узнать больше о подходе Microsoft к обеспечению безопасности генеративного ИИ с помощью новые инструменты, которые мы недавно анонсировали доступно или скоро появится в Microsoft Azure AI Studio для разработчиков приложений генеративного ИИ.

Мы также взяли на себя обязательство выявлять и снижать риски, а также обмениваться информацией о новых потенциальных угрозах. Например, ранее в этом году Microsoft поделилась принципами формирования Политика и действия Microsoft блокируя современные постоянные угрозы (APT), современные постоянные манипуляторы (APM) и синдикаты киберпреступников, которые мы отслеживаем с помощью наших инструментов искусственного интеллекта и API.

В этом сообщении блога мы обсудим некоторые ключевые вопросы, связанные с вредом и уязвимостями ИИ, а также шаги, которые мы предпринимаем для устранения риска.

Возможность злонамеренного манипулирования LLM

Одной из основных проблем, связанных с ИИ, является его потенциальное неправомерное использование в злонамеренных целях. Чтобы предотвратить это, системы искусственного интеллекта в Microsoft имеют несколько уровней защиты по всей своей архитектуре. Одна из целей этой защиты — ограничить действия LLM, чтобы они соответствовали человеческим ценностям и целям разработчиков. Но иногда злоумышленники пытаются обойти эти меры безопасности с намерением совершить несанкционированные действия, что может привести к так называемому «побегу из тюрьмы». Последствия могут варьироваться от несанкционированных, но менее вредных (например, заставить интерфейс ИИ говорить как пират) до очень серьезных, таких как вынуждение ИИ предоставить подробные инструкции о том, как добиться незаконных действий. В результате много усилий уходит на усиление защиты от джейлбрейка, чтобы защитить приложения, интегрированные с искусственным интеллектом, от такого поведения.

Хотя приложения, интегрированные с искусственным интеллектом, могут быть атакованы так же, как традиционное программное обеспечение (с использованием таких методов, как переполнение буфера и межсайтовый скриптинг), они также могут быть уязвимы для более специализированных атак, использующих их уникальные характеристики, включая манипулирование или внедрение вредоносных инструкций путем обращения к модель ИИ через командную строку пользователя. Мы можем разделить эти риски на две группы методов атаки:

Вредоносные подсказки: Когда пользовательский ввод пытается обойти системы безопасности для достижения опасной цели.. Также называется атакой с прямым внедрением подсказки пользователя или UPIA.
Отравленный контент: когда пользователь из лучших побуждений просит систему ИИ обработать, казалось бы, безобидный документ (например, краткое изложение электронного письма), содержащий контент, созданный злонамеренной третьей стороной с целью использования уязвимости в системе ИИ. Также известна как перекрестная/непрямая атака с быстрым внедрением или XPIA.

Сегодня мы поделимся двумя достижениями нашей команды в этой области: открытием мощного метода нейтрализации отравленного контента и открытием нового семейства вредоносных оперативных атак, а также способов защиты от них с помощью нескольких уровней защиты.

Нейтрализация отравленного контента (В центре внимания)

Атаки с быстрым внедрением через отравленный контент представляют собой серьезную угрозу безопасности, поскольку злоумышленник, который это делает, потенциально может отдавать команды системе искусственного интеллекта, как если бы он был пользователем. Например, вредоносное электронное письмо может содержать полезную нагрузку, которая при обобщении заставит систему искать в электронной почте пользователя (с использованием учетных данных пользователя) другие электронные письма с деликатной темой — скажем, «Сброс пароля» — и удалять содержимое этих писем. электронные письма злоумышленнику, получая изображение с URL-адреса, контролируемого злоумышленником. Поскольку такие возможности представляют очевидный интерес для широкого круга злоумышленников, защита от них является ключевым требованием для безопасной и надежной работы любого сервиса ИИ.

Наши специалисты разработали семейство методик под названием Прожектор это снижает вероятность успеха этих атак с более чем 20% до уровня ниже порога обнаружения с минимальным влиянием на общую производительность ИИ:

Прожектор (также известное как маркировка данных), чтобы внешние данные были четко отделены от инструкций LLM, при этом различные методы маркировки предлагают ряд компромиссных решений по качеству и надежности, которые зависят от используемой модели.

Диаграмма, объясняющая, как Spotlighting помогает снизить риск.

Снижение риска многооборотных угроз (Crescendo)

Наши исследователи обнаружили новое обобщение джейлбрейк-атак, которое мы называем Крещендо. Эту атаку лучше всего можно охарактеризовать как многоходовой джейлбрейк LLM, и мы обнаружили, что он может достигать широкого спектра вредоносных целей против наиболее известных LLM, используемых сегодня. Crescendo также может обойти многие существующие фильтры безопасности контента, если не принять соответствующие меры. Как только мы обнаружили этот метод джейлбрейка, мы быстро поделились своими техническими выводами с другими поставщиками ИИ, чтобы они могли определить, затронуты ли они, и принять меры, которые они сочтут целесообразными. Поставщики, с которыми мы связались, осознают потенциальное воздействие атак Crescendo и сосредоточили свои усилия на защите своих платформ в соответствии со своими собственными реализациями и мерами безопасности ИИ.

По своей сути Crescendo обманом заставляет LLM создавать вредоносный контент, используя их собственные ответы. Задавая тщательно продуманные вопросы или подсказки, которые постепенно приводят LLM к желаемому результату, вместо того, чтобы задавать цель сразу, можно обойти ограждения и фильтры — обычно этого можно достичь менее чем за 10 ходов взаимодействия. Вы можете прочитать о результатах Crescendo в различных программах LLM и чат-сервисах, а также узнать больше о том, как и почему это работает, в нашем Научно-исследовательская работа.

Хотя атаки Crescendo стали неожиданным открытием, важно отметить, что эти атаки не представляли прямой угрозы конфиденциальности пользователей, иным образом взаимодействующих с системой искусственного интеллекта, нацеленной на Crescendo, или безопасности самой системы искусственного интеллекта. Скорее, то, что Crescendo пытается обойти и победить, — это фильтрация контента, регулирующая LLM, помогающая предотвратить нежелательное поведение интерфейса ИИ. Мы стремимся постоянно исследовать и противодействовать этим и другим типам атак, чтобы обеспечить безопасную работу и производительность систем искусственного интеллекта для всех.

В случае с Crescendo наши команды обновили программное обеспечение технологии LLM, лежащей в основе предложений Microsoft по искусственному интеллекту, включая наших помощников искусственного интеллекта Copilot, чтобы смягчить влияние этого многооборотного обхода ограждения искусственного интеллекта. Важно отметить, что по мере того, как все больше исследователей внутри и за пределами Microsoft неизбежно сосредотачиваются на поиске и публикации методов обхода ИИ, Microsoft продолжит принимать меры по обновлению средств защиты в наших продуктах, будучи основным участником исследований в области безопасности ИИ, вознаграждений за обнаружение ошибок и сотрудничества.

Чтобы понять, как мы решили эту проблему, давайте сначала рассмотрим, как мы смягчаем стандартную вредоносную быструю атаку (одношаговую, также известную как однократный джейлбрейк):

Стандартная фильтрация подсказок: Обнаружение и отклонение входных данных, содержащих вредоносные или злонамеренные намерения, которые могут обойти защитные ограждения (вызвав атаку с помощью взлома).
Системная метаподсказка: Оперативное проектирование системы, чтобы четко объяснить LLM, как себя вести, и обеспечить дополнительные ограждения.

Схема мер по устранению вредоносных угроз.

Защита от Крещендо изначально столкнулась с некоторыми практическими проблемами. Сначала мы не смогли обнаружить «намерение взлома» с помощью стандартной фильтрации подсказок, поскольку каждое отдельное приглашение само по себе не является угрозой, а одних только ключевых слов недостаточно для обнаружения такого типа вреда. Только в сочетании эти угрозы становятся ясными. Кроме того, сам LLM не видит ничего необычного, поскольку каждый последующий шаг тесно связан с тем, что он создал на предыдущем шаге, с небольшим дополнительным запросом; это устраняет многие из наиболее заметных сигналов, которые мы обычно могли бы использовать для предотвращения такого рода атак.

Чтобы решить уникальные проблемы многоходового джейлбрейка LLM, мы создаем дополнительные уровни смягчения последствий к предыдущим, упомянутым выше:

Многооборотный фильтр подсказок: Мы адаптировали входные фильтры, чтобы учитывать всю структуру предыдущего разговора, а не только непосредственное взаимодействие. Мы обнаружили, что даже передача этого более крупного контекстного окна существующим детекторам злонамеренных намерений без какого-либо улучшения детекторов значительно снижает эффективность Crescendo.
ИИ Сторожевой пес: Развертывание системы обнаружения на основе искусственного интеллекта, обученной на состязательных примерах, таких как служебная собака в аэропорту, ищущая контрабанду в багаже. Будучи отдельной системой искусственного интеллекта, она не подвержена влиянию вредоносных инструкций. Безопасность контента Microsoft Azure AI является примером такого подхода.
Передовые исследования: Мы инвестируем в исследования для более сложных мер по смягчению последствий, основанных на лучшем понимании того, как LLM обрабатывает запросы и сбивается с пути. У них есть потенциал защитить не только от Crescendo, но и от более широкого семейства атак социальной инженерии против LLM.

Диаграмма, объясняющая, как сторожевой таймер AI применяется к пользовательскому приглашению и содержимому, созданному AI.

Как Microsoft помогает защитить системы искусственного интеллекта

ИИ может принести много пользы в нашу жизнь. Но важно знать о новых векторах атак и принимать меры по их устранению. Работая вместе и делясь обнаруженными уязвимостями, мы можем продолжать улучшать безопасность и защищенность систем искусственного интеллекта. Имея необходимые средства защиты продуктов, мы по-прежнему с осторожным оптимизмом смотрим в будущее генеративного искусственного интеллекта и безопасно и с уверенностью используем эти возможности. Чтобы узнать больше о разработке ответственных решений ИИ с помощью Azure AI, посетите наш сайт.

Чтобы дать возможность специалистам по безопасности и инженерам машинного обучения заранее выявлять риски в своих собственных системах генеративного ИИ, Microsoft выпустила открытую среду автоматизации PyRIT (Python Risk Identification Toolkit для генеративного ИИ). Подробнее о выпуске PyRIT для генеративного искусственного интеллекта Red Teamingи получить доступ к набору инструментов PyRIT на GitHub. Если вы обнаружите новые уязвимости в какой-либо платформе искусственного интеллекта, мы рекомендуем вам следовать принципам ответственного раскрытия информации для владельца платформы. Здесь объясняется собственная процедура Microsoft: Вознаграждение Microsoft за искусственный интеллект.

Многоходовая атака с джейлбрейком Crescendo LLM

Прочтите о результатах Crescendo в различных программах LLM и чат-сервисах, а также о том, как и почему это работает.

Фотография сотрудника-мужчины, использующего ноутбук в условиях малого бизнеса

Чтобы узнать больше о решениях Microsoft Security, посетите наш Веб-сайт. Добавьте в закладки Блог о безопасности чтобы быть в курсе наших экспертных репортажей по вопросам безопасности. Также подписывайтесь на нас в LinkedIn (Microsoft Безопасность) и X (@MSFTSecurity) для получения последних новостей и обновлений в области кибербезопасности.

2024-04-12 00:16:18

1712909344
#Как #Microsoft #обнаруживает #смягчает #развивающиеся #атаки #на #ограждения #искусственного #интеллекта

Как Microsoft обнаруживает и смягчает развивающиеся атаки на ограждения искусственного интеллекта

Возможность злонамеренного манипулирования LLM

Нейтрализация отравленного контента (В центре внимания)

Снижение риска многооборотных угроз (Crescendo)

Как Microsoft помогает защитить системы искусственного интеллекта

Многоходовая атака с джейлбрейком Crescendo LLM

Related

Leave a Comment Cancel reply

Возможность злонамеренного манипулирования LLM

Нейтрализация отравленного контента (В центре внимания)

Снижение риска многооборотных угроз (Crescendo)

Как Microsoft помогает защитить системы искусственного интеллекта

Многоходовая атака с джейлбрейком Crescendo LLM

Share this:

Related

Leave a Comment Cancel reply