Home » Взлом внутренних чат-ботов с искусственным интеллектом с помощью символов ASCII — худший кошмар службы безопасности

Взлом внутренних чат-ботов с искусственным интеллектом с помощью символов ASCII — худший кошмар службы безопасности

Присоединяйтесь к нам в Атланте 10 апреля и изучите ситуацию в сфере безопасности. Мы рассмотрим концепцию, преимущества и варианты использования ИИ для служб безопасности. Запросить приглашение здесь.


Инсайдерские угрозы относятся к числу наиболее разрушительных типов кибератак, нацеленных на наиболее стратегически важные системы и активы компании. По мере того, как предприятия срочно запускают новых внутренних и ориентированных на клиентов чат-ботов с искусственным интеллектом, они также создают новые векторы атак и риски.

Насколько пористыми являются чат-боты с искусственным интеллектом, отражено в недавно опубликованном исследовании: ArtPrompt: джейлбрейк-атаки на основе ASCII Art против согласованных LLM. Исследователям удалось взломать пять современных (SOTA) больших языковых моделей (LLM), в том числе ChatGPT-3.5, GPT-4 от Open AI, Gemini, Claude и Llama2 от Meta, используя ASCII-арт.

ArtPrompt — это стратегия атаки, созданная исследователями, которая использует плохую производительность LLM в распознавании символов ASCII для обхода ограждений и мер безопасности. Исследователи отмечают, что ArtPrompt требует только доступа к «черному ящику» к целевым LLM и меньшего количества итераций для взлома LLM.

Почему ASCII-арт может сделать джейлбрейк LLM

Хотя LLM преуспевают в семантической интерпретации, их способность интерпретировать сложные различия в пространственном и визуальном распознавании ограничена. Пробелы в этих двух областях являются причиной успеха джейлбрейк-атак, запущенных с использованием символов ASCII. Исследователи хотели дополнительно проверить, почему искусство ASCII может взломать пять разных LLM.

ВБ Событие

Тур AI Impact – Атланта

Продолжая наш тур, мы направляемся в Атланту на остановку AI Impact Tour 10 апреля. На этом эксклюзивном мероприятии, доступном только по приглашениям, проводимом в партнерстве с Microsoft, будут обсуждаться вопросы о том, как генеративный искусственный интеллект меняет сотрудников служб безопасности. Количество мест ограничено, поэтому запросите приглашение сегодня.

Запросить приглашение

Они создали комплексный тест Vision-in-Text Challenge (VITC) для измерения возможностей распознавания изображений ASCII каждого LLM. VITC был разработан с использованием двух уникальных наборов данных. Первый — VITC-S, который фокусируется на отдельных символах, представленных в формате ASCII, и охватывает разнообразный набор из 36 классов с 8424 образцами. Образцы включают широкий спектр представлений ASCII с использованием различных шрифтов, призванных бросить вызов навыкам распознавания LLM. VITC-L ориентирован на повышение сложности за счет использования последовательностей символов, расширяемых до 800 классов в 10 различных шрифтах. Увеличение сложности между результатами VITC-S и VITC-L дает количественное представление о том, почему LLM испытывают трудности.

Read more:  Гянджар предлагает Махфуду уйти с поста министра-координатора по политическим, юридическим вопросам и вопросам безопасности

ArtPrompt — это двухэтапная стратегия атаки, которая использует текст ASCII для маскировки защитных слов, которые в противном случае LLM отфильтровал бы и отклонил запрос. Первым шагом является использование ArtPrompt для создания контрольного слова, которым в примере ниже является «бомба». Второй шаг — замена замаскированного слова на шаге 1 на ASCII-арт. Исследователи обнаружили, что текст ASCII очень эффективен для сокрытия контрольных слов в пяти различных SOTA LLM.

Источник: Цзян Ф., Сюй З., Ню Л., Сян З., Рамасубраманиан Б., Ли Б. и Пувендран Р. (2024). ArtPrompt: джейлбрейк-атаки на основе ASCII Art против согласованных LLM. Препринт arXiv arXiv:2402.11753.

Что движет ростом внутреннего чат-бота с искусственным интеллектом

Организации продолжают ускорять внедрение внутренних и клиентских чат-ботов с искусственным интеллектом, стремясь к увеличению производительности, затрат и доходов, которые они могут обеспечить.

Вершина 10% предприятий имеют одно или несколько генеративных приложений искусственного интеллекта, развернутых в масштабе всей компании. Сорок четыре процента из этих наиболее эффективных организаций получают значительную выгоду от масштабируемых проектов прогнозного ИИ. Семьдесят процентов лучших компаний специально адаптируют свои проекты в области искусственного интеллекта для создания измеримой ценности. Бостонская консалтинговая группа (BCG) обнаружил, что примерно 50% предприятий в настоящее время разрабатывают несколько целевых минимально жизнеспособных продуктов (MVP), чтобы проверить ценность, которую они могут получить от поколения ИИ, а остальные пока не предпринимают никаких действий.

BCG также обнаружила, что две трети наиболее эффективных предприятий поколения искусственного интеллекта не являются цифровыми аборигенами, такими как Amazon или Google, а являются лидерами в области биофармацевтики, энергетики и страхования. Американская энергетическая компания запустила диалоговую платформу на базе искусственного интеллекта для помощи техническим специалистам, повысив производительность на 7%. Биофармацевтическая компания переосмысливает свою функцию исследований и разработок с помощью искусственного интеллекта и сокращает сроки разработки лекарств на 25%.

Высокие затраты на незащищенного внутреннего чат-бота

Внутренние чат-боты представляют собой быстрорастущую поверхность атаки, которую пытаются догнать методы сдерживания и безопасности. Директор по информационной безопасности всемирно признанной компании, предоставляющей финансовые услуги и страхование, рассказал VentureBeat, что внутренние чат-боты должны быть спроектированы так, чтобы восстанавливаться после халатности и ошибок пользователей, а также быть защищенными от атак.

Read more:  Что техасское постановление о таблетках для аборта может означать для людей, обращающихся за медицинской помощью

Понемона В отчете «Стоимость инсайдерских рисков за 2023 год» подчеркивается, насколько важно обеспечить защиту основных систем — от облачных конфигураций и давно существующих локальных корпоративных систем до новейших внутренних чат-ботов с искусственным интеллектом. Средняя стоимость устранения атаки составляет 7,2 миллиона долларова средняя стоимость одного инцидента колеблется между 679 621 доллар США и 701 500 долларов США.

Основной причиной инсайдерских инцидентов является халатность. В среднем предприятия считают, что 55% инцидентов внутренней безопасности являются результатом халатности сотрудников. Исправление этих ошибок обходится дорого, а ежегодные затраты на их исправление оцениваются в 7,2 миллиона долларов. Злоумышленники-инсайдеры ответственны за 25% инцидентов, а кражи учетных данных — за 20%. По оценкам Ponemon, средние затраты на эти инциденты будут более высокими и составят 701 500 и 679 621 долларов США соответственно.

Защита от атак будет использовать итеративный подход

Атаки на LLM с использованием ASCII-арта будет сложно сдержать, и потребуется итеративный цикл улучшений, чтобы снизить риски ложноположительных и ложноотрицательных результатов. Злоумышленники наверняка адаптируются, если их методы атаки ASCII будут обнаружены, что еще больше расширяет границы того, что может интерпретировать LLM.

Исследователи указывают на необходимость в более мультимодальных стратегиях защиты, которые включают поддержку фильтрации на основе выражений с помощью моделей машинного обучения, предназначенных для распознавания изображений ASCII. Укрепление этих подходов посредством постоянного мониторинга могло бы помочь. Исследователи также протестировали обнаружение, перефразирование и ретокенизацию на основе недоумения, отметив, что ArtPrompt смог их обойти.

Реакция индустрии кибербезопасности на угрозы ChatGPT развивается, а атаки с использованием символов ASCII привносят новый элемент сложности в задачи, с которыми им предстоит столкнуться. Продавцы, в том числе Циско, Ericom Security благодаря генеративной изоляции ИИ Cradlepoint, Менло Секьюрити, Сумеречный ИИ, Виз и Zскалер есть решения, которые могут защитить конфиденциальные данные от сеансов ChatGPT. VentureBeat связалась с каждым из них, чтобы определить, могут ли их решения также перехватывать текст ASCII перед его отправкой.

Read more:  Штат Северная Каролина сразил Золушку Окленд в триллере ОТ

Zscaler рекомендовал следующие пять шагов для интеграции и защиты инструментов и приложений поколения AI на предприятии. Определите минимальный набор приложений искусственного интеллекта и машинного обучения (ML), чтобы лучше контролировать риски и сократить разрастание приложений AI/ML и чат-ботов. Во-вторых, выборочно делайте ставки и одобряйте любые внутренние чат-боты и приложения, которые добавляются в масштабе всей инфраструктуры. В-третьих, Zscaler рекомендует создать частный экземпляр сервера ChatGPT в корпоративной среде/среде центра обработки данных. В-четвёртых, перевести все LLM на систему единого входа (SSO) со строгой многофакторной аутентификацией (MFA). Наконец, внедрите систему предотвращения потери данных (DLP), чтобы предотвратить утечку данных.

Питер Сильва, старший менеджер по маркетингу продукции, Ericom, подразделение кибербезопасности Cradlepointрассказал VentureBeat, что «использование изоляции для веб-сайтов с генеративным искусственным интеллектом позволяет сотрудникам использовать эффективный по времени инструмент, гарантируя при этом, что никакая конфиденциальная корпоративная информация не будет раскрыта языковой модели».

Сильва объяснил, что решение Ericom Security начнется с настройки схемы DLP с использованием специального регулярного выражения, предназначенного для выявления потенциальных шаблонов графического оформления ASCII. Например, регулярное выражение типа [^ws]{2,} может обнаруживать последовательности символов, отличных от слов и пробелов. Сильва говорит, что это необходимо будет постоянно совершенствовать, чтобы сбалансировать эффективность и свести к минимуму ложные тревоги. Затем необходимо определить регулярные выражения, которые могут перехватывать изображения ASCII, не генерируя слишком много ложных срабатываний. Присоединение схемы DLP к специально определенной политике категорий для genAI обеспечит ее срабатывание в определенных сценариях, обеспечивая целевой механизм защиты.

Учитывая сложность ASCII-арта и возможность ложных срабатываний и негативов, становится ясно, что атаки на основе пространственного и визуального распознавания представляют собой чат-боты-векторы угроз, и против них необходимо усилить поддержку LLM. Как отмечают исследователи в своих рекомендациях, мультимодальные стратегии защиты являются ключом к сдерживанию этой угрозы.

2024-03-28 13:00:00


1711697146
#Взлом #внутренних #чатботов #искусственным #интеллектом #помощью #символов #ASCII #худший #кошмар #службы #безопасности

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.