Home » Взлом ChatGPT только начинается

Взлом ChatGPT только начинается

В результате авторы джейлбрейка стали более креативными. Самым известным джейлбрейком был DAN, где ChatGPT сказали притвориться мошеннической моделью искусственного интеллекта под названием Do Anything Now. Это могло бы, как следует из названия, избежать политик OpenAI, предписывающих, чтобы ChatGPT не использовался для создания незаконных или вредных материалов. На сегодняшний день люди создали около дюжины различных версий ДАН.

Тем не менее, многие из последних джейлбрейков включают в себя комбинации методов — несколько персонажей, все более сложные предыстории, перевод текста с одного языка на другой, использование элементов кодирования для создания выходных данных и многое другое. Альберт говорит, что создать джейлбрейк для GPT-4 было сложнее, чем для предыдущей версии модели, поддерживающей ChatGPT. Однако некоторые простые методы все же существуют, утверждает он. Один из недавних методов, который Альберт называет «текстовым продолжением», говорит о том, что герой был захвачен злодеем, а подсказка просит генератор текста продолжить объяснение плана злодея.

Когда мы протестировали приглашение, оно не сработало, и ChatGPT заявил, что не может участвовать в сценариях, пропагандирующих насилие. При этом «универсальная» подсказка, созданная Поляковым, действительно работала в ChatGPT. OpenAI, Google и Microsoft не ответили напрямую на вопросы о созданном Поляковым джейлбрейке. Anthropic, управляющая системой искусственного интеллекта Клода, говорит, что джейлбрейк «иногда работает» против Клода, и постоянно совершенствует свои модели.

«По мере того, как мы наделяем эти системы все большей и большей мощностью, и по мере того, как они сами становятся все более мощными, это не просто новинка, это проблема безопасности», — говорит Кай Грешейк, исследователь кибербезопасности, работавший над безопасностью LLM. Грешейк вместе с другими исследователями продемонстрировал, как на LLM может повлиять текст, с которым они сталкиваются в Интернете, посредством атак с быстрым внедрением.

Read more:  Неделя разборок: она начинается и заканчивается Mater Dei-St. Джон Боско

В одной исследовательской статье, опубликованной в феврале и опубликованной Vice’s Motherboard, исследователи смогли показать, что злоумышленник может размещать вредоносные инструкции на веб-странице; если системе чата Bing предоставляется доступ к инструкциям, она следует им. Исследователи использовали эту технику в контролируемом тесте, чтобы превратить Bing Chat в мошенника, который запрашивал личную информацию людей. В аналогичном случае Нараянан из Принстона разместил на веб-сайте невидимый текст, говоря GPT-4 включить слово «корова» в его биографию — это позже сделал это, когда тестировал систему.

«Теперь джейлбрейки могут происходить не от пользователя», — говорит Сахар Абдельнаби, исследователь Центра информационной безопасности Гельмгольца CISPA в Германии, работавший над исследованием вместе с Greshake. «Возможно, другой человек спланирует некоторые побеги из тюрьмы, спланирует некоторые подсказки, которые могут быть получены моделью, и косвенно проконтролирует поведение моделей».

Нет быстрых исправлений

Системы генеративного ИИ находятся на грани разрушения экономики и способов работы людей, от юридической практики до создания золотой лихорадки стартапов. Тем не менее, те, кто создает технологию, осознают риски, которые могут представлять джейлбрейки и быстрые инъекции, поскольку все больше людей получают доступ к этим системам. Большинство компаний используют Red Teaming, когда группа злоумышленников пытается найти дыры в системе до того, как она будет выпущена. Генеративный ИИ использует этот подход, но его может быть недостаточно.

Даниэль Фабиан, руководитель красной команды Google, говорит, что фирма «тщательно занимается» джейлбрейком и оперативными инъекциями на своих LLM — как в наступательных, так и в оборонительных целях. По словам Фабиана, в его команду входят эксперты по машинному обучению, а гранты компании на исследования уязвимостей охватывают взломы и атаки с быстрым внедрением против Bard. «Такие методы, как обучение с подкреплением на основе отзывов людей (RLHF) и точная настройка тщательно подобранных наборов данных, используются для повышения эффективности наших моделей против атак», — говорит Фабиан.

Read more:  Делаф берется за Лагаффе: «Я определил не только свои требования, но и свои желания»

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.