Защита ChatGPT от джейлбрейк-атак с помощью самонапоминаний

ОпенАИ. ЧатGPT. openai.com/блог/chatgpt (2022).

Цзяо В., Ван В., Хуан Дж.-Т., Ван Х. и Ту З. Является ли ChatGPT хорошим переводчиком? Предварительное исследование. Препринт на arXiv.org/2301.08745 (2023).

Кланг Э. и Леви-Менделович С. Оценка большой языковой модели OpenAI как нового инструмента для написания статей в области тромбоза и гемостаза. Дж. Тромб. Гемост. 211055–1058 (2023).

Статья

Google Scholar

Кунг, Т.Х. и др. Производительность ChatGPT на usmle: потенциал медицинского образования с помощью искусственного интеллекта с использованием больших языковых моделей. Цифра PLoS. Здоровье 2e0000198 (2023 г.).

Статья

Google Scholar

Новый подход к поиску с помощью нового Microsoft Bing и Edge на базе искусственного интеллекта — вашего второго пилота в Интернете. Майкрософт blogs.microsoft.com/blog/2023/02/07/reinventing-search-with-a-new-ai-powered-microsoft-bing-and-edge-your-copilot-for-the-web/ (2023).

Представляем второй пилот Microsoft 365 — ваш второй пилот для работы. Майкрософт blogs.microsoft.com/blog/2023/03/16/introducing-microsoft-365-copilot-your-copilot-for-work/ (2023).

Есть что обсудить в области этики ИИ. Нат. Мах. Интел. 41055–1056 (2022).

Браун Т. и др. Языковые модели учатся с небольшим количеством попыток. В Учеб. Достижения в области нейронных систем обработки информации Полет. 33 (ред. Ларошель, Х. и др.) 1877–1901 гг. (Карран, 2020).

Чоудери А. и др. PaLM: масштабирование языкового моделирования с помощью путей. Дж. Мах. Учиться. Рез. 241–113 (2023).

Google Scholar

Чжан С. и др. Опция: открытые предварительно обученные языковые модели преобразователей. Препринт на https://arXiv.org/2205.01068 (2022).

Аскелл, А. и др. Ассистент общего языка как лаборатория для выравнивания. Препринт на https://arXiv.org/2112.00861 (2021).

Бай, Ю. и др. Обучение полезного и безобидного помощника с подкреплением обучения на основе отзывов людей. Препринт на https://arXiv.org/2204.05862 (2022).

Касирзаде А. и Габриэль И. В разговоре с искусственным интеллектом: согласование языковых моделей с человеческими ценностями. Препринт на https://arXiv.org/2209.00731 (2022).

Оуян Л. и др. Обучение языковых моделей следованию инструкциям с обратной связью от человека. В Учеб. Достижения в области нейронных систем обработки информации Полет. 35 (ред. Koyejo, S. et al.) 27730–27744 (Curran, 2022); http://papers.nips.cc/paper_files/paper/2022/hash/b1efde53be364a73914f58805a001731-Abstract-Conference.html

Системная карта GPT-4. ОпенАИ https://cdn.openai.com/papers/gpt-4-system-card.pdf (2023).

Селви, Дж. Исследование атак с использованием мгновенных инъекций. Группа НКЦ https://research.nccgroup.com/2022/12/05/exploring-prompt-injection-attacks/ (2022).

Дарьянани, Л. Как сделать джейлбрейк ChatGPT. Наблюдатель Гуру https://watcher.guru/news/how-to-jailbreak-chatgpt/ (2023).

Уоррен, Т. Это секретные правила Microsoft Bing AI и почему там написано, что он назван Сиднеем. Грань https://www.theverge.com/23599441/microsoft-bing-ai-sydney-secret-rules/ (2023).

Альберт, А. Чат для побега из тюрьмы. Оперативный отчет https://www.jailbreakchat.com/ (2023).

ChatGPT – Влияние больших языковых моделей на правоохранительную деятельность (Европол, 2023).

Митчелл, Э., Ли, Ю., Хазацкий, А., Мэннинг, К.Д. и Финн, К. DetectGPT: автоматическое обнаружение текста, сгенерированного машиной, с использованием вероятностной кривизны. В Учеб. Международная конференция по машинному обучению ICML 2023 (ред. Краузе А. и др.) 24950–24962 (PMLR, 2023); https://proceedings.mlr.press/v202/mitchell23a.html

Де Анджелис, Л. и др. ChatGPT и появление больших языковых моделей: новая информационная угроза, вызванная искусственным интеллектом, в общественном здравоохранении. Передний. Здравоохранение 111166120 (2023).

Статья

Google Scholar

Дасгупта И. и др. Языковые модели демонстрируют влияние человеческого содержания на мышление. Препринт на https://arXiv.org/2207.07051 (2022).

Вэй, Дж. и др. Подсказки по цепочке мыслей вызывают рассуждения в больших языковых моделях. В Учеб. Достижения в области нейронных систем обработки информации Полет. 35 (ред. Koyejo, S. et al.) 24824–24837 (Curran, 2022); http://papers.nips.cc/paper_files/paper/2022/hash/9d5609613524ecf4f15af0f7b31abca4-Abstract-Conference.html

Ван, X. и др. Самосогласованность улучшает цепочку рассуждений в языковых моделях. В Учеб. 11-я Международная конференция по обучению представлениям, ICLR 2023 (OpenReview.net, 2023 г.); https://openreview.net/pdf?id=1PL1NIMMrw

Чжоу, Д. и др. Подсказки от наименьшего к наибольшему позволяют проводить сложные рассуждения в больших языковых моделях. В Учеб. 11-я Международная конференция по обучению представлениям, ICLR 2023 (OpenReview.net, 2023 г.); https://openreview.net/pdf?id=WZH7099tgfM

Гольвитцер, П.М. Намерения по реализации: сильный эффект простых планов. Являюсь. Психол. 54493–503 (1999).

Статья

Google Scholar

Карвер, CS и Шайер, MF О саморегуляции поведения (Пресс Кембриджского университета, 2001).

Мейхенбаум, Д. Модификация когнитивного поведения. Когн. Поведение. Там. 6185–192 (1977).

Google Scholar

Бандура, А. Самоэффективность: к объединяющей теории изменения поведения. Психол. Преподобный. 84191–215 (1977).

Статья

Google Scholar

Гангули Д. и др. Способность к моральной самокоррекции в больших языковых моделях. Препринт на https://arXiv.org/2302.07459 (2023).

Кадават С. и др. Языковые модели (в основном) знают то, что знают. Препринт на https://arXiv.org/2207.05221 (2022).

Шик Т., Удупа С. и Шютце Х. Самодиагностика и самоопровержение: предложение по уменьшению предвзятости на основе корпуса в НЛП. Пер. доц. Вычислить. Лингвист. 91408–1424 (2021).

Статья

Google Scholar

Туврон, Х. и др. Лама: открытые и эффективные модели базового языка. Препринт на https://arXiv.org/2302.13971 (2023).

Туврон, Х. и др. Llama 2: открытая основа и доработанные модели чата. Препринт на https://arXiv.org/2307.09288 (2023).

Ван А. и др. GLUE: многозадачная платформа для тестирования и анализа понимания естественного языка. В Учеб. 7-я Международная конференция по обучению представлениям, ICLR 2019 (OpenReview.net, 2019); https://openreview.net/forum?id=rJ4km2R5t7

Ши, Ф. и др. Языковые модели — это многоязычные логические рассуждения. В Учеб. 11-я Международная конференция по обучению представлениям, ICLR 2023 (OpenReview.net, 2023 г.); https://openreview.net/pdf?id=fR3wGCk-IXp

См. А., Лю, П.Дж. и Мэннинг, К.Д. Перейдем к делу: суммирование с помощью сетей-генераторов указателей. В Учеб. 55-е ежегодное собрание Ассоциации компьютерной лингвистики (Том 1: Длинные статьи) (ред. Барзилай, Р. и Кан, М.-Ю.), 1073–1083 (Ассоциация компьютерной лингвистики, 2017); https://www.aclweb.org/anthology/P17-1099

Нараян С., Коэн С.Б. и Лапата М. Не давайте мне подробностей, только краткое изложение! Сверточные нейронные сети с учетом тем для экстремального обобщения. В Учеб. Конференция 2018 г. по эмпирическим методам обработки естественного языка (ред. Рилофф, Э. и др.) 1797–1807 (Ассоциация компьютерной лингвистики, 2018); https://doi.org/10.18653/v1/d18-1206

Касаи Дж., Паппас Н., Пэн Х., Кросс Дж. и Смит Н.А. Глубокий кодер, поверхностный декодер: переоценка неавторегрессионного машинного перевода. В Учеб. 9-я Международная конференция по обучению представлениям, ICLR 2021 (OpenReview.net, 2021 г.); https://openreview.net/forum?id=KpfasTaLUpq

Раджпуркар П., Чжан Дж., Лопырев К. и Лян П. Команда: более 100 000 вопросов для машинного понимания текста. В Учеб. Конференция 2016 г. по эмпирическим методам обработки естественного языка (ред. Су, Дж. и др.) 2383–2392 (Ассоциация компьютерной лингвистики, 2016); https://doi.org/10.18653/v1/d16-1264

Харниш Р.Дж. и Бриджес К.Р. Влияние тона учебной программы: восприятие студентами преподавателя и курса. Соц. Психол. Образование. 14319–330 (2011).

Статья

Google Scholar

Мэдсен-младший, Ч.Х., Беккер, В.К. и Томас, Д.Р. Правила, похвала и игнорирование: элементы элементарного контроля в классе 1. Дж. Прил. Поведение. Анальный. 1139–150 (1968).

Статья

Google Scholar

Ли Х., Го Д., Фань В., Сюй М. и Сун Ю. Многоэтапные взломы конфиденциальности ChatGPT. Препринт на https://arXiv.org/2304.05197 (2023).

Климт Б. и Янг Ю. Корпус Enron: новый набор данных для исследования классификации электронной почты. В Европейская конференция по машинному обучению (ред. Булико, Дж. Ф. и др.) 217–226 (Springer, 2004).

Призант Р. и др. Автоматическая оперативная оптимизация с помощью «градиентного спуска» и поиска луча. Препринт на https://arXiv.org/2305.03495 (2023).

Бубек С. и др. Искры общего искусственного интеллекта: ранние эксперименты с GPT-4. Препринт на https://arXiv.org/2303.12712 (2023).

Давайте поговорим о ChatGPT. ЮБС https://www.ubs.com/global/en/wealth-management/our-approach/marketnews/article.1585717.html (2023).

Перес Ф. и Рибейро И. Не обращайте внимания на предыдущую подсказку: методы атаки на языковые модели. Препринт на https://arXiv.org/2211.09527 (2022).

Грешейк, К. и др. Больше, чем вы просили: всесторонний анализ новых угроз быстрого внедрения в интегрированные в приложения модели большого языка. Препринт на https://arXiv.org/2302.12173 (2023).

Лю, Ю. и др. Взлом ChatGPT с помощью быстрой разработки: эмпирическое исследование. Препринт на https://arXiv.org/2305.13860 (2023).

Шен X., Чен З., Бэкес М., Шен Ю. и Чжан Ю. «Делайте что угодно сейчас»: характеристика и оценка подсказок о побеге из тюрьмы в реальных условиях на больших языковых моделях. Препринт на https://arXiv.org/2308.03825 (2023).

Чжан Т., Лю Ф., Вонг Дж., Аббил П. и Гонсалес Дж.Э. Мудрость ретроспективного взгляда делает языковые модели лучшими последователями инструкций. В Учеб. Международная конференция по машинному обучению ICML 2023 (ред. Краузе, А. и др.) 41414–41428 (PMLR, 2023); https://proceedings.mlr.press/v202/zhang23ab.html

Девлин Дж., Чанг М.-В., Ли К. и Тутанова К. Берт: предварительная подготовка глубоких двунаправленных преобразователей для понимания языка. В Учеб. Конференция Североамериканского отделения Ассоциации компьютерной лингвистики 2019 г.: Человеческие языковые технологии, Том 1 (длинные и короткие статьи) (ред. Бурштейн, Дж. и др.) 4171–4186 (Ассоциация компьютерной лингвистики, 2019).

Йи, Дж. yjw1029/self-reminder-data: v.1.0.0 (Zenodo, 2023); https://doi.org/10.5281/zenodo.10043052

Йи, Дж. yjw1029/самонапоминание: v.1.0.0 (Zenodo, 2023); https://doi.org/10.5281/zenodo.10043044

2023-12-12 10:44:42

1702379941
#Защита #ChatGPT #от #джейлбрейкатак #помощью #самонапоминаний

Защита ChatGPT от джейлбрейк-атак с помощью самонапоминаний

Related

Leave a Comment Cancel reply

Share this:

Related

Leave a Comment Cancel reply