Новый способ позволить чат-ботам с искусственным интеллектом общаться весь день без сбоев

Newswise — Когда разговор человека с искусственным интеллектом включает в себя множество раундов непрерывного диалога, мощные модели машинного обучения на больших языках, которые управляют чат-ботами, такими как ChatGPT, иногда начинают разрушаться, что приводит к быстрому снижению производительности ботов.

Команда исследователей из Массачусетского технологического института и других организаций выявила неожиданную причину этой проблемы и разработала простое решение, которое позволяет чат-боту поддерживать непрерывный разговор без сбоев и замедления.

Их метод включает в себя настройку кэша «ключ-значение» (который похож на память разговоров), лежащего в основе многих крупных языковых моделей. В некоторых методах, когда этому кэшу необходимо хранить больше информации, чем он вмещает, первые фрагменты данных выбрасываются. Это может привести к сбою модели.

Обеспечивая сохранение этих первых нескольких точек данных в памяти, метод исследователей позволяет чат-боту продолжать общение независимо от того, как долго длится разговор.

Метод, получивший название StreamingLLM, позволяет модели оставаться эффективной, даже если разговор длится более 4 миллионов слов. По сравнению с другим методом, который позволяет избежать сбоев за счет постоянного пересчета части прошлых разговоров, StreamingLLM работал более чем в 22 раза быстрее.

Это может позволить чат-боту вести долгие разговоры в течение рабочего дня без необходимости постоянной перезагрузки, что позволит использовать эффективных помощников искусственного интеллекта для таких задач, как копирайтинг, редактирование или генерация кода.

«Теперь, благодаря этому методу, мы можем постоянно развертывать эти большие языковые модели. Создав чат-бота, с которым мы всегда можем общаться и который всегда может ответить нам на основе наших недавних разговоров, мы могли бы использовать этих чат-ботов в некоторых новых приложениях», — говорит Гуансюань Сяо, аспирант электротехники и информатики (EECS). и ведущий автор статьи о StreamingLLM.

В число соавторов Сяо входят его советник Сун Хан, доцент EECS, член лаборатории искусственного интеллекта Watson MIT-IBM и выдающийся ученый NVIDIA; а также Юаньдун Тянь, научный сотрудник Meta AI; Бейди Чен, доцент Университета Карнеги-Меллон; и старший автор Майк Льюис, научный сотрудник Meta AI. Работа будет представлена на Международной конференции по обучению представлений.

Загадочный феномен

Большие языковые модели кодируют данные, например слова в пользовательском запросе, в представления, называемые токенами. Многие модели используют так называемый механизм внимания, который использует эти токены для генерации нового текста.

Обычно чат-бот с искусственным интеллектом пишет новый текст на основе только что просмотренного текста, поэтому он сохраняет последние токены в памяти, называемой KV-кэшем, для последующего использования. Механизм внимания строит сетку, включающую все токены в кэше, «карту внимания», которая показывает, насколько сильно каждый токен или слово связан с другим токеном.

Понимание этих отношений — одна из особенностей, которая позволяет большим языковым моделям генерировать текст, похожий на человеческий.

Но когда кэш становится очень большим, карта внимания может стать еще более массивной, что замедляет вычисления.

Кроме того, если для кодирования содержимого требуется больше токенов, чем может вместить кэш, производительность модели падает. Например, одна популярная модель может хранить 4096 токенов, а в научной статье содержится около 10 000 токенов.

Чтобы обойти эти проблемы, исследователи используют «скользящий кеш», который удаляет самые старые токены и добавляет новые. Однако производительность модели часто резко падает, как только этот первый токен удаляется, что быстро снижает качество вновь генерируемых слов.

В этой новой статье исследователи поняли, что если они сохранят первый токен в скользящем кеше, модель сохранит свою производительность даже при превышении размера кеша.

Но это не имело никакого смысла. Первое слово в романе, скорее всего, не имеет ничего общего с последним словом, так почему же первое слово так важно для модели, которая генерирует новое слово?

В своей новой статье исследователи также раскрыли причину этого явления.

Внимание тонет

Некоторые модели используют операцию Softmax в своем механизме внимания, который присваивает каждому токену оценку, которая показывает, насколько он связан друг с другом. Операция Softmax требует, чтобы сумма всех оценок внимания составляла 1. Поскольку большинство токенов не связаны между собой тесно, их оценки внимания очень низкие. Модель сбрасывает оставшуюся оценку внимания в первый токен.

Исследователи называют этот первый токен «приемником внимания».

«Нам нужен приемник внимания, и модель решает использовать первый токен в качестве приемника внимания, потому что он виден глобально — его могут видеть все остальные токены. Мы обнаружили, что нам всегда нужно держать приемник внимания в кеше, чтобы поддерживать динамику модели», — говорит Хан.

При создании StreamingLLM исследователи обнаружили, что наличие четырех токенов приемника внимания в начале скользящего кэша приводит к оптимальной производительности.

Они также обнаружили, что позиционное кодирование каждого токена должно оставаться неизменным, даже если добавляются новые токены и удаляются другие. Если токен 5 удален, токен 6 должен оставаться закодированным как 6, даже если теперь он является пятым токеном в кэше.

Объединив эти две идеи, они позволили StreamingLLM поддерживать непрерывный диалог, превосходя при этом популярный метод, использующий повторные вычисления.

Например, когда в кэше 256 токенов, методу перерасчета требуется 63 миллисекунды для декодирования нового токена, а StreamingLLM — 31 миллисекунду. Однако если размер кэша вырастет до 4096 токенов, для перерасчета нового токена потребуется 1411 миллисекунд, а для StreamingLLM потребуется всего 65 миллисекунд.

Исследователи также изучили использование приемников внимания во время обучения модели, добавляя несколько токенов-заполнителей во все обучающие выборки.

Они обнаружили, что обучение с использованием приемников внимания позволяет модели поддерживать производительность только с одним приемником внимания в ее кеше, а не с четырьмя, которые обычно требуются для стабилизации производительности предварительно обученной модели.

Но хотя StreamingLLM позволяет модели вести непрерывный диалог, модель не может запоминать слова, которые не хранятся в кеше. В будущем исследователи планируют устранить это ограничение, исследуя методы извлечения выселенных токенов или позволяющие модели запоминать предыдущие разговоры.

StreamingLLM был включен в большую библиотеку оптимизации языковых моделей NVIDIA TensorRT-LLM.

Эту работу частично финансируют Лаборатория искусственного интеллекта MIT-IBM Watson, Научный центр MIT и Национальный научный фонд США.

2024-02-14 01:05:00

1707886669
#Новый #способ #позволить #чатботам #искусственным #интеллектом #общаться #весь #день #без #сбоев

Новый способ позволить чат-ботам с искусственным интеллектом общаться весь день без сбоев

Related

Leave a Comment Cancel reply

Share this:

Related

Leave a Comment Cancel reply