В понедельник группа исследователей искусственного интеллекта из Google и Берлинского технического университета представила PaLM-E, мультимодальную визуальную языковую модель (VLM) с 562 миллиардами параметров, которая объединяет зрение и язык для управления роботами. Они утверждают, что это самый большой VLM из когда-либо созданных и что он может выполнять множество задач без необходимости переобучения.
Согласно Google, при получении команды высокого уровня, такой как «принеси мне рисовые чипсы из ящика», PaLM-E может генерировать план действий для мобильной роботизированной платформы с рукой (разработанной Google Robotics) и выполнять действия сами по себе.
PaLM-E делает это, анализируя данные с камеры робота, не требуя предварительно обработанного представления сцены. Это устраняет необходимость в предварительной обработке или аннотировании данных человеком и обеспечивает более автономное управление роботом.
Он также устойчив и может реагировать на окружающую среду. Например, модель PaLM-E может помочь роботу достать пакет из-под чипсов из кухни, а с PaLM-E, интегрированным в контур управления, он становится устойчивым к прерываниям, которые могут возникнуть во время выполнения задачи. В видео-примере исследователь берет чипы у робота и перемещает их, но робот находит чипы и снова их захватывает.
В другой пример, та же модель PaLM-E автономно управляет роботом, выполняя сложные последовательности задач, которые ранее требовали участия человека. В исследовательской работе Google объясняется, как PaLM-E превращает инструкции в действия:
Мы демонстрируем производительность PaLM-E в сложных и разнообразных задачах мобильного манипулирования. Мы в значительной степени следуем установке в Ahn et al. (2022), где роботу необходимо планировать последовательность навигационных и манипулятивных действий на основе инструкций человека. Например, учитывая инструкцию «Я пролил свой напиток, вы можете принести мне что-нибудь, чтобы убрать его?», робот должен спланировать последовательность действий, содержащую «1. Найдите губку, 2. Поднимите губку, 3. Принесите ее». пользователю, 4. Положите губку». Вдохновленные этими задачами, мы разрабатываем 3 варианта использования для проверки воплощенных способностей PaLM-E к рассуждению: прогноз доступности, обнаружение сбоев и долгосрочное планирование. Политики низкого уровня взяты из RT-1 (Brohan et al., 2022), модели преобразователя, которая использует изображение RGB и инструкции на естественном языке, а также выводит команды управления рабочим органом.
PaLM-E — это предиктор следующего токена, и он называется «PaLM-E», потому что он основан на существующей большой языковой модели (LLM) Google под названием «PaLM» (которая аналогична технологии, лежащей в основе ChatGPT). Google сделал PaLM «воплощенным», добавив сенсорную информацию и роботизированное управление.
Так как он основан на языковой модели, PaLM-E непрерывно собирает наблюдения, такие как изображения или данные датчиков, и кодирует их в последовательность векторов того же размера, что и языковые токены. Это позволяет модели «понимать» сенсорную информацию так же, как она обрабатывает язык.
В дополнение к робототехническому трансформеру RT-1, PaLM-E опирается на предыдущую работу Google над ViT-22B, моделью трансформера машинного зрения, представленной в феврале. ViT-22B обучен различным визуальным задачам, таким как классификация изображений, обнаружение объектов, семантическая сегментация и создание подписей к изображениям.
Google Robotics — не единственная исследовательская группа, работающая над управлением роботами с помощью нейронных сетей. Эта конкретная работа напоминает недавнюю статью Microsoft «ChatGPT для робототехники», в которой аналогичным образом экспериментировалось с объединением визуальных данных и больших языковых моделей для управления роботами.
Помимо робототехники, исследователи Google наблюдали несколько интересных эффектов, которые, по-видимому, связаны с использованием большой языковой модели в качестве ядра PaLM-E. Во-первых, он демонстрирует «положительный перенос», что означает, что он может передавать знания и навыки, полученные им от одной задачи к другой, что приводит к «значительно более высокой производительности» по сравнению с однозадачными моделями роботов.
Кроме того, они наблюдаемый тенденция с масштабом модели: «Чем больше языковая модель, тем больше она поддерживает свои языковые возможности при обучении задачам визуального языка и робототехники – в количественном отношении модель 562B PaLM-E почти сохраняет все свои языковые возможности».
PaLM-E — самый большой VLM, о котором сообщалось на сегодняшний день. Мы наблюдаем возникающие способности, такие как мультимодальная цепочка рассуждений и вывод по нескольким изображениям, несмотря на то, что обучались только подсказкам с одним изображением. Хотя PaLM-E и не является предметом нашей работы, он устанавливает новый стандарт SOTA в тесте OK-VQA. pic.twitter.com/9FHug25tOF
— Дэнни Дрисс (@DannyDriess) 7 марта 2023 г.
И исследователи требовать что PaLM-E демонстрирует новые возможности, такие как мультимодальная логическая цепочка рассуждений (позволяющая модели анализировать последовательность входных данных, включающих как языковую, так и визуальную информацию) и вывод нескольких изображений (использование нескольких изображений в качестве входных данных для вывода или предсказания). ), несмотря на то, что обучался только на подсказках с одним изображением. В этом смысле PaLM-E, похоже, продолжает тенденцию неожиданностей, возникающих по мере того, как модели глубокого обучения со временем становятся все более сложными.
Исследователи Google планируют изучить больше приложений PaLM-E для реальных сценариев, таких как домашняя автоматизация или промышленная робототехника. И они надеются, что PaLM-E вдохновит на дальнейшие исследования мультимодального мышления и воплощенного ИИ.
«Мультимодальность» — это модное слово, которое мы будем слышать все чаще и чаще, поскольку компании стремятся к искусственному общему интеллекту, который якобы сможет выполнять общие задачи, как человек.