С помощью языковых моделей ИИ роботы Google становятся умнее

Перед столом стоял однорукий робот. На столе стояли три пластиковые фигурки: лев, кит и динозавр.

Инженер дал роботу указание: «Подобрать вымершее животное».

Робот зажужжал на мгновение, затем его рука вытянулась, а клешня раскрылась и опустилась. Он схватил динозавра.

До недавнего времени эта демонстрация, свидетелем которой я был во время интервью для подкаста в отделе робототехники Google в Маунтин-Вью, Калифорния, на прошлой неделе, была бы невозможна. Роботы не могли надежно манипулировать объектами, которых никогда раньше не видели, и уж точно не могли совершить логический переход от «вымершего животного» к «пластиковому динозавру».

Но в робототехнике происходит тихая революция, которая опирается на последние достижения в области так называемых больших языковых моделей — того же типа системы искусственного интеллекта, на которой работают ChatGPT, Bard и другие чат-боты.

Google недавно начал внедрять современные языковые модели в своих роботов, давая им эквивалент искусственного мозга. Этот секретный проект сделал роботов намного умнее и дал им новые способности к пониманию и решению проблем.

Я увидел этот прогресс во время частной демонстрации последней модели робототехники Google под названием RT-2. Модель, представленная в пятницу, представляет собой первый шаг к тому, что руководители Google назвали крупным скачком в способах создания и программирования роботов.

«В результате этого изменения нам пришлось пересмотреть всю нашу исследовательскую программу, — сказал Винсент Ванхоук, глава отдела робототехники Google DeepMind. «Многие вещи, над которыми мы работали раньше, были полностью обесценены».

По словам Кена Голдберга, профессора робототехники из Калифорнийского университета, роботам все еще не хватает ловкости на уровне человека, и они не справляются с некоторыми базовыми задачами, но использование Google языковых моделей ИИ для придания роботам новых навыков рассуждения и импровизации представляет собой многообещающий прорыв. Беркли.

«Что очень впечатляет, так это то, как он связывает семантику с роботами», — сказал он. «Это очень интересно для робототехники».

Чтобы понять масштабы этого, полезно немного узнать о том, как обычно строились роботы.

В течение многих лет инженеры Google и других компаний обучали роботов выполнять механические задачи — например, переворачивать гамбургер — путем программирования их с помощью определенного списка инструкций. (Опустите шпатель на 6,5 дюймов, сдвиньте его вперед, пока не встретите сопротивления, поднимите его на 4,2 дюйма, поверните на 180 градусов и т. д.) Затем роботы выполняли задание снова и снова, а инженеры каждый раз корректировали инструкции, пока не это правильно.

Этот подход работал для определенных, ограниченных применений. Но обучение роботов таким образом медленно и трудоемко. Это требует сбора большого количества данных из реальных тестов. И если вы хотели научить робота делать что-то новое — скажем, переворачивать блин вместо гамбургера, — вам обычно приходилось перепрограммировать его с нуля.

Отчасти из-за этих ограничений аппаратные роботы совершенствуются медленнее, чем их программные собратья. OpenAI, создатель ChatGPT, распустил свою команду робототехники в 2021 году, сославшись на медленный прогресс и отсутствие качественных обучающих данных. В 2017 году Alphabet, материнская компания Google, продала приобретенную ею робототехнику Boston Dynamics японскому технологическому конгломерату SoftBank. (Boston Dynamics теперь принадлежит Hyundai и, кажется, существует в основном для создания вирусных видеороликов о роботах-гуманоидах, демонстрирующих ужасающие маневры.)

В последние годы у исследователей из Google появилась идея. Что, если вместо того, чтобы программироваться для выполнения конкретных задач одну за другой, роботы могли бы использовать языковую модель ИИ, которая была обучена на огромном количестве интернет-текста, чтобы осваивать новые навыки для себя?

«Мы начали экспериментировать с этими языковыми моделями около двух лет назад, а потом поняли, что в них содержится много знаний, — говорит Карол Хаусман, научный сотрудник Google. «Поэтому мы начали подключать их к роботам.».

Первой попыткой Google объединить языковые модели и физических роботов был исследовательский проект под названием PaLM-SayCan, который был представлен в прошлом году. Это привлекло некоторое внимание, но его полезность была ограничена. Роботам не хватало способности интерпретировать изображения — ключевого навыка, если вы хотите, чтобы они могли ориентироваться в мире. Они могли написать пошаговые инструкции для разных задач, но не могли превратить эти шаги в действия.

Новая модель робототехники Google, RT-2, может сделать именно это. Это то, что компания называет моделью «видение-язык-действие», или системой искусственного интеллекта, которая способна не только видеть и анализировать окружающий мир, но и указывать роботу, как двигаться.

Это достигается путем преобразования движений робота в ряд чисел — процесс, называемый токенизацией, — и включения этих токенов в те же обучающие данные, что и языковая модель. В конце концов, точно так же, как ChatGPT или Bard учатся угадывать, какие слова должны быть следующими в стихотворении или эссе по истории, RT-2 может научиться угадывать, как должна двигаться рука робота, чтобы поднять мяч или бросить пустую банку из-под газировки в переработку. мусорное ведро

«Другими словами, эта модель может научиться говорить, как робот», — сказал г-н Хаусман.

Во время часовой демонстрации, которая проходила на кухне в офисе Google, заваленной предметами из долларового магазина, мы с моим соведущим подкаста видели, как RT-2 выполнил ряд впечатляющих задач. Один из них успешно следовал сложным инструкциям, таким как «переместить Фольксваген к немецкому флагу», что РТ-2 и сделал, найдя и поймав модель автобуса Фольксваген и установив его на миниатюрный немецкий флаг в нескольких футах от него.

Он также оказался способным следовать инструкциям на языках, отличных от английского, и даже устанавливать абстрактные связи между связанными понятиями. Однажды, когда я хотел, чтобы РТ-2 поднял футбольный мяч, я дал ему указание «поднять Лионеля Месси». РТ-2 удался с первого раза.

Робот не был идеальным. Он неправильно определил вкус банки LaCroix, поставленной на стол перед ним. (Банка была лимонной; РТ-2 угадал оранжевую.) В другой раз, когда его спросили, какие фрукты на столе, робот просто ответил: «белые». (Это был банан.) Представитель Google сказал, что робот использовал кешированный ответ на вопрос предыдущего тестировщика, потому что его Wi-Fi ненадолго отключился.

Google не планирует в ближайшее время продавать роботов RT-2 или выпускать их более широко, но ее исследователи считают, что эти новые машины с языковым оснащением в конечном итоге будут полезны не только для салонных трюков. По их словам, роботов со встроенными языковыми моделями можно разместить на складах, использовать в медицине или даже использовать в качестве помощников по дому — складывать белье, разгружать посудомоечную машину, убирать по дому.

«Это действительно открывает возможности для использования роботов в среде, где есть люди», — сказал г-н Ванхоук. «В офисе, дома, во всех местах, где необходимо выполнять множество физических задач».

Конечно, перемещать объекты в грязном, хаотичном физическом мире сложнее, чем в контролируемой лаборатории. А учитывая, что языковые модели ИИ часто допускают ошибки или изобретают бессмысленные ответы — что исследователи называют галлюцинациями или конфабуляциями — использование их в качестве мозга роботов может привести к новым рискам.

Но г-н Голдберг, профессор робототехники из Беркли, сказал, что эти риски все еще невелики.

«Мы не говорим о том, чтобы дать этим вещам волю, — сказал он. «В этих лабораторных условиях они просто пытаются передвигать какие-то предметы по столу».

Google, со своей стороны, заявил, что RT-2 оснащен множеством функций безопасности. В дополнение к большой красной кнопке на задней панели каждого робота, которая при нажатии останавливает робота, система использует датчики, чтобы избежать столкновения с людьми или объектами.

Программное обеспечение искусственного интеллекта, встроенное в RT-2, имеет свои собственные средства защиты, которые оно может использовать, чтобы робот не делал ничего вредного. Один хороший пример: роботов Google можно научить не поднимать контейнеры с водой, потому что вода может повредить их оборудование, если она прольется.

Если вы относитесь к тому типу людей, которые беспокоятся о том, что ИИ станет мошенником — а Голливуд дал нам множество причин опасаться этого сценария, от оригинального «Терминатора» до прошлогоднего «М3гана», — идея создания роботов, которые могут рассуждать, планировать и импровизировать на лету, возможно, покажется вам ужасной идеей.

Но в Google именно такую идею празднуют исследователи. После многих лет в глуши аппаратные роботы вернулись — и они должны быть благодарны своим мозгам чат-ботов.

2023-07-28 10:00:17

1690538914
#помощью #языковых #моделей #ИИ #роботы #Google #становятся #умнее

С помощью языковых моделей ИИ роботы Google становятся умнее

Related

Leave a Comment Cancel reply

Share this:

Related

Leave a Comment Cancel reply