Почему DeepMind отправляет гуманоидов с искусственным интеллектом в футбольный лагерь

«На самом деле это не сработало», — говорит Николас Хесс, также научный сотрудник DeepMind и один из соавторов статьи с Левером. Из-за сложности проблемы, огромного количества доступных вариантов и отсутствия предварительных знаний о задаче агенты на самом деле не знали, с чего начать — отсюда корчи и подергивания.

Поэтому вместо этого Хесс, Левер и их коллеги использовали нейровероятностные двигательные примитивы (NPMP), метод обучения, который подталкивал модель ИИ к более человеческим моделям движений, в надежде, что это базовое знание поможет решить проблему того, как перемещайтесь по виртуальному футбольному полю. «Это в основном смещает ваш моторный контроль в сторону реалистичного человеческого поведения, реалистичных человеческих движений», — говорит Левер. «И это стало известно из захвата движения — в данном случае актеров-людей, играющих в футбол».

Это «перенастраивает пространство действия», — говорит Левер. Движения агентов уже ограничены их человекоподобными телами и суставами, которые могут сгибаться только определенным образом, а доступ к данным от реальных людей ограничивает их еще больше, что помогает упростить задачу. «Это повышает вероятность того, что полезные вещи будут обнаружены методом проб и ошибок», — говорит Левер. NPMP ускоряет процесс обучения. Необходимо соблюдать «тонкий баланс» между обучением ИИ делать вещи так, как это делают люди, и предоставлением ему достаточной свободы для поиска собственных решений проблем, которые могут быть более эффективными, чем те, которые мы придумываем сами. .

За базовой тренировкой последовали упражнения для одного игрока: бег, дриблинг и удары по мячу, имитируя то, как люди могут научиться играть в новый вид спорта, прежде чем погрузиться в ситуацию полного матча. Наградой за обучение с подкреплением были такие вещи, как успешное следование за целью без мяча или ведение мяча близко к цели. По словам Левера, эта учебная программа навыков была естественным способом для решения все более сложных задач.

Цель состояла в том, чтобы побудить агентов повторно использовать навыки, которые они, возможно, изучили вне футбольного контекста, в футбольной среде, чтобы обобщать и быть гибкими при переключении между различными стратегиями движения. Агенты, освоившие эти упражнения, использовались в качестве учителей. Точно так же, как ИИ поощряли подражать тому, что он узнал из захвата движения человека, его также поощряли за то, что он не слишком сильно отклонялся от стратегий, которые агенты-учителя использовали в определенных сценариях, по крайней мере, поначалу. «На самом деле это параметр алгоритма, который оптимизируется во время обучения», — говорит Левер. «Со временем они в принципе могут уменьшить свою зависимость от учителей».

Когда их виртуальные игроки были обучены, пришло время для некоторых матчей: начиная с игр 2 на 2 и 3 на 3, чтобы максимизировать количество опыта, накопленного агентами в течение каждого раунда симуляции (имитируя то, как молодые игроки начинают с небольших игр в реальной жизни). ). Основные моменты —которые вы можете посмотреть здесь— обладают хаотичной энергией собаки, гоняющейся за мячом в парке: игроки не столько бегут, сколько спотыкаются, постоянно на грани падения на землю. Когда голы забиваются, это не замысловатые пасы, а обнадеживающие удары по полю и отскоки от дальней стены, как в настольном футболе.

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.