Маленькие роботы учатся быстро ездить в реальном мире

Без жизненного опыта, который можно было бы использовать, как у людей (и полностью воспринимаемого как должное), роботам, которые хотят освоить новый навык, часто приходится начинать с нуля. Обучение с подкреплением позволяет роботам осваивать новые навыки методом проб и ошибок, но, особенно в случае сквозных политик управления на основе зрения, на это уходит много времени: y беспорядок, который роботы не могут понять без зачастую непрактичных усилий.

Робототехники Калифорнийского университета в Беркли сильно ускорил этот процесс совершая тот же обман, что и люди, — вместо того, чтобы начинать с нуля, вы начинаете с некоторого предыдущего опыта, который помогает вам двигаться вперед. Используя «базовую модель», которая была предварительно обучена на роботах, которые сами себя водят, исследователи смогли получить небольшой роботизированный раллийный автомобиль, который научился бы участвовать в гонках по закрытым и открытым трассам, сравнявшись с человеческими способностями всего через 20 минут практики.

Этот первый этап предварительной подготовки происходит на досуге, когда вы вручную управляете роботом (это не обязательно тот, который будет выполнять интересующую вас задачу) в различных средах. Цель состоит не в том, чтобы научить робота быстро ездить по трассе, а в том, чтобы научиться не наезжать на препятствия.

С этой предварительно обученной базовой моделью, когда вы затем перейдете к маленькому роботизированному раллийному автомобилю, вам больше не придется начинать с нуля. Вместо этого вы можете бросить его на курс, который вы хотите, чтобы он выучил, проехать на нем один раз медленно, чтобы показать, куда вы хотите, а затем позволить ему работать полностью автономно, тренируя себя водить все быстрее и быстрее. С фронтальной камерой с низким разрешением и некоторой базовой оценкой состояния робот пытается как можно быстрее добраться до следующей контрольной точки на трассе, что приводит к некоторым интересным эмерджентным действиям:

Система изучает концепцию «гоночной траектории», находя плавный путь на круге и увеличивая скорость на крутых поворотах и шиканах. Робот учится поддерживать свою скорость в апексе, затем резко тормозит перед поворотом и ускоряется на выходе из поворота, чтобы минимизировать продолжительность движения. С поверхностью с низким коэффициентом трения полис учится слегка избыточной поворачиваемости при повороте, дрейфуя в повороте для достижения быстрого поворота без торможения во время поворота. На открытом воздухе изученная политика также способна различать характеристики грунта, отдавая предпочтение гладким участкам с высоким сцеплением на бетонных дорожках и вокруг них, а не участкам с высокой травой, которая препятствует движению робота.

Другим умным моментом здесь является функция сброса, которая необходима в реальном обучении. При обучении в симуляции сбросить отказавшего робота очень просто, но вне симуляции сбой может (по определению) закончить обучение, если робот застрянет. Это не имеет большого значения, если вы хотите проводить все свое время, присматривая за роботом, пока он учится, но если у вас есть чем заняться, робот должен иметь возможность обучаться автономно от начала до конца. В этом случае, если робот не продвинулся хотя бы на 0,5 метра за предыдущие 3 секунды, он знает, что застрял, и будет выполнять простые действия: случайным образом поворачивать, давать задний ход, а затем снова пытаться двигаться вперед, что в конце концов отклеится.

Во время экспериментов в помещении и на открытом воздухе робот смог научиться агрессивному вождению, сравнимому с таковым у человека-эксперта, всего за 20 минут автономной практики, что, по словам исследователей, «обеспечивает убедительное подтверждение того, что глубокое обучение с подкреплением действительно может быть жизнеспособным инструментом для обучения реальным». -мировые политики даже из необработанных изображений, в сочетании с соответствующей предварительной подготовкой и реализованной в контексте автономной структуры обучения». Потребуется гораздо больше работы, чтобы безопасно реализовать подобные вещи на большей платформе, но эта маленькая машина делает первые несколько кругов в правильном направлении так быстро, как только может.

«FastRLAP: система для обучения высокоскоростному вождению с помощью глубокого обратного обучения и автономной практики» Кайла Стаховича, Арджуна Бхоркара, Друва Шаха, Ильи Кострикова и Сергея Левина из Калифорнийского университета в Беркли доступна на сайте arXiv.

Из статей вашего сайта

Связанные статьи в Интернете

2023-04-28 15:06:58

1684951634
#Маленькие #роботы #учатся #быстро #ездить #реальном #мире

Маленькие роботы учатся быстро ездить в реальном мире

Related

Leave a Comment Cancel reply

Share this:

Related

Leave a Comment Cancel reply