Стэнфордский курс CS224R: концепции и алгоритмы автономного обучения роботов

В лекции Стэнфордского курса CS224R рассматривается фундаментальная проблема современной робототехники — отсутствие подлинной автономности при обучении роботов с подкреплением (RL). Лектор анализирует, почему классические алгоритмы требуют постоянного вмешательства человека для сброса среды, и предлагает новые подходы, позволяющие машинам учиться на собственном опыте. В центре внимания оказываются концепции двунаправленного RL, многозадачных циклических политик и адаптации ИИ в рамках концепции «одной жизни».

🤖 Проблема «магического сброса»: Почему роботы до сих пор не автономны 0:05

Обучение с подкреплением традиционно позиционируется как более автономный метод по сравнению с обучением по демонстрациям (imitation learning), поскольку агент учится методом проб и ошибок. Однако на практике, при переносе алгоритмов на физических роботов, автономия оказывается иллюзорной. В симуляциях исследователи привыкли использовать функцию env.reset(), которая мгновенно возвращает систему в исходное состояние. Реальный мир, по замечанию лектора, невозможно сбросить по щелчку пальцев.

Когда мобильный робот делает неверный поворот на пути к баскетбольной площадке или манипулятор роняет кружку, им необходимо физически вернуться в исходное положение, чтобы повторить попытку. Поскольку для успешного RL требуются тысячи и миллионы попыток, затраты человеческого труда становятся огромными.

Известны следующие лабораторные примеры:

Исследователь Евгений тратит больше сил, чем робот, постоянно возвращая хоккейную шайбу в игру для отработки удара.
Али вручную закрывает двери, чтобы робот снова и снова учился их открывать.
Арчит непрерывно расправляет полотенце для новых попыток складывания роботом.

📉 Ловушка длинных эпизодов: Почему простое увеличение времени не работает 8:05

Первой интуитивной идеей для снижения контроля со стороны человека кажется простое увеличение длительности эпизода ($H$). Если робот будет взаимодействовать со средой дольше без принудительного сброса, частота вмешательства человека снизится. Однако эксперименты показывают, что этот подход ломает классические алгоритмы RL.

При тестировании популярного алгоритма Soft Actor-Critic (SAC) на простой задаче управления рыбой выяснилось следующее: при базовой длине эпизода в 1000 шагов алгоритм успешно сходится, но при увеличении этого окна в 2 раза показатели падают, а при увеличении в 10 раз (до 50 000–100 000 шагов) робот вообще оказывается неспособен обучиться задаче.

Лектор выделяет две фундаментальные причины этой неудачи:

Дрейф распределения состояний. Робот совершает ошибки и уходит в те области пространства, из которых крайне сложно или невозможно вернуться к полезной траектории.
Коллапс буфера воспроизведения. Даже если агент случайно достигает цели и начинает получать высокую награду, он застревает в целевой зоне. Буфер воспроизведения (replay buffer) заполняется данными только об успешном удержании цели, и робот начисто забывает, как добираться до нее из начального положения.

🔄 Алгоритм «Вперед-Назад»: Двунаправленное обучение без участия человека 22:12

Чтобы решить проблему дрейф-коллапса данных, исследователи предлагают концепцию двунаправленного обучения (forward-backward RL). Вместо того чтобы звать человека для сброса, робот параллельно обучает две политики: прямую ($\pi_f$), которая решает основную задачу, и обратную ($\pi_b$), задача которой — вернуть систему в распределение начальных состояний.

Процесс устроен циклически и состоит из следующих шагов:

Инициализация агента в начальном состоянии.
Запуск прямой политики $\pi_f$ на фиксированное число шагов и её обновление на основе функции наград $r_f$.
Запуск обратной политики $\pi_b$ из получившейся точки без принудительного сброса среды.
Обновление политики $\pi_b$ с использованием специальной функции наград $r_b$, которая поощряет возвращение к исходным условиям.
Повторение цикла без какого-либо внешнего вмешательства.

По завершении обучения обратная политика просто отбрасывается, а прямая отправляется в эксплуатацию. По мнению лектора, хотя обучение обратной политики выглядит избыточным и тратит ресурсы, это необходимая плата за полную автономность процесса, позволяющая оставлять робота тренироваться самостоятельно, например, на всю ночь.

🎯 Сброс к экспертным состояниям: Алгоритм MEDAL и бенчмарк EARL 28:13

Модификацией базового двунаправленного подхода является идея возвращения робота не в самую начальную точку, а в любое из состояний, зафиксированных в демонстрациях эксперта. Исследования показывают, что старт из различных точек траектории эксперта существенно повышает эффективность обучения.

Этот подход реализован в алгоритме MEDAL (Matching Expert Distributions for Autonomous Learning). Для его работы требуется небольшое число экспертных демонстраций, собранных, например, через телеуправление. Вместо жестко заданной функции наград для обратного хода используется обучаемый дискриминатор (классификатор). Он учится отличать состояния, в которых побывал робот, от состояний из экспертных треков. Задача обратной политики — «обмануть» дискриминатор, минимизируя расхождение (дивергенцию) между распределениями состояний.

Для сравнения подобных систем был разработан специальный бенчмарк EARL (Environments for Autonomous Reinforcement Learning), где сброс среды происходит крайне редко — раз в 200 000 шагов.

Результаты тестов показывают следующие закономерности:

Стандартный SAC без обратной политики полностью проваливается при редких сбросах среды.
В простых задачах (например, перемещение чашки) базовый forward-backward RL и MEDAL показывают близкие результаты.
В сложных многоэтапных средах (таких как открытие и закрытие двери манипулятором) алгоритм MEDAL демонстрирует явное преимущество.

Лектор отмечает важный нюанс: прямая и обратная задачи часто имеют разную сложность. Например, научить робота делать сальто невероятно трудно, а вот обучить его просто вставать на ноги после падения — гораздо легче. Такой дисбаланс скоростей обучения делает настройку алгоритмов нетривиальной исследовательской задачей.

🌀 Циклические и многозадачные политики: Автономия в сложных сценариях 42:22

Развитием идеи автономного обучения становится переход от одной пары задач к целым графам или циклам различных действий. Представьте робота, который учится варить кофе: если он случайно выронит чашку, классическая схема потребует вернуть её назад. Однако в многозадачном подходе робот просто переключается на другую актуальную задачу — «поднять чашку с пола», вместо того чтобы пытаться нажимать кнопку на кофемашине.

В рамках этой парадигмы обучается единая многозадачная политика, которая функционирует по следующей схеме:

Агент оценивает текущее состояние среды.
Специальный планировщик (proposer) предлагает задачу $Z_i$, которую целесообразно практиковать из этой точки.
Политика выполняется в течение заданного количества шагов, после чего цикл предложений обновляется.

Как отмечает лектор, определение доступных задач находится на переднем крае науки (bleeding edge). По его словам, на сегодняшний день существует два основных подхода к решению этой проблемы:

Жесткое ручное проектирование графа переходов между задачами.
Использование больших визуально-языковых моделей (VLM) для динамического предложения сценариев.

VLM способна оценить кадр с камеры и понять, что в данный момент робот может открыть игрушечную микроволновку или переставить кастрюлю, но не может взять морковь, которой нет на столе.

На вопрос студентов об отличии от иерархического обучения (Hierarchical RL) лектор поясняет: верхний уровень в иерархических системах строго нацелен на финальный результат, в то время как планировщик задач в автономном RL нацелен на максимизацию разнообразия опыта и сбор полезных данных для обучения. Для упрощения награждения в таких системах часто используют диффузионные модели редактирования изображений, генерирующие целевую картинку, к которой должен стремиться робот.

🌍 Обучение в «одну жизнь»: Адаптация роботов после развертывания 53:27

Вторая глобальная категория задач касается поведения робота уже после завершения основного цикла тренировок. В реальном мире, несмотря на идеальные лабораторные тесты, робот неизбежно столкнется с ситуациями вне обучающей выборки (out-of-distribution). Лектор проводит аналогию с человеком: когда мы вставляем ключ в замок и понимаем, что он не поворачивается, мы за доли секунды корректируем микродвижения и решаем проблему на ходу.

Концепция "Single-Life RL" (обучение в течение одной жизни) моделирует именно этот процесс: у робота есть ровно одна попытка адаптироваться к новой среде без возможности сбросить её к началу. Например, четвероногий робот всю жизнь тренировался ходить по ровной поверхности, но на выезде внезапно встретил незнакомое препятствие.

Попытки просто запустить тонкую настройку (fine-tuning) через стандартные градиентные обновления алгоритмов RL во время работы часто приводят к провалу: робот может преодолеть первое препятствие, но затем переворачивается на спину и беспомощно застревает, не зная, как подняться.

По мнению исследователей, для решения этой проблемы существуют два перспективных пути:

Возвращение к знакомым состояниям. Вместо того чтобы заставлять робота упрямо ползти к цели из неестественного положения, алгоритм RL перенацеливают на возвращение в «знакомые» зоны пространства состояний.
Адаптация на уровне высокоуровневых навыков. Робот выбирает между макро-навыками, а использование предобученных больших языковых моделей открывает здесь новые возможности.

Использование здравого смысла (common sense), заложенного в предобученные большие визуально-языковые модели, по мнению спикера, позволяет роботу пробовать принципиально разные стратегии поведения вместо бессмысленного изменения весов низкоуровневого контроллера моторов.

🛡️ Вопросы безопасности и ограничения автономного обучения 1:02:35

В завершение дискуссии лектор коснулся критически важного аспекта — безопасности автономных систем. Предоставление роботу полной свободы действий чревато поломками: манипулятор может разбить стеклянную посуду, а шагающий робот — повредить приводы при жестком падении.

На практике исследователи пытаются закладывать программные ограничения (safety boxes), не позволяющие моторам перегреваться или прикладывать избыточное усилие. Однако для полноценного решения проблемы робот должен сам выучить модель рисков и вовремя активировать безопасную политику восстановления (recovery policy).

Спикер признает, что здесь кроется фундаментальный парадокс: чтобы научиться избегать опасностей, алгоритму необходимы примеры неудач и поломок, что делает эту область одной из самых сложных и опасных в современной робототехнике. На данный момент все эти подходы находятся на стадии академических исследований и пока не внедрены в коммерческих продуктах робототехнических компаний.