Подход Model-Based RL: как Стэнфорд обучает сложных роботов за четыре часа

В рамках курса Стэнфордского университета CS224R по глубокому обучению с подкреплением (весна 2025 года) одиннадцатая лекция была полностью посвящена концепции Model-Based RL. Преподаватель подробно разбирает, как создание внутреннего симулятора среды позволяет кардинально снизить затраты на сбор данных. На примере сложнейшей пятипалой роборуки демонстрируется преимущество планирования над традиционными методами обучения без модели.

🔄 Базовые алгоритмы RL: от Online к Offline 0:05

Для точного понимания места Model-Based методов в общей экосистеме искусственного интеллекта лектор предлагает вспомнить классификацию алгоритмов, изученных в рамках курса ранее. Ключевое разделение подходов проходит по линии онлайн- и оффлайн-сценариев. В онлайн-обучении текущая политика агента используется непосредственно для взаимодействия со средой и сбора новых данных, в то время как в оффлайн-режиме исследователь жестко ограничен фиксированным датасетом и не может совершать дополнительные действия в реальном окружении.

Онлайн-методы, завязанные на последовательное улучшение, делятся на два ключевых класса:

On-policy RL: сбор данных возможен строго с использованием текущей актуальной политики; повторное использование старого опыта полностью исключено (классические примеры — REINFORCE или ванильный метод градиента политики).
Off-policy RL: алгоритмы, допускающие извлечение пользы из данных, собранных другими конфигурациями политик, в том числе до осуществления градиентного шага по параметрам (к ним относятся PPO и методы выборки по значимости / importance sampling).

Более глубокие off-policy подходы задействуют буфер воспроизведения (replay buffer) для долгосрочного хранения и переиспользования исторического опыта, как это реализовано в DQN и SAC. С точки зрения архитектуры, классические градиентные методы (выделенные синим цветом на презентации курса) обучают исключительно саму политику. Алгоритмы вроде PPO и SAC параллельно оптимизируют и политику, и критика, являясь полноценными актор-критическими методами. Существуют и подходы, обучающие только критика без явного выделения обособленной политики, — это алгоритмы Q-обучения, ярким представителем которых выступает DQN. По замечанию лектора, PPO часто называют методом градиента политики, однако из-за параллельного обучения функции ценности в рамках данного курса его корректнее относить к актор-критическим подходам во избежание путаницы.

Отдельно от онлайн-методов стоят оффлайн-алгоритмы RL, которые опираются на те же математические концепции, но вынуждены купировать риски отсутствия интерактивного сбора данных. Здесь выделяются два подхода: ограничение пространства поиска исключительно действиями из имеющегося датасета (алгоритмы AWR, AWAC, IQL) и неявное сдерживание агента за счет консерватизма (SQL). Как утверждает лектор, движение вправо по спектру алгоритмов неизбежно требует увеличения объемов онлайн-данных, сбор которых на реальных физических установках всегда обходится исследователям значительно дороже, чем использование готовых статичных оффлайн-выборок. Особняком стоит имитационное обучение (behavior cloning), которое в базовом варианте пытается просто копировать действия из датасета, а в онлайн-варианте (как в алгоритме DAgger) обращается к эксперту за подсказками. Такие методы не требуют функции вознаграждения, но критически зависят от качества демонстраций и принципиально не способны превзойти средний уровень мастерства, заложенный в исходных данных.

🧠 Суть Model-Based RL: создание собственного симулятора 4:47

Концепция Model-Based reinforcement learning, по признанию спикера, занимает особое место в его академической карьере, поскольку этой теме он посвятил значительную часть своих личных научных трудов. Главная мета-идея этого направления заключается в том, чтобы заставить агента самостоятельно построить полноценный внутренний симулятор окружающего мира. В робототехнике, беспилотном вождении и управлении иными физическими объектами это означает способность нейросети предсказывать, как именно действия агента изменят физическое состояние среды в будущем.

Если исследователь не имеет возможности напрямую наблюдать внутренние физические параметры системы, симулятор принимает форму модели предсказания видео (video prediction), обусловленной действиями агента. В качестве примера тектонического сдвига в этой области лектор приводит современные генеративные ИИ-модели вроде Veo 2 и Sora от OpenAI. Эти нейросети способны генерировать высокореалистичные видео по текстовым описаниям, и аналогичные по структуре архитектуры могут эффективно применяться для обучения беспилотных автомобилей, квадрокоптеров или антропоморфных роботов, позволяя им просчитывать последствия своих маневров в воображении. Сфера применения подобных симуляторов невероятно обширна:

В алгоритмах алгоритмической торговли на фондовом рынке симулятор пытается предсказать долгосрочное движение котировок акций и оценить, окажут ли операции самого агента влияние на этот тренд.
В игровой индустрии модель берет на себя математическое описание правил игры.

При этом в таких играх, как шахматы, правила жестко детерминированы и известны изначально, поэтому обучать модель физики среды с нуля не требуется. Однако в мультиплеерных противостояниях возникает необходимость моделировать поведение других игроков. По мнению лектора, моделирование оппонентов чаще всего выносится в отдельный изолированный блок, где агент может, к примеру, использовать внутреннюю модель самого себя для прогнозирования ответных ходов соперника.

⚠️ Проблема несоответствия данных и «галлюцинации» физики 10:00

В базовом теоретическом изложении концепция Model-Based RL выглядит безупречно: агент собирает первичные данные, обучает на них нейросетевой симулятор (минимизируя L2-потерю между предсказанным и реальным следующим состоянием среды) и запускает внутри него любой классический алгоритм RL или планирования. В качестве простого примера приводится задача перемещения точки на плоскости из зеленой зоны в красную. Однако при переносе этой схемы на практику система сталкивается с критическими уязвимостями. Во время интерактива со студентами лектор подтверждает, что ключевой проблемой становится эксплуатация агентом неизбежных неточностей симулятора. Ошибки прогнозирования имеют свойство лавинообразно накапливаться (compounding errors), из-за чего политика, демонстрирующая идеальные результаты внутри выученного симулятора, полностью проваливается при столкновении с суровой реальностью.

Второй фундаментальный барьер — это несоответствие распределения данных (data coverage issue). Если исходная политика $\pi_0$ собрала данные лишь в рамках узкой траектории (например, в начале лабиринта), обученная модель динамики будет абсолютно нерелевантна для описания дальних участков среды. Агент просто не сможет построить маршрут в неисследованные зоны, поскольку модель не знает, что там находится.

В качестве наглядной иллюстрации «галлюцинаций» выученной физики лектор демонстрирует официальный видеоролик, сгенерированный нейросетью Sora по промпту: «гуманоидный робот у стола с красным, зеленым и синим кубиками выполняет задачу по их сортировке». При внимательном анализе видео становится заметно, что генеративная модель начинает «креативить» с законами макромира: кубики спонтанно меняют свои цвета, а новые объекты материализуются из ниоткуда прямо в воздухе. Безусловно, иметь робота с такими способностями в реальности было бы полезно, шутит спикер, но к моделированию настоящей физики это отношения не имеет. Каждая прикладная задача требует деликатного подбора архитектуры — будь то учет микротрения в робототехнике или прогнозирование волатильности на бирже. По словам лектора, даже при наличии отличной модели сам процесс RL внутри нее остается сложной вычислительной задачей, которая обязана превентивно учитывать несовершенство симулятора.

🛠️ Как обучить модель динамики: пиксели против латентного пространства 13:15

Методология построения симулятора зависит от объема априорных знаний о задаче. Существуют редкие сценарии, когда точные уравнения динамики известны заранее и их можно напрямую брать в работу. В промежуточных вариантах (например, при симуляции скольжения объекта по столу или динамики разгона автомобиля) базовые физические уравнения понятны, но остаются неизвестными конкретные параметры среды — коэффициент трения или специфика сцепления шин. Как считает лектор, интеграция известных аналитических законов физики с последующей подгонкой латентных параметров по собираемым данным — один из самых красивых и эффективных способов внедрения доменных экспертных знаний в алгоритмы машинного обучения.

Тем не менее, в подавляющем большинстве практических кейсов (сложные манипуляции, взаимодействие с людьми, хаотичный дорожный трафик) точная физика неизвестна, и модель приходится обучать с нуля с помощью глубоких нейросетей. При работе с визуальным потоком (кадрами высокой четкости $s_t$) перед инженерами встает дилемма выбора пространства моделирования:

Генерация полноценного будущего видеоряда: прямое предсказание последующих кадров пиксель за пикселем с обусловливанием на действия агента. Этот путь невероятно дорог с вычислительной точки зрения, поскольку заставляет сеть тратить огромные ресурсы на обсчет визуальных деталей, не влияющих на задачу управления.
Моделирование в скрытом латентном пространстве: изображение $s_t$ пропускается через энкодер, сжимающий его в низкоразмерный вектор представления $z_t$, и модель динамики предсказывает эволюцию именно этих скрытых векторов $z_{t+1}$.

Отвечая на вопрос из аудитории о потере информации при сжатии, лектор подтверждает, что этот шаг делается ради радикального снижения вычислительной емкости. Качественно обученное латентное пространство эффективно отбрасывает нерелевантный визуальный шум (например, точную текстуру и степень износа асфальта на дороге), но бережно сохраняет критически важную геометрию расположения объектов. Спикер добавляет, что параллельно с моделью переходов между состояниями инженеры всегда обучают обособленную модель вознаграждения (reward model). Без нее агент, заглядывая в свое воображаемое будущее, просто не сможет математически оценить, какие из предсказанных состояний принесут ему максимальную выгоду. Оптимизация модели может происходить как в стохастическом ключе через оценку распределения вероятностей $P(s_{t+1} | s_t, a_t)$, так и в детерминированном — через минимизацию ошибки между предсказанным и реальным вектором состояния.

📐 Градиентное планирование: прямая обратная связь 20:09

При наличии обученного симулятора вместо стандартного запуска поверх него алгоритмов обучения с подкреплением можно обратиться к концепции планирования (planning). Графически марковский процесс принятия решений (MDP) можно представить как цепочку, где из текущего состояния под воздействием действия рождается следующее состояние и генерируется награда. Если в классическом Model-Free RL мы не знаем точных математических взаимосвязей и вынуждены оптимизировать политику вслепую, без прямых градиентов, то в Model-Based подходе ситуация меняется. Аппроксимировав модель переходов и функцию вознаграждения дифференцируемыми нейросетями, исследователь получает возможность осуществлять сквозное обратное распространение ошибки (backpropagation) от целевых наград напрямую к совершаемым действиям.

Математическая цель такого планировщика — найти последовательность действий на определенном временном горизонте $H$ (от шага $t$ до $t+H$), которая максимизирует кумулятивную награду. Пошагово алгоритм градиентного планирования выглядит так:

Сбор первичного датасета при помощи базовой поисковой политики.
Обучение параметров модели динамики с целью минимизации ошибки предсказания.
Случайная инициализация планируемой последовательности действий $\hat{a}_{t:t+H}$ (по аналогии с ранней инициализацией весов традиционных нейросетей).
Расчет точного градиента суммы будущих наград по отношению к вектору действий с применением цепного правила (chain rule). Градиент включает в себя производную награды по состояниям и производную состояний по действиям.
Итеративное обновление вектора действий с помощью градиентного спуска (с поправкой лектора на знак «плюс», так как задача является задачей максимизации).

Лектор делает акцент на том, что для работы этого математического аппарата пространство действий обязательно должно быть непрерывным (continuous). Примечательно, что в этой схеме вообще не создается и не сохраняется параметрическая политика в виде отдельной компактной нейросети. Полноценной «политикой» и поведением агента становится сам итеративный процесс оптимизации, который запускается заново на каждом новом временном шаге среды в режиме реального времени. Агент рассчитывает оптимальный план, делает шаг, сдвигает горизонт планирования и повторяет вычисления.

🎲 Безградиентная оптимизация и метод кросс-энтропии (CEM) 31:46

Градиентный спуск демонстрирует превосходную масштабируемость и отлично работает в оверпараметризованных режимах нейросетей. Однако его фундаментальный недостаток — требование к идеальной гладкости оптимизационного ландшафта. Если функция вознаграждения дискретна или ландшафт модели изобилует локальными разрывами, градиенты становятся бесполезны. В качестве альтернативы лектор предлагает обратиться к безградиентной оптимизации (0-th order optimization), базирующейся на сэмплировании. Самый простой вариант — метод случайного отстрела (random shooting), когда система параллельно генерирует массив случайных траекторий действий, прогоняет их через симулятор, оценивает награды и выбирает лучший вариант. Как отмечает спикер, этот метод на удивление часто работает лучше, чем подсказывает интуиция.

Более элегантным развитием идеи является метод кросс-энтропии (Cross-Entropy Method, CEM), который лектор призывает не путать с одноименной функцией потерь из задач классификации нейросетей. Порядок работы алгоритма CEM имеет следующий вид:

Генерация массива траекторий действий из исходного распределения (например, равномерного).
Ранжирование сэмплов по величине полученной от симулятора награды или лосса.
Отбор фиксированного процента лучших траекторий, так называемых «элитных сэмплов».
Математическое вычисление параметров нового распределения (чаще всего Гауссианы) на основе отобранной элиты.
Повторное сэмплирование из обновленного распределения, сгущающегося вокруг наиболее перспективных областей, и запуск следующей итерации.

После серии таких циклов алгоритм возвращает наилучший сэмпл из последней итерации. Сравнивая градиентный и безградиентный подходы, лектор выделяет ключевые trade-offs. Сэмплирование обладает колоссальным преимуществом — его невероятно легко параллелизовать на GPU, что делает расчеты быстрыми, и оно не требует знания аналитического градиента reward-функции. Главный минус CEM — катастрофически плохая масштабируемость при росте размерности вектора оптимизации. Размерность этого вектора равна произведению размерности пространства действий на горизонт планирования ($dim(A) \times H$). В пространствах высокой размерности случайные сэмплы просто не способны плотно покрыть область поиска для нахождения оптимума, поэтому CEM эффективен только при относительно небольшом горизонте и компактном пространстве действий.

Дополнительно лектор освещает важный практический нюанс: выполнение массивных расчетов на этапе инференса (test-time compute) неизбежно порождает временные задержки. Пока алгоритм итеративно ищет оптимум, реальный мир вокруг робота продолжает двигаться, и исходное состояние успевает измениться. В индустрии эту проблему пытаются решать за счет асинхронного планирования со сдвигом на два-три шага вперед ($t+2$, $t+3$) с учетом заложенного времени на вычисления. Тем не менее, упреждающий запуск действий из неактуального состояния часто приводит к накоплению ошибок, и этот вызов до сих пор остается открытым и актуальным полем для научных исследований.

🔁 Управление по прогнозным моделям (MPC) и замыкание контура 52:17

Для демонстрации важности обратной связи лектор приводит мысленный эксперимент в абстрактной среде, где наградой является высота подъема на гору. Первичная поисковая политика собирает данные, на которых модель динамики выучивает простое правило: «движение вправо увеличивает высоту». Основываясь на этом, планировщик строит траекторию постоянного движения вправо. Агент начинает слепо выполнять этот план шаг за шагом и в итоге срывается с обрыва, о существовании которого модель просто не знала из-за отсутствия данных в исходном датасете. Простая схема, когда агент рассчитывает траекторию на $H$ шагов вперед и выполняет ее целиком без оглядки на промежуточные изменения среды, называется разомкнутым контуром (open loop). Она фатально уязвима перед любыми неожиданными флуктуациями среды.

Решением этой проблемы становится замыкание контура обратной связи (closed loop). В этой парадигме агент все так же рассчитывает оптимальную цепочку из $H$ действий, но выполняет физически только самое первое действие, после чего получает новое реальное состояние среды и полностью пересчитывает весь план заново. Этот подход лежит в основе классического инженерного метода MPC (Model Predictive Control — управление по прогнозным моделям), широко используемого в современной робототехнике, включая стабилизацию сложных шагающих роботов. MPC демонстрирует удивительную устойчивость к неточностям симулятора: даже если модель локально ошибается в прогнозах на шаге $H$, ежешаговый перерасчет траектории по реальным координатам позволяет мгновенно корректировать курс и нивелировать ошибки.

Чтобы радикально снизить вычислительную нагрузку от постоянного пересчета планов, лектор рекомендует использовать технику «горячего старта» (warm start). Распределение для сэмплирования на шаге $t+1$ инициализируется не случайным образом, а берет за основу оптимизированный план с предыдущего шага $t$, из которого просто удаляется первое выполненное действие, а в конец добавляется один новый случайный шаг. Это позволяет тратить значительно меньше итераций на поиск оптимума и удерживает робота от хаотичной смены направлений движения.

Модель-ориентированное планирование обладает уникальным преимуществом — оно абсолютно инвариантно к конкретной задаче (task-agnostic). Обучив один раз качественную универсальную модель динамики робота, исследователь может прямо во время тестов на лету менять функции наград, заставляя машину то идти вперед, то пятиться назад, то приседать. Главные минусы — высокая вычислительная емкость на этапе инференса и жесткое ограничение коротким горизонтом планирования $H$. Если задача имеет длинный или бесконечный горизонт и при этом лишена плотной, детальной функции вознаграждения (dense reward), MPC-планирование заходит в тупик. Для преодоления барьера длинного горизонта в индустрии применяют две ключевые стратегии:

Дистилляция планировщика в политику: траектории действий, успешно рассчитанные планировщиком, сохраняются и используются в качестве обучающего датасета для тренировки компактной нейросети-политики методами поведенческого клонирования (behavior cloning). Это полностью решает проблему вычислительной стоимости на этапе инференса, превращая запуск в один быстрый форвард-пасс сети.
Симбиоз планирования и функции ценности: агент планирует траекторию на небольшую глубину $H$, а к сумме наград внутри этого окна добавляется терминальная оценка финального состояния $s_{t+H}$, извлекаемая из параллельно выученной функции ценности (Value Function). Симулятор детально просчитывает ближайшее будущее, а долгосрочные перспективы оценивает критик. Эта схема лежит в основе самых успешных игровых ИИ, включая шахматные и го-движки.

🤖 Практический кейс: манипуляции пятипалой роборукой (PDDM) 1:07:06

В финальной части лекции спикер подробно разбирает архитектуру алгоритма PDDM (Planners with Deep Dynamics Models), который, по его мнению, до сих пор остается одним из самых выдающихся и элегантных практических результатов в области управления пятипалыми антропоморфными роборуками. В качестве живой ремарки лектор делится историей: точно такая же дорогостоящая роботизированная кисть установлена в Gate Building Стэнфордского университета, однако практически все студенты панически боятся подходить к ней и трогать ее, поскольку она невероятно хрупкая, ломается от любого неловкого движения, а процесс ее ремонта превращается в инженерный кошмар.

Математический каркас системы PDDM выстроен следующим образом:

Пространство состояний: включает в себя точные 3D-координаты манипулируемого объекта (снимаемые внешней системой компьютерного зрения или маркерами Motion Capture) и угловые позиции всех фаланг пальцев (получаемые напрямую с внутренних сенсоров суставов руки).
Пространство действий: непрерывные команды управления для 24 независимых суставов (степеней свободы) антропоморфной кисти.
Модель динамики: ансамбль из 3 глубоких нейросетей, каждая из которых содержит 2 скрытых слоя по 500 нейронов. Каждая сеть обучается со своим случайным сидом и на разных мини-батчах. Лектор подчеркивает, что ансамблирование критически важно для борьбы с ошибками симулятора: если одна модель выдает аномально оптимистичный ложный прогноз, ее деструктивное влияние эффективно демпфируется и уравновешивается более консервативными оценками двух других сетей.
Планировщик: глубоко модифицированная версия метода кросс-энтропии (CEM), в которую было внедрено мягкое экспоненциальное взвешивание наград и принудительное временное сглаживание траекторий, что заставило роборуку двигаться плавно, без разрушительных рывков.

Весь цикл обучения PDDM сводился к лаконичному чередованию сбора всего 30 траекторий в реальном мире и последующего дообучения ансамбля сетей. В рамках симуляционных тестов PDDM сравнили со стандартными модель-фри подходами (Soft Actor-Critic и Natural Policy Gradient), а также с другими известными планировщиками (MBPO, PETS). Перед роборукой были поставлены две сложнейшие задачи: синхронное вращение двух свободных шаров в ладони и написание букв/цифр маркером на бумаге. На этих комплексных тестах PDDM продемонстрировал безоговорочное превосходство. Традиционный метод случайного сэмплирования без итеративного уточнения распределения полностью провалился, доказав математическую невозможность случайного поиска эффективных траекторий в жестком 24-мерном пространстве суставов.

Главный триумф Model-Based подхода в данном кейсе — беспрецедентная эффективность по объему данных (data efficiency). Для успешного освоения каллиграфии алгоритму PDDM потребовалось всего порядка 100 000 временных шагов взаимодействия со средой, тогда как классическим алгоритмам без модели (SAC, NPG) для достижения аналогичных результатов потребовалось более 500 000 шагов. На реальном хрупком оборудовании в лаборатории робот под управлением PDDM продемонстрировал практически 100%-й успех выполнения задачи по развороту объекта на 90 градусов всего после 4 часов чистого сбора данных. Более сложный разворот на 180 градусов показал чуть меньшую результативность, но все равно остался в зоне высокой эффективности. Лектор отдельно отмечает изобретательность инженеров: чтобы полностью автоматизировать процесс четырехчасового обучения и не заставлять человека вручную поднимать упавшие шары, они установили рядом вторую простую роборуку, которая бережно возвращала выпавший объект обратно в ладони антропоморфной кисти при каждом сбое.