Курс CS224R в Стэнфорде: разбор многозадачного RL и алгоритма Hindsight Relabeling

В Стэнфордском университете в рамках знаменитого курса «CS224R Deep Reinforcement Learning» прошла лекция, посвященная завершению тем обучения на основе моделей (Model-Based RL) и детальному разбору многозадачного обучения. Преподаватель подробно описал механизмы генерации синтетических данных, взвесил все за и против использования симуляций, а также представил концепцию ретроспективной переразметки (Hindsight Relabeling), которая радикально повышает эффективность робототехнических систем. Этот материал раскрывает, как современные ИИ-агенты превращаются из узкоспециализированных алгоритмов в гибких универсалов, способных переносить опыт между кардинально отличающимися задачами.

🤖 Генерация синтетических данных в Model-Based RL 0:05

В рамках подхода Model-Based RL исследователи часто пытаются аппроксимировать распределение следующего состояния среды по текущему состоянию и действию. Традиционно этот обученный симулятор использовался для планирования «на лету» с помощью градиентной или выборочной оптимизации на короткий горизонт вперед. Однако существует и второй, более элегантный способ применения накопленных знаний — использование модели для генерации синтетического опыта, которым затем дополняется реальный датасет.

Процедура воображаемого проигрывания траекторий имеет свои тонкости. Если запускать симуляцию на полную длину реального эпизода, алгоритм быстро столкнется с накоплением ошибок, и точность предсказаний на длинных горизонтах упадет. По этой причине на практике наилучшие результаты показывает генерация множества очень коротких траекторий, стартующих из случайных промежуточных состояний реального буфера памяти. Таким образом создается плотное облако синтетического опыта вокруг реальных путей агента.

Обобщенный алгоритм генерации данных состоит из следующих шагов:

Сбор реальных данных из среды и их сохранение в буфер памяти $D_{env}$.
Обновление прогностической модели на основе свежего реального опыта.
Выбор случайного состояния $S$ из накопленного реального датасета.
Запуск короткого симуляционного прогона (rollout) политики внутри воображаемой модели, начиная со состояния $S$.
Сохранение сгенерированных траекторий в отдельный буфер синтетических данных $D_{gen}$.
Финальное обновление параметров политики с использованием комбинации реального и синтетического опыта.

Подобный подход позволяет минимизировать объем дорогостоящего и потенциально опасного взаимодействия робота с физическим миром, заменяя реальные эксперименты вычислениями внутри виртуальной модели. При этом, в отличие от динамического планирования, вычислительная нагрузка возрастает только на этапе обучения, тогда как во время инференса (тестирования) агент просто выполняет готовую политику без лишних задержек.

⚖️ За и против: когда выбирать обучение на основе моделей 16:18

Обучение на основе моделей дает колоссальные преимущества, но сопряжено с серьезными компромиссами. Как отмечает лектор, главным плюсом подхода является радикальное снижение требований к объему реальных данных, поскольку агент буквально «предсказывает будущее» на основе выученной динамики. Кроме того, такие модели полностью независимы от наград: их можно успешно обучать на огромных массивах неразмеченных данных, а целевую функцию подключать лишь в редких точках. Наконец, хорошо обученная модель динамики среды является фундаментальной и гибкой — ее можно легко переносить на новые задачи и новые награды без полной перестройки алгоритма.

Тем не менее, у Model-Based RL есть и существенные недостатки:

Несоответствие целевых функций: Модель обучается предсказывать физику среды (например, пиксели изображения), а не максимизировать качество выполнения задачи. Из-за этого алгоритм может тратить ресурсы на точную прорисовку цвета неба, которая никак не влияет на успешность управления роборукой.
Чрезмерная сложность обучения: В ряде доменов выучить адекватную модель среды оказывается намного сложнее, чем просто обучить хорошую политику действий.
Гиперпараметрический взрыв: Появляется необходимость настраивать архитектуру прогностической сети, скорость ее обучения, регуляризацию, а также длину синтетических прогонов и баланс реальных/виртуальных данных в батче.

По мнению преподавателя, выбор в пользу построения модели жестко зависит от специфики домена. Например, в лабиринте физика проста (движение вправо упирается в стену), а политика сложна (нужно помнить весь маршрут) — здесь модель идеальна. Напротив, в задаче переливания воды из стакана в чашу траектория движения кисти робота тривиальна, но гидродинамика всплесков безумно сложна — в этом сценарии гораздо разумнее обучать бесструктурную (Model-Free) политику напрямую. В современной робототехнике подход Model-Based RL исторически показывает блестящие результаты при работе с компактными пространствами состояний (координаты суставов, балансировка двуногих роботов), но пасует перед обработкой высокоразмерных изображений с камер.

🎯 Многозадачное обучение: путь к универсальному ИИ 27:14

Целью многозадачного обучения с подкреплением (Multi-Task RL) является создание ИИ-генералиста, способного выполнять широкий спектр разнородных действий: от бронирования билетов и покупки продуктов до управления антропоморфными роботами, умеющими бегать, танцевать и мыть посуду. С математической точки зрения каждая отдельная задача представляется как самостоятельный Марковский процесс принятия решений (MDP), обладающий собственным пространством состояний, действий, моделью переходов и функцией награды. При этом семантическое понимание задачи человеком может расходиться с системным: например, ходьба по траве и ходьба по асфальту в рамках Multi-Task RL считаются двумя разными задачами из-за отличающейся физики взаимодействий.

Главным драйвером развития этого направления выступает резкое повышение эффективности использования данных. Поскольку родственные задачи неизбежно обладают общей скрытой структурой (например, удержание баланса важно как для бега, так и для танцев), обучение агента происходит синергетически.

Эмпирические наблюдения последних лет показывают удивительную закономерность: крупные универсальные ИИ-системы в конечном итоге оказываются более надежными, стабильными и результативными, нежели россыпь узкоспециализированных моделей, обученных под конкретные изолированные сценарии.

Для того чтобы политика могла дифференцировать задачи, в пространство состояний вводится так называемый идентификатор задачи ($z_i$). В простейшем случае это может быть обычный числовой индекс или one-hot вектор. В более продвинутых и современных архитектурах в качестве идентификаторов используются текстовые описания на естественном языке, видео-инструкции с демонстрацией желаемого поведения или конкретные целевые состояния (Goal-Conditioned RL).

🔄 Многозадачное подражание и современные архитектуры 44:48

Переход от классического подражательного обучения (Imitation Learning) к многозадачному концептуально выглядит как минимизация функции потерь, усредненной по всем доступным демонстрациям для $N$ различных задач. Однако на практике инженеры сталкиваются с серьезной проблемой высокой дисперсии градиентов: если один мини-батч будет состоять преимущественно из демонстраций ходьбы вперед, а следующий — из команд «лечь на пол», сеть начнет совершать хаотичные колебания в пространстве параметров. Для стабилизации обучения применяется метод стратификации мини-батчей (stratified sampling), гарантирующий, что в каждом подмножестве данных строго в равных пропорциях ($1/N$) представлены примеры из каждой существующей задачи.

В плане архитектур нейросетей Multi-Task RL требует интеграции разнородных модальностей. На лекции был подробно разобран пример классической робототехнической системы, где базовая модель принимает на вход сжатое изображение текущего состояния среды, а контекст задачи задается параллельно через два энкодера: текстовый (трансформер, обрабатывающий команду вроде «положи бутылку в керамическую чашу») и видео-энкодер (обрабатывающий ролик с демонстрацией аналогичного действия человеком). Полученные эмбеддинги задач затем внедряются в скрытые слои основной сети, предсказывающей действия робота.

В самых современных индустриальных робототехнических моделях (подобных RT-1 или RT-X) прослеживается явный тренд на унификацию:

Визуальные данные кодируются предобученными ViT-моделями (Vision Transformers).
Текстовая инструкция токенизируется стандартными языковыми методами.
Изображения и текст проецируются в единое пространство токенов и подаются на вход большой авторегрессионной мультимодальной сети, которая генерирует траектории движений как обычные текстовые токены.

Преподаватель подчеркивает, что единая многозадачная политика с текстовым промптом на входе значительно превосходит набор из множества изолированных сетей. Раздельные модели лишены возможности делить общие веса, требуют колоссального объема памяти для хранения параметров и вызывают задержки при необходимости переключения между задачами на физическом оборудовании. Для сверхсложных и долгосрочных миссий вроде «уберись на кухне» классической плоской политики становится недостаточно — в таких случаях поверх многозадачных модулей надстраивается иерархическое управление, которому будет посвящена одна из следующих лекций курса.

🏒 Ретроспективная переразметка: как извлекать пользу из ошибок 57:34

Одной из самых элегантных концепций в области многозадачного RL является ретроспективная переразметка данных (Hindsight Relabeling). В процессе исследования среды агент, выполняющий определенное задание, неизбежно совершает ошибки. В стандартном подходе эти данные считались бы бесполезным мусором, получившим отрицательное вознаграждение. Однако в многозадачной среде неудача в одной задаче может оказаться триумфом в другой.

Лектор привел наглядную аналогию из спортивной игры в хоккей:

Представьте, что игрок намеревался нанести прямой удар по воротам соперника, но совершил техническую ошибку, и шайба полетела в сторону. Однако на траектории полета случайно оказался его товарищ по команде — в результате получился идеальный, своевременный пас. С точки зрения изначальной цели (бросок) — это провал. Но с точки зрения альтернативной задачи (пас) — это ценнейший высококачественный опыт, который глупо выбрасывать.

Алгоритм ретроспективной переразметки формализуется следующим образом:

Выбирается задача $i$ с соответствующим идентификатором $z_i$.
Агент взаимодействует со средой и собирает стандартный переход $(s_t, a_t, s_{t+1}, r_t)$, обусловленный вектором $z_i$.
Данный опыт сохраняется в буфер текущей задачи.
Происходит магия Hindsight-подхода: берется та же самая цепочка состояний и действий, но пример переразмечается идентификатором совершенно другой задачи $j$ ($z_j$), а награда $r_t$ пересчитывается заново по целевой функции задачи $j$.
Модифицированный кортеж отправляется в буфер памяти задачи $j$, подпитывая ее дефицитным успешным опытом.

Для определения того, какие именно задачи заслуживают переразметки, используются две популярные эвристики: либо случайный равномерный выбор из всего пула задач, либо выбор тех сценариев, где пересчитанная ретроспективная награда оказалась наиболее высокой (то есть где агент случайно сделал что-то действительно полезное).

Тем не менее, у метода есть жесткие математические ограничения. Переразметка физически осуществима только тогда, когда все задачи делят между собой абсолютно идентичное пространство состояний и действий, имеют схожее распределение начальных позиций агента и, что критически важно, протекают в рамках одной и той же физической динамики среды. Наконец, поскольку переразмеченные данные по определению не соответствуют поведению текущей политики для задачи $j$, обновлять параметры нейросети можно исключительно с помощью алгоритмов обучения вне политики (Off-Policy RL).