Dream to Control: подробный разбор обучения агентов в латентном пространстве

В новом видео Янник Килхер (Yannic Kilcher) подробно разбирает научную работу «Dream to Control: Learning Behaviors by Latent Imagination» (также известную как алгоритм Dreamer). Это исследование в области обучения с подкреплением (RL) предлагает метод, позволяющий роботам обучаться сложным движениям не в реальном мире, а внутри собственного «воображения» — в скрытом латентном пространстве.

🤖 Суть обучения в воображении 0:00

Основная задача исследования — научить виртуальных роботов (например, «пауков» или «шагоходов») выполнять задачи в симуляциях с непрерывным управлением. В стандартном обучении с подкреплением агент совершает действие, получает новое наблюдение (картинку или координаты) и награду.

Ключевая идея алгоритма Dreamer заключается в том, чтобы агент мог «планировать наперёд» в скрытом (латентном) пространстве. Процесс выглядит следующим образом:

Наблюдение (изображение) подаётся на вход энкодера (например, сверточной нейросети).
Энкодер преобразует его в скрытое представление — вектор в латентном пространстве.
Вместо того чтобы постоянно взаимодействовать с реальной средой, агент использует обученную модель мира, чтобы предсказать, что произойдёт дальше.

По мнению Янника Килхера, это похоже на сны: модель представляет, как изменятся её внутренние состояния, если она «нажмёт джойстик вправо», не совершая этого действия на самом деле.

🔄 Отличия от MuZero и World Models 4:13

Янник Килхер проводит параллели с другими известными работами, такими как MuZero от DeepMind или World Models Юргена Шмидхубера. Однако он выделяет важные отличия Dreamer:

Отсутствие дерева поиска: В отличие от MuZero, который использует планирование на основе деревьев Монте-Карло (MCTS), Dreamer стремится получить готовую «политику в один выстрел» (single-shot policy).
Итеративный процесс: В ранних работах агенты часто сначала собирали данные случайными движениями, а потом учились. Dreamer же итеративно улучшает и модель мира, и свою стратегию поведения.

🏗️ Архитектура из трёх компонентов 7:21

Для реализации «цифровых сновидений» алгоритм использует три взаимосвязанные модели, которые имеют общие параметры:

1. Модель динамики (Dynamics Learning)

Эта часть отвечает за понимание того, как устроен мир. Она состоит из:

Representation Model: кодирует входные данные в скрытые состояния.
Transition Model: предсказывает следующее скрытое состояние на основе текущего и выбранного действия.
Reward Model: предсказывает ожидаемую награду за переход.

Янник отмечает, что для обучения хороших представлений часто используется декодер, который пытается восстановить исходное изображение из вектора (по принципу вариационного автоэнкодера, VAE). Если модель может восстановить картинку, значит, её скрытое состояние содержит важную информацию о среде.

2. Обучение поведению (Behavior Learning) 12:54

Когда модель мира обучена, агент начинает «воображать» траектории. Он берет скрытое состояние и прокручивает в уме цепочку будущих состояний и наград.

3. Модель действий и ценностей

Action Model (Policy): определяет, какое действие лучше совершить в конкретном скрытом состоянии.
Value Model: оценивает общую сумму будущих наград, которую агент ожидает получить из этого состояния.

⚙️ Технические параметры и алгоритм (Tech Tutorial) 10:27

Процесс обучения Dreamer разделен на конкретные шаги:

Шаг 1: Сбор данных

Агент взаимодействует со средой, используя текущую политику.
Данные (наблюдения, действия, награды) сохраняются в буфер (replay buffer).

Шаг 2: Обучение динамики (параметры $\theta$)

Из буфера извлекаются последовательности данных.
Обновляются параметры модели представления, перехода и награды.
Цель: минимизировать ошибку предсказания следующего состояния и награды.

Шаг 3: Обучение поведению (параметры $\phi$ и $\psi$)

Агент «воображает» траектории фиксированной длины (горизонт планирования $H$).
Обновляется Action Model ($\phi$), чтобы максимизировать ожидаемую ценность.
Обновляется Value Model ($\psi$), чтобы она точнее соответствовала расчетным оценкам ценности.

🚀 «Рабочая лошадка» метода: Оценка ценности 17:36

Янник Килхер считает, что самым важным и сложным элементом статьи является способ оценки ценности состояния (Equation 6). Поскольку траектории в задачах управления могут быть очень длинными, обычного градиентного спуска через LSTM может быть недостаточно.

Авторы используют сложную формулу, которая:

Смешивает награды, полученные на разных шагах будущего.
Использует собственные предсказания функции ценности для оценки того, что произойдет за пределами горизонта планирования.

«Эта запутанная оценка ценности позволяет смотреть далеко в будущее, учитывая информацию из шагов, выходящих за рамки текущего окна воображения», — объясняет Янник.

По данным ведущего, Dreamer показывает отличные результаты в тестах на физическую симуляцию, хотя видео с демонстрацией работы в самой статье найти не удалось.