Эмма Бранскилл о DQN: «Реплей-буфер — ключ к прогрессу»

🧠 Обучение с подкреплением: от Q-обучения до глубоких нейронных сетей 0:05

Лекция №4 курса CS234 в Stanford University, которую ведет доцент Эмма Бранскилл (Emma Brunskill), посвящена ключевым аспектам обучения с подкреплением (Reinforcement Learning): алгоритмам Q-learning, Deep Q-learning (DQN) и проблеме аппроксимации функций. Основная идея заключается в том, чтобы научить агента принимать оптимальные решения в среде, не обладая при этом явной моделью динамики мира.

⚖️ Исследование против эксплуатации 9:29

Одной из фундаментальных проблем в обучении с подкреплением является баланс между разведкой (exploration) и эксплуатацией (exploitation):

Exploration: Агент пробует новые действия, чтобы получить данные о среде и уточнить свои оценки Q-функции.
Exploitation: Агент использует накопленные знания для максимизации награды.

По словам Эммы Бранскилл, простейшим методом решения этой дилеммы является epsilon-greedy стратегия. Суть метода заключается в том, что агент с вероятностью $1 - \epsilon$ выбирает действие, максимизирующее текущую оценку Q-функции, а с вероятностью $\epsilon$ совершает случайное действие. Этот подход позволяет доказать свойство монотонного улучшения политики, даже если она не является детерминированной.

🎮 Методы контроля: Monte Carlo, SARSA и Q-learning 15:35

Для обучения оптимальной политике в условиях отсутствия модели мира используются два основных подхода: Монте-Карло и временные разности (Temporal Difference, TD).

Монте-Карло (MC)

Метод предполагает выполнение эпизода целиком и обновление оценок Q-функции на основе полученного суммарного вознаграждения. Агент Эмма Бранскилл отмечает, что этот подход требует осторожного обращения из-за возможной стохастичности среды и того факта, что Q-функция в процессе обучения становится своеобразным «взвешенным средним» всех предыдущих политик.

SARSA (State-Action-Reward-State-Action)

Алгоритм получил свое название по элементам кортежа, необходимым для обновления: текущее состояние (S), действие (A), награда (R), следующее состояние (S') и следующее действие (A').

Это on-policy алгоритм: он оценивает Q-функцию той самой политики, которую агент использует для взаимодействия со средой.
SARSA гарантированно сходится к оптимальной $Q^*$ в табличном случае при соблюдении условий GLIE (Greedy in the Limit of infinite Exploration) — бесконечного посещения всех состояний-действий при постепенном уменьшении $\epsilon$ до нуля.

Q-learning

В отличие от SARSA, Q-learning является off-policy алгоритмом.

Вместо использования действия, которое агент действительно совершил в следующем состоянии, Q-learning обновляет оценку, используя max по всем возможным действиям в этом состоянии.
Это позволяет агенту напрямую оценивать оптимальную политику $\pi^*$, даже если текущая стратегия сбора данных (behavior policy) случайна.

🏗️ Аппроксимация функций и «Смертельная триада» 51:14

Для решения задач с огромным пространством состояний (например, игра в Atari по пикселям) таблицы становятся непригодны. В таких случаях используются параметризованные функции — нейронные сети.

Однако Эмма Бранскилл предостерегает о существовании «Смертельной триады» (Deadly Triad), описанной Ричардом Саттоном и Эндрю Барто. Если одновременно использовать:

Бутстрапинг (bootstrapping): обновление оценок на основе других оценок.
Аппроксимацию функций: нейронные сети или линейные модели.
Off-policy обучение: сбор данных по одной политике, а оценка — по другой.

Сочетание этих факторов может привести к полной потере сходимости или осцилляциям алгоритма.

🕹️ Прорыв с Deep Q-learning (DQN)

Успех DeepMind в обучении агентов играть в игры Atari на основе пиксельного входа стал возможен благодаря двум ключевым инновациям, стабилизирующим обучение:

Experience Replay (опыт повторного воспроизведения): Агент хранит переходы в буфере и делает обновления на основе случайных выборок из прошлого. Это разрушает корреляцию между последовательными данными, делая их более независимыми, что критично для работы нейросетей. По словам Бранскилл, использование буфера воспроизведения было «невероятно важным» для успеха.
Fixed Q-targets (фиксированные целевые значения): Для предотвращения нестабильности (когда целевое значение меняется вместе с обновляемыми весами), веса, используемые для вычисления целевого значения, обновляются реже и отдельно от основных весов.

Эти методы позволяют одной и той же архитектуре нейронной сети обучаться различным играм с идентичными гиперпараметрами, что является впечатляющим достижением в области глубокого обучения с подкреплением.