Эмма Бранскилл о DQN: «Реплей-буфер — ключ к прогрессу»

Stanford Online 19 тыс. 1 ч 18 мин 3 мин 30.10.2024
Главное

🧠 Обучение с подкреплением: от Q-обучения до глубоких нейронных сетей 0:05

Лекция №4 курса CS234 в Stanford University, которую ведет доцент Эмма Бранскилл (Emma Brunskill), посвящена ключевым аспектам обучения с подкреплением (Reinforcement Learning): алгоритмам Q-learning, Deep Q-learning (DQN) и проблеме аппроксимации функций. Основная идея заключается в том, чтобы научить агента принимать оптимальные решения в среде, не обладая при этом явной моделью динамики мира.

⚖️ Исследование против эксплуатации 9:29

Одной из фундаментальных проблем в обучении с подкреплением является баланс между разведкой (exploration) и эксплуатацией (exploitation):

По словам Эммы Бранскилл, простейшим методом решения этой дилеммы является epsilon-greedy стратегия. Суть метода заключается в том, что агент с вероятностью $1 - \epsilon$ выбирает действие, максимизирующее текущую оценку Q-функции, а с вероятностью $\epsilon$ совершает случайное действие. Этот подход позволяет доказать свойство монотонного улучшения политики, даже если она не является детерминированной.

🎮 Методы контроля: Monte Carlo, SARSA и Q-learning 15:35

Для обучения оптимальной политике в условиях отсутствия модели мира используются два основных подхода: Монте-Карло и временные разности (Temporal Difference, TD).

Монте-Карло (MC)

Метод предполагает выполнение эпизода целиком и обновление оценок Q-функции на основе полученного суммарного вознаграждения. Агент Эмма Бранскилл отмечает, что этот подход требует осторожного обращения из-за возможной стохастичности среды и того факта, что Q-функция в процессе обучения становится своеобразным «взвешенным средним» всех предыдущих политик.

SARSA (State-Action-Reward-State-Action)

Алгоритм получил свое название по элементам кортежа, необходимым для обновления: текущее состояние (S), действие (A), награда (R), следующее состояние (S') и следующее действие (A').

Q-learning

В отличие от SARSA, Q-learning является off-policy алгоритмом.

🏗️ Аппроксимация функций и «Смертельная триада» 51:14

Для решения задач с огромным пространством состояний (например, игра в Atari по пикселям) таблицы становятся непригодны. В таких случаях используются параметризованные функции — нейронные сети.

Однако Эмма Бранскилл предостерегает о существовании «Смертельной триады» (Deadly Triad), описанной Ричардом Саттоном и Эндрю Барто. Если одновременно использовать:

  1. Бутстрапинг (bootstrapping): обновление оценок на основе других оценок.
  2. Аппроксимацию функций: нейронные сети или линейные модели.
  3. Off-policy обучение: сбор данных по одной политике, а оценка — по другой.

Сочетание этих факторов может привести к полной потере сходимости или осцилляциям алгоритма.

🕹️ Прорыв с Deep Q-learning (DQN)

Успех DeepMind в обучении агентов играть в игры Atari на основе пиксельного входа стал возможен благодаря двум ключевым инновациям, стабилизирующим обучение:

  1. Experience Replay (опыт повторного воспроизведения): Агент хранит переходы в буфере и делает обновления на основе случайных выборок из прошлого. Это разрушает корреляцию между последовательными данными, делая их более независимыми, что критично для работы нейросетей. По словам Бранскилл, использование буфера воспроизведения было «невероятно важным» для успеха.
  2. Fixed Q-targets (фиксированные целевые значения): Для предотвращения нестабильности (когда целевое значение меняется вместе с обновляемыми весами), веса, используемые для вычисления целевого значения, обновляются реже и отдельно от основных весов.

Эти методы позволяют одной и той же архитектуре нейронной сети обучаться различным играм с идентичными гиперпараметрами, что является впечатляющим достижением в области глубокого обучения с подкреплением.

💬 Цитаты

«Это должно быть своего рода шокирующим, что обучение с подкреплением вообще работает.»

Эмма Бранскилл 30:22

«Мы не меняем мозг, когда выполняем разные задачи, но имеем один и тот же алгоритм обучения.»

Эмма Бранскилл 114:51
👥 Спикер
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
Q-learning
Алгоритм, который учит агента выбирать действия для максимизации суммарного будущего вознаграждения.
SARSA
Метод обучения, который обновляет оценку состояния-действия на основе следующего предпринятого действия (on-policy).
Experience Replay
Буфер, в котором хранятся прошлые события, позволяющий агенту повторно обучаться на них для повышения эффективности.
Bootstrapping
Процесс обновления оценок на основе других, еще не до конца точных оценок.
Deadly Triad
Сочетание бутстрапинга, аппроксимации функций и off-policy обучения, ведущее к нестабильности алгоритмов.
📊 Цифры
🗓 Хронология
  1. 1990-е Период активных исследований, показавших возможность осцилляций при аппроксимации функций в RL.
  2. 1992, 1994 Публикация фундаментальных работ, доказывающих сходимость RL-алгоритмов под определенными условиями.
  3. 2014 DeepMind демонстрирует успех DQN в обучении играм по пикселям.
⚖️ Другая сторона
Искусственный интеллект Reinforcement Learning Q-learning DQN DeepMind CS234