Аникайт из Стэнфорда: «Почему ваше Q-обучение нестабильно?»

Основы и развитие Q-обучения: от табличных методов к глубоким нейросетям 0:05

Q-обучение (Q-learning) является фундаментальным методом обучения с подкреплением (RL), позволяющим агенту определять оптимальную стратегию взаимодействия с окружающей средой. Как объяснил ассистент курса Stanford CS224R Аникайт, Q-функция служит инструментом для оценки ожидаемой будущей награды, что дает агенту четкие инструкции, какие действия следует предпринимать в конкретных состояниях.

Понимание Q-функции и MDP 1:12

В рамках Марковских процессов принятия решений (MDP) агент взаимодействует со средой, выполняя действия и получая награды. Ключевые понятия, определяющие этот процесс:

Value function (V-функция): Оценивает общую ценность состояния, не учитывая конкретные действия.
Q-функция: Оценивает ценность выполнения конкретного действия в конкретном состоянии.
Преимущество (Advantage): Разница между Q-значением и V-значением, показывающая, насколько конкретное действие лучше или хуже усредненного поведения агента в данном состоянии.

Для простых «табличных» задач, таких как GridWorld, оптимальную Q-функцию можно найти с помощью динамического программирования, итеративно распространяя значения наград от терминальных состояний к начальным.

Динамическое программирование против Monte Carlo 9:03

Аникайт подчеркивает разницу между этими подходами:

Динамическое программирование: Если Q-функция присутствует в обеих частях уравнения обновления, это классический метод динамического программирования. Он эффективен для «сшивания» траекторий и формирования оптимального пути, но требует точного знания динамики среды.
Monte Carlo: Этот метод полагается исключительно на собранные награды из полных траекторий. Его преимущество — отсутствие смещения (bias), однако он страдает от высокой дисперсии (variance) при наличии шума в среде.

TD-обучение (Temporal Difference) выступает как промежуточное звено, позволяющее найти баланс между смещением и дисперсией.

Практическая оптимизация: нейросети и стабильность 18:11

При переходе от табличных данных к сложным средам с большим количеством состояний приходится использовать параметрические аппроксиматоры, такие как нейронные сети. Однако обучение Q-функции через регрессию сопряжено с нестабильностью. Для решения этих проблем применяются следующие методы:

Целевые сети (Target Networks): Заморозка весов целевой сети помогает избежать «гонки за убегающей целью» при обновлении Q-функции.
Обновления Polyak (Soft Updates): Плавная интерполяция весов основной и целевой сетей обеспечивает стабильность обучения.
Градиентное отсечение (Gradient Clipping): Предотвращает слишком резкие изменения параметров сети при обновлении.
Huber Loss: Гибридная функция потерь, сочетающая свойства L1 (устойчивость к выбросам) и L2 (точность при сближении с целью).

Проблема переоценки (Overestimation) 42:48

Одной из главных проблем Q-обучения является систематическая переоценка Q-значений, возникающая из-за операции максимизации над зашумленными оценками. Ошибки в оценке Q-функции накапливаются и распространяются по всему пространству состояний, что приводит к неоптимальному поведению.

Как отметил спикер, наиболее эффективным решением стало ансамблирование критиков (оценка эпистемической неопределенности). Использование нескольких сетей и выбор минимального значения из ансамбля (как в методах Double Q-learning) позволяет эффективно минимизировать ошибки переоценки и стабилизировать процесс обучения.