# Аникайт из Стэнфорда: «Почему ваше Q-обучение нестабильно?»

Источник: https://www.youtube.com/watch?v=07MQNMcxhZU
Канал: Stanford Online
Опубликовано: 08.12.2025

---

## Основы и развитие Q-обучения: от табличных методов к глубоким нейросетям
[[JUMP:00:05]]

Q-обучение (Q-learning) является фундаментальным методом обучения с подкреплением (RL), позволяющим агенту определять оптимальную стратегию взаимодействия с окружающей средой. Как объяснил ассистент курса Stanford CS224R Аникайт, Q-функция служит инструментом для оценки ожидаемой будущей награды, что дает агенту четкие инструкции, какие действия следует предпринимать в конкретных состояниях.

### Понимание Q-функции и MDP
[[JUMP:01:12]]

В рамках Марковских процессов принятия решений (MDP) агент взаимодействует со средой, выполняя действия и получая награды. Ключевые понятия, определяющие этот процесс:

*   **Value function (V-функция):** Оценивает общую ценность состояния, не учитывая конкретные действия.
*   **Q-функция:** Оценивает ценность выполнения конкретного действия в конкретном состоянии.
*   **Преимущество (Advantage):** Разница между Q-значением и V-значением, показывающая, насколько конкретное действие лучше или хуже усредненного поведения агента в данном состоянии.

Для простых «табличных» задач, таких как GridWorld, оптимальную Q-функцию можно найти с помощью динамического программирования, итеративно распространяя значения наград от терминальных состояний к начальным.

### Динамическое программирование против Monte Carlo
[[JUMP:09:03]]

Аникайт подчеркивает разницу между этими подходами:

*   **Динамическое программирование:** Если Q-функция присутствует в обеих частях уравнения обновления, это классический метод динамического программирования. Он эффективен для «сшивания» траекторий и формирования оптимального пути, но требует точного знания динамики среды.
*   **Monte Carlo:** Этот метод полагается исключительно на собранные награды из полных траекторий. Его преимущество — отсутствие смещения (bias), однако он страдает от высокой дисперсии (variance) при наличии шума в среде.

TD-обучение (Temporal Difference) выступает как промежуточное звено, позволяющее найти баланс между смещением и дисперсией.

### Практическая оптимизация: нейросети и стабильность
[[JUMP:18:11]]

При переходе от табличных данных к сложным средам с большим количеством состояний приходится использовать параметрические аппроксиматоры, такие как нейронные сети. Однако обучение Q-функции через регрессию сопряжено с нестабильностью. Для решения этих проблем применяются следующие методы:

1.  **Целевые сети (Target Networks):** Заморозка весов целевой сети помогает избежать «гонки за убегающей целью» при обновлении Q-функции.
2.  **Обновления Polyak (Soft Updates):** Плавная интерполяция весов основной и целевой сетей обеспечивает стабильность обучения.
3.  **Градиентное отсечение (Gradient Clipping):** Предотвращает слишком резкие изменения параметров сети при обновлении.
4.  **Huber Loss:** Гибридная функция потерь, сочетающая свойства L1 (устойчивость к выбросам) и L2 (точность при сближении с целью).

### Проблема переоценки (Overestimation)
[[JUMP:42:48]]

Одной из главных проблем Q-обучения является систематическая переоценка Q-значений, возникающая из-за операции максимизации над зашумленными оценками. Ошибки в оценке Q-функции накапливаются и распространяются по всему пространству состояний, что приводит к неоптимальному поведению.

Как отметил спикер, наиболее эффективным решением стало **ансамблирование критиков** (оценка эпистемической неопределенности). Использование нескольких сетей и выбор минимального значения из ансамбля (как в методах Double Q-learning) позволяет эффективно минимизировать ошибки переоценки и стабилизировать процесс обучения.