# Методы оценки политики: Монте-Карло против Temporal Difference

Источник: https://www.youtube.com/watch?v=jjq51TRNVvk
Канал: Stanford Online
Опубликовано: 30.10.2024

---

## Оценка политики: от обучения с учителем к Temporal Difference
[[JUMP:08:28]]

Лекция посвящена методам оценки политики (policy evaluation) в задачах обучения с подкреплением (Reinforcement Learning, RL) в условиях табличного представления, когда пространство состояний достаточно мало для хранения значений в таблице. Основная цель — понять, насколько «хороша» текущая стратегия (policy) агента, опираясь исключительно на данные, полученные в результате взаимодействия с внешней средой, без априорного знания моделей динамики мира или функций вознаграждения.

### Фундаментальные подходы к оценке
[[JUMP:11:49]]

Для оценки качества политики исследователи используют несколько методологических подходов:

* **Monte Carlo (MC) Policy Evaluation**: Метод, основанный на моделировании опыта и усреднении накопленных вознаграждений.
* **Temporal Difference (TD) Learning**: Центральная концепция в RL, сочетающая выборку (sampling) для аппроксимации ожиданий и бутстрапинг (bootstrapping) для оценки будущих вознаграждений.
* **Certainty Equivalence**: Подход, при котором на основе имеющихся данных сначала строится модель (максимальное правдоподобие MDP), а затем к ней применяются методы динамического программирования.

### Метод Монте-Карло: простота через опыт
[[JUMP:14:20]]

Метод Монте-Карло полагается на прямое взаимодействие агента с миром. Суть метода заключается в следующем:

* Агент выполняет множество эпизодов (траекторий), следуя фиксированной политике.
* Функция ценности (value function) оценивается как среднее арифметическое всех полученных возвратов (discounted sum of rewards).
* **Важное преимущество**: Метод не требует выполнения условия Маркова для состояний. Он лишь усредняет результаты, что делает его устойчивым к неполноте признаков описания состояния.
* **Ограничение**: Метод применим только к эпизодическим задачам (episodic MDPs), так как для вычисления возврата необходимо дождаться завершения эпизода.

Для обновления оценок часто используется *инкрементальный* подход, схожий с алгоритмами в машинном обучении, где оценка обновляется с помощью шага обучения ($\alpha$):

$V(s) \leftarrow V(s) + \alpha [G - V(s)]$

Где $G$ — наблюдаемый возврат, а $V(s)$ — текущая оценка. Этот подход позволяет плавно уточнять значения по мере накопления данных.

### Обучение с временными различиями (TD Learning)
[[JUMP:36:49]]

TD-обучение (в частности, алгоритм TD(0)) является более гибким инструментом, так как не требует ожидания конца эпизода для обновления оценок.

* **Механизм**: Обновление происходит сразу после каждого шага (после получения кортежа «состояние — действие — вознаграждение — следующее состояние»).
* **Бутстрапинг**: Вместо использования полного возврата $G$ до конца эпизода, TD использует оценку вознаграждения следующего состояния:
    $V(s) \leftarrow V(s) + \alpha [r + \gamma V(s') - V(s)]$

* **Преимущества**: TD(0) можно применять как в эпизодических, так и в бесконечных горизонтах (infinite horizon). Это позволяет агенту обучаться «на лету», не дожидаясь финала.

### Сравнение сходимости и эффективности
[[JUMP:30:35]]

Выбор между Монте-Карло и TD-методами зависит от требований к данным и вычислительным ресурсам:

1.  **Статистическая эффективность**: Монте-Карло часто имеет высокую дисперсию (high variance), так как сильно зависит от случайности целой траектории. TD-методы, за счет бутстрапинга, часто демонстрируют меньшую дисперсию, но могут вносить смещение (bias).
2.  **Использование Марковского свойства**: TD-методы явно эксплуатируют структуру MDP, что позволяет им быстрее распространять информацию о вознаграждениях на предыдущие состояния (эффективнее «связывать» состояния).
3.  **Поведение на малых данных**: При ограниченном наборе данных (batch) TD и MC могут сходиться к совершенно разным результатам. В тестах на маленьких доменах TD демонстрирует работу, эквивалентную динамическому программированию на модели максимального правдоподобия, в то время как MC минимизирует среднеквадратичную ошибку непосредственно для наблюдаемых возвратов.