Методы оценки политики: Монте-Карло против Temporal Difference

Оценка политики: от обучения с учителем к Temporal Difference 8:28

Лекция посвящена методам оценки политики (policy evaluation) в задачах обучения с подкреплением (Reinforcement Learning, RL) в условиях табличного представления, когда пространство состояний достаточно мало для хранения значений в таблице. Основная цель — понять, насколько «хороша» текущая стратегия (policy) агента, опираясь исключительно на данные, полученные в результате взаимодействия с внешней средой, без априорного знания моделей динамики мира или функций вознаграждения.

Фундаментальные подходы к оценке 11:49

Для оценки качества политики исследователи используют несколько методологических подходов:

Monte Carlo (MC) Policy Evaluation: Метод, основанный на моделировании опыта и усреднении накопленных вознаграждений.
Temporal Difference (TD) Learning: Центральная концепция в RL, сочетающая выборку (sampling) для аппроксимации ожиданий и бутстрапинг (bootstrapping) для оценки будущих вознаграждений.
Certainty Equivalence: Подход, при котором на основе имеющихся данных сначала строится модель (максимальное правдоподобие MDP), а затем к ней применяются методы динамического программирования.

Метод Монте-Карло: простота через опыт 14:20

Метод Монте-Карло полагается на прямое взаимодействие агента с миром. Суть метода заключается в следующем:

Агент выполняет множество эпизодов (траекторий), следуя фиксированной политике.
Функция ценности (value function) оценивается как среднее арифметическое всех полученных возвратов (discounted sum of rewards).
Важное преимущество: Метод не требует выполнения условия Маркова для состояний. Он лишь усредняет результаты, что делает его устойчивым к неполноте признаков описания состояния.
Ограничение: Метод применим только к эпизодическим задачам (episodic MDPs), так как для вычисления возврата необходимо дождаться завершения эпизода.

Для обновления оценок часто используется инкрементальный подход, схожий с алгоритмами в машинном обучении, где оценка обновляется с помощью шага обучения ($\alpha$):

$V(s) \leftarrow V(s) + \alpha [G - V(s)]$

Где $G$ — наблюдаемый возврат, а $V(s)$ — текущая оценка. Этот подход позволяет плавно уточнять значения по мере накопления данных.

Обучение с временными различиями (TD Learning) 36:49

TD-обучение (в частности, алгоритм TD(0)) является более гибким инструментом, так как не требует ожидания конца эпизода для обновления оценок.

Механизм: Обновление происходит сразу после каждого шага (после получения кортежа «состояние — действие — вознаграждение — следующее состояние»).
Бутстрапинг: Вместо использования полного возврата $G$ до конца эпизода, TD использует оценку вознаграждения следующего состояния: $V(s) \leftarrow V(s) + \alpha [r + \gamma V(s') - V(s)]$
Преимущества: TD(0) можно применять как в эпизодических, так и в бесконечных горизонтах (infinite horizon). Это позволяет агенту обучаться «на лету», не дожидаясь финала.

Сравнение сходимости и эффективности 30:35

Выбор между Монте-Карло и TD-методами зависит от требований к данным и вычислительным ресурсам:

Статистическая эффективность: Монте-Карло часто имеет высокую дисперсию (high variance), так как сильно зависит от случайности целой траектории. TD-методы, за счет бутстрапинга, часто демонстрируют меньшую дисперсию, но могут вносить смещение (bias).
Использование Марковского свойства: TD-методы явно эксплуатируют структуру MDP, что позволяет им быстрее распространять информацию о вознаграждениях на предыдущие состояния (эффективнее «связывать» состояния).
Поведение на малых данных: При ограниченном наборе данных (batch) TD и MC могут сходиться к совершенно разным результатам. В тестах на маленьких доменах TD демонстрирует работу, эквивалентную динамическому программированию на модели максимального правдоподобия, в то время как MC минимизирует среднеквадратичную ошибку непосредственно для наблюдаемых возвратов.