Оценка политики: от обучения с учителем к Temporal Difference 8:28
Лекция посвящена методам оценки политики (policy evaluation) в задачах обучения с подкреплением (Reinforcement Learning, RL) в условиях табличного представления, когда пространство состояний достаточно мало для хранения значений в таблице. Основная цель — понять, насколько «хороша» текущая стратегия (policy) агента, опираясь исключительно на данные, полученные в результате взаимодействия с внешней средой, без априорного знания моделей динамики мира или функций вознаграждения.
Фундаментальные подходы к оценке 11:49
Для оценки качества политики исследователи используют несколько методологических подходов:
- Monte Carlo (MC) Policy Evaluation: Метод, основанный на моделировании опыта и усреднении накопленных вознаграждений.
- Temporal Difference (TD) Learning: Центральная концепция в RL, сочетающая выборку (sampling) для аппроксимации ожиданий и бутстрапинг (bootstrapping) для оценки будущих вознаграждений.
- Certainty Equivalence: Подход, при котором на основе имеющихся данных сначала строится модель (максимальное правдоподобие MDP), а затем к ней применяются методы динамического программирования.
Метод Монте-Карло: простота через опыт 14:20
Метод Монте-Карло полагается на прямое взаимодействие агента с миром. Суть метода заключается в следующем:
- Агент выполняет множество эпизодов (траекторий), следуя фиксированной политике.
- Функция ценности (value function) оценивается как среднее арифметическое всех полученных возвратов (discounted sum of rewards).
- Важное преимущество: Метод не требует выполнения условия Маркова для состояний. Он лишь усредняет результаты, что делает его устойчивым к неполноте признаков описания состояния.
- Ограничение: Метод применим только к эпизодическим задачам (episodic MDPs), так как для вычисления возврата необходимо дождаться завершения эпизода.
Для обновления оценок часто используется инкрементальный подход, схожий с алгоритмами в машинном обучении, где оценка обновляется с помощью шага обучения ($\alpha$):
$V(s) \leftarrow V(s) + \alpha [G - V(s)]$
Где $G$ — наблюдаемый возврат, а $V(s)$ — текущая оценка. Этот подход позволяет плавно уточнять значения по мере накопления данных.
Обучение с временными различиями (TD Learning) 36:49
TD-обучение (в частности, алгоритм TD(0)) является более гибким инструментом, так как не требует ожидания конца эпизода для обновления оценок.
- Механизм: Обновление происходит сразу после каждого шага (после получения кортежа «состояние — действие — вознаграждение — следующее состояние»).
-
Бутстрапинг: Вместо использования полного возврата $G$ до конца эпизода, TD использует оценку вознаграждения следующего состояния: $V(s) \leftarrow V(s) + \alpha [r + \gamma V(s') - V(s)]$
-
Преимущества: TD(0) можно применять как в эпизодических, так и в бесконечных горизонтах (infinite horizon). Это позволяет агенту обучаться «на лету», не дожидаясь финала.
Сравнение сходимости и эффективности 30:35
Выбор между Монте-Карло и TD-методами зависит от требований к данным и вычислительным ресурсам:
- Статистическая эффективность: Монте-Карло часто имеет высокую дисперсию (high variance), так как сильно зависит от случайности целой траектории. TD-методы, за счет бутстрапинга, часто демонстрируют меньшую дисперсию, но могут вносить смещение (bias).
- Использование Марковского свойства: TD-методы явно эксплуатируют структуру MDP, что позволяет им быстрее распространять информацию о вознаграждениях на предыдущие состояния (эффективнее «связывать» состояния).
- Поведение на малых данных: При ограниченном наборе данных (batch) TD и MC могут сходиться к совершенно разным результатам. В тестах на маленьких доменах TD демонстрирует работу, эквивалентную динамическому программированию на модели максимального правдоподобия, в то время как MC минимизирует среднеквадратичную ошибку непосредственно для наблюдаемых возвратов.