Методы оценки политики: Монте-Карло против Temporal Difference

Stanford Online 25,8 тыс. 1 ч 20 мин 2 мин 30.10.2024
Главное

Оценка политики: от обучения с учителем к Temporal Difference 8:28

Лекция посвящена методам оценки политики (policy evaluation) в задачах обучения с подкреплением (Reinforcement Learning, RL) в условиях табличного представления, когда пространство состояний достаточно мало для хранения значений в таблице. Основная цель — понять, насколько «хороша» текущая стратегия (policy) агента, опираясь исключительно на данные, полученные в результате взаимодействия с внешней средой, без априорного знания моделей динамики мира или функций вознаграждения.

Фундаментальные подходы к оценке 11:49

Для оценки качества политики исследователи используют несколько методологических подходов:

Метод Монте-Карло: простота через опыт 14:20

Метод Монте-Карло полагается на прямое взаимодействие агента с миром. Суть метода заключается в следующем:

Для обновления оценок часто используется инкрементальный подход, схожий с алгоритмами в машинном обучении, где оценка обновляется с помощью шага обучения ($\alpha$):

$V(s) \leftarrow V(s) + \alpha [G - V(s)]$

Где $G$ — наблюдаемый возврат, а $V(s)$ — текущая оценка. Этот подход позволяет плавно уточнять значения по мере накопления данных.

Обучение с временными различиями (TD Learning) 36:49

TD-обучение (в частности, алгоритм TD(0)) является более гибким инструментом, так как не требует ожидания конца эпизода для обновления оценок.

Сравнение сходимости и эффективности 30:35

Выбор между Монте-Карло и TD-методами зависит от требований к данным и вычислительным ресурсам:

  1. Статистическая эффективность: Монте-Карло часто имеет высокую дисперсию (high variance), так как сильно зависит от случайности целой траектории. TD-методы, за счет бутстрапинга, часто демонстрируют меньшую дисперсию, но могут вносить смещение (bias).
  2. Использование Марковского свойства: TD-методы явно эксплуатируют структуру MDP, что позволяет им быстрее распространять информацию о вознаграждениях на предыдущие состояния (эффективнее «связывать» состояния).
  3. Поведение на малых данных: При ограниченном наборе данных (batch) TD и MC могут сходиться к совершенно разным результатам. В тестах на маленьких доменах TD демонстрирует работу, эквивалентную динамическому программированию на модели максимального правдоподобия, в то время как MC минимизирует среднеквадратичную ошибку непосредственно для наблюдаемых возвратов.
💬 Цитаты

«Если бы пришлось выбрать одну идею как центральную и новую для RL, это, несомненно, было бы обучение с временными различиями.»

Лектор Stanford Online 38:06
👥 Спикер
📚 Упомянутые книги
📖 Термины
Бутстрапинг
Метод оценки, при котором текущая оценка используется для обновления будущих оценок.
TD-ошибка
Разница между текущей оценкой состояния и целевым значением, вычисленным через вознаграждение и оценку следующего состояния.
Табличный MDP
Задача с достаточно малым числом состояний, чтобы хранить значения для каждого из них в виде таблицы.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Reinforcement Learning Temporal Difference Monte Carlo Markov Decision Process Policy Evaluation