Методы Offline RL: от имитации к оптимизации стратегий

Stanford Online 4,9 тыс. 1 ч 7 мин 2 мин 08.12.2025
Главное

Методы автономного обучения с подкреплением: От имитации к оптимизации 7:44

Автономное обучение с подкреплением (Offline RL) — это область машинного обучения, где агент учится принимать решения на основе заранее собранного набора данных, не имея возможности взаимодействовать с внешней средой в процессе обучения. В отличие от классического обучения с подкреплением (Online RL), где агент непрерывно собирает данные, «автономный» подход позволяет эффективно использовать существующие архивы опыта, что критически важно в сферах, где сбор новых данных дорог или небезопасен, таких как управление автомобилем или медицинские протоколы лечения.

⚖️ Основная проблема: Сдвиг распределения 17:34

Ключевой вызов в Offline RL связан со «сдвигом распределения» (distribution shift). В процессе обучения алгоритм стремится оптимизировать политику, отличающуюся от той (поведенческой политики, или $\pi_\beta$), которая собирала данные.

🛠 Базовые подходы к обучению 26:39

Имитационное обучение (Imitation Learning) является простейшим решением, так как оно использует только те действия, которые уже представлены в данных. Однако оно не позволяет превзойти «эксперта», чьи данные были собраны. Более совершенные методы Offline RL способны «сшивать» (stitch) фрагменты различных траекторий, объединяя успешные участки из разных попыток для формирования оптимальной стратегии.

Advantage Weighted Regression (AWR) 44:11

Одним из наиболее эффективных и простых методов является Advantage Weighted Regression. Алгоритм работает в два этапа:

  1. Оценка функции ценности: Сначала обучается Value-функция с помощью регрессии методом Монте-Карло на сумму будущих вознаграждений.
  2. Взвешенное обучение политики: Политика обучается максимизировать вероятность действий, взвешенную по экспоненциальным значениям функции преимущества (advantage).

Этот подход позволяет неявно принуждать агента выбирать действия с высоким преимуществом, избегая при этом запросов к действиям вне набора данных, что обеспечивает стабильность обучения.

🧠 Продвинутая оптимизация: Implicit Q-Learning (IQL)

Для задач, где требуется более высокая точность, используется Implicit Q-Learning (IQL). Метод заменяет стандартную среднеквадратичную ошибку (MSE) на асимметричную функцию потерь (expected regression), что позволяет целенаправленно оценивать значение политики, превосходящей по качеству исходную поведенческую политику.

💬 Цитаты

«Если вы все время совершаете одно и то же действие, преимущество будет равно нулю, и вы просто вернетесь к обычной имитации.»

Лектор Stanford Online 47:29

«Offline RL позволяет «сшивать» хорошие фрагменты разных траекторий.»

Лектор Stanford Online 29:10
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Offline RL
Обучение с подкреплением, основанное исключительно на статическом наборе данных без взаимодействия с новой средой.
Bootstrapping
Метод обучения, при котором текущая оценка функции ценности обновляется на основе других оценок (TD-update).
Stitching
Способность алгоритма комбинировать части разных траекторий для создания новой, более успешной стратегии.
Off-policy
Обучение модели на данных, собранных политикой, отличной от той, которую агент пытается улучшить.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Offline RL Implicit Q-Learning Advantage Weighted Regression