От PPO до Dagger: современные методы обучения агентов

Stanford Online 11,4 тыс. 1 ч 18 мин 2 мин 30.10.2024
Главное

Теория и практика поиска стратегий в обучении с подкреплением 0:05

Лекция посвящена продвинутым методам поиска стратегий в обучении с подкреплением (Reinforcement Learning, RL), включая глубокое изучение proximal policy optimization (PPO) и концепцию имитационного обучения. Ведущий от Stanford Online разбирает теоретические основы оптимизации стратегий, механизмы оценки преимуществ (Advantage Estimation) и способы эффективного переноса знаний от экспертов к обучаемым агентам.

🛠 Оптимизация стратегий и PPO 4:24

Основная проблема классического метода REINFORCE заключается в низкой эффективности использования выборки (sample efficiency) и чувствительности к изменениям в пространстве параметров. В PPO для достижения монотонного улучшения используется два ключевых подхода:

Важной частью PPO является обобщенная оценка преимуществ (Generalized Advantage Estimation, GAE). Она позволяет сбалансировать дисперсию и смещение (bias-variance tradeoff) при оценке преимущества действия, используя взвешенную комбинацию $n$-шаговых оценщиков. Ведущий отмечает, что использование телескопических сумм позволяет эффективно пересчитывать значения, не храня в памяти множество копий различных оценщиков.

📉 Монотонное улучшение и границы производительности 28:44

Теоретическим обоснованием успеха PPO служит доказательство возможности гарантированного монотонного улучшения. В основе лежит использование нижней границы (lower bound) функции производительности стратегии.

Хотя PPO не гарантирует монотонность в чистом виде (из-за приближений), он приближается к ней, что делает его предпочтительным инструментом в чувствительных областях, таких как медицина или управление промышленным оборудованием.

🤖 Имитационное обучение: от Behavior Cloning к Dagger 44:05

Имитационное обучение (Imitation Learning) позволяет избежать необходимости явного задания функции вознаграждения, используя демонстрации экспертов.

Behavior Cloning (BC)

Самый прямой подход, сводящий RL к задаче обучения с учителем.

Алгоритм Dagger

Решает проблему BC через итеративное взаимодействие с экспертом:

  1. Агент выполняет текущую стратегию в среде.
  2. Эксперт («тренер») размечает, какое действие было бы правильным в каждой точке траектории, где агент совершил ошибку.
  3. Данные агрегируются, и модель переобучается.
  4. Минус: метод требует «человека в цикле» (human-in-the-loop), что крайне дорого и ресурсозатратно.

💎 Обратное обучение с подкреплением (Inverse RL)

В случаях, когда эксперт демонстрирует оптимальное поведение, но функция вознаграждения неизвестна, применяется Inverse Reinforcement Learning (IRL).

💬 Цитаты

«Если вы делаете небольшую ошибку на раннем этапе, она может привести вас в части пространства состояний, где у вас почти нет данных.»

«Мало кто использует это на практике, так как это требует постоянного участия человека, что в большинстве случаев невозможно.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
PPO (Proximal Policy Optimization)
Алгоритм обучения с подкреплением, который предотвращает слишком резкие изменения стратегии.
GAE (Generalized Advantage Estimation)
Метод оценки преимущества действия, позволяющий снизить дисперсию при обучении.
Behavior Cloning
Подход, при котором агент имитирует действия эксперта, обучаясь как в задаче классического обучения с учителем.
Dagger
Итеративный алгоритм обучения, в котором эксперт исправляет ошибки агента во время его работы в среде.
Inverse RL
Метод извлечения скрытой функции вознаграждения из наблюдаемых действий эксперта.
📊 Цифры
🗓 Хронология
  1. 1982 Ранние эксперименты по обучению полету в симуляторе.
  2. Конец 80-х Появление проекта ALVINN (автономное вождение на нейросетях).
  3. 2008 Публикация алгоритма Dagger.
⚖️ Другая сторона
Искусственный интеллект PPO Reinforcement Learning Dagger Imitation Learning Generalized Advantage Estimation