От PPO до Dagger: современные методы обучения агентов

Теория и практика поиска стратегий в обучении с подкреплением 0:05

Лекция посвящена продвинутым методам поиска стратегий в обучении с подкреплением (Reinforcement Learning, RL), включая глубокое изучение proximal policy optimization (PPO) и концепцию имитационного обучения. Ведущий от Stanford Online разбирает теоретические основы оптимизации стратегий, механизмы оценки преимуществ (Advantage Estimation) и способы эффективного переноса знаний от экспертов к обучаемым агентам.

🛠 Оптимизация стратегий и PPO 4:24

Основная проблема классического метода REINFORCE заключается в низкой эффективности использования выборки (sample efficiency) и чувствительности к изменениям в пространстве параметров. В PPO для достижения монотонного улучшения используется два ключевых подхода:

Адаптивное KL-штрафование: ограничивает изменение новой стратегии относительно старой, чтобы избежать катастрофического падения производительности.
Клиппирование (Clipped Objective): математически аналогичный метод, препятствующий слишком резким обновлениям стратегии.

Важной частью PPO является обобщенная оценка преимуществ (Generalized Advantage Estimation, GAE). Она позволяет сбалансировать дисперсию и смещение (bias-variance tradeoff) при оценке преимущества действия, используя взвешенную комбинацию $n$-шаговых оценщиков. Ведущий отмечает, что использование телескопических сумм позволяет эффективно пересчитывать значения, не храня в памяти множество копий различных оценщиков.

📉 Монотонное улучшение и границы производительности 28:44

Теоретическим обоснованием успеха PPO служит доказательство возможности гарантированного монотонного улучшения. В основе лежит использование нижней границы (lower bound) функции производительности стратегии.

Если мы максимизируем эту нижнюю границу, мы гарантированно получаем стратегию, которая либо лучше предыдущей, либо достигает локального оптимума.
На практике прямая реализация этого теоретического результата часто приводит к слишком консервативным «малым шагам», из-за чего обучение занимает много времени.

Хотя PPO не гарантирует монотонность в чистом виде (из-за приближений), он приближается к ней, что делает его предпочтительным инструментом в чувствительных областях, таких как медицина или управление промышленным оборудованием.

🤖 Имитационное обучение: от Behavior Cloning к Dagger 44:05

Имитационное обучение (Imitation Learning) позволяет избежать необходимости явного задания функции вознаграждения, используя демонстрации экспертов.

Behavior Cloning (BC)

Самый прямой подход, сводящий RL к задаче обучения с учителем.

Метод: агент обучается предсказывать действия эксперта по состоянию среды.
Проблема: накопление ошибок (compounding errors). Небольшая ошибка на одном шаге выводит агента в область состояний, которую эксперт не демонстрировал (data distribution mismatch), что ведет к квадратичному росту ошибки в долгосрочной перспективе.

Алгоритм Dagger

Решает проблему BC через итеративное взаимодействие с экспертом:

Агент выполняет текущую стратегию в среде.
Эксперт («тренер») размечает, какое действие было бы правильным в каждой точке траектории, где агент совершил ошибку.
Данные агрегируются, и модель переобучается.
Минус: метод требует «человека в цикле» (human-in-the-loop), что крайне дорого и ресурсозатратно.

💎 Обратное обучение с подкреплением (Inverse RL)

В случаях, когда эксперт демонстрирует оптимальное поведение, но функция вознаграждения неизвестна, применяется Inverse Reinforcement Learning (IRL).

Проблема идентификации: существует бесконечное множество функций вознаграждения, при которых одна и та же стратегия является оптимальной. Например, нулевая функция или функция, умноженная на положительную константу.
Feature Matching: ведущий подчеркивает, что для восстановления функции достаточно найти стратегию, которая воспроизводит те же частоты признаков (feature counts), что и эксперт. В условиях, когда веса функций вознаграждения ограничены, это гарантирует близость к производительности экспертной стратегии.