# От PPO до Dagger: современные методы обучения агентов

Источник: https://www.youtube.com/watch?v=4ngb0IZTg8I
Канал: Stanford Online
Опубликовано: 30.10.2024

---

## Теория и практика поиска стратегий в обучении с подкреплением
[[JUMP:00:05]]

Лекция посвящена продвинутым методам поиска стратегий в обучении с подкреплением (Reinforcement Learning, RL), включая глубокое изучение proximal policy optimization (PPO) и концепцию имитационного обучения. Ведущий от Stanford Online разбирает теоретические основы оптимизации стратегий, механизмы оценки преимуществ (Advantage Estimation) и способы эффективного переноса знаний от экспертов к обучаемым агентам.

### 🛠 Оптимизация стратегий и PPO
[[JUMP:04:24]]

Основная проблема классического метода REINFORCE заключается в низкой эффективности использования выборки (sample efficiency) и чувствительности к изменениям в пространстве параметров. В PPO для достижения монотонного улучшения используется два ключевых подхода:

*   **Адаптивное KL-штрафование:** ограничивает изменение новой стратегии относительно старой, чтобы избежать катастрофического падения производительности.
*   **Клиппирование (Clipped Objective):** математически аналогичный метод, препятствующий слишком резким обновлениям стратегии.

Важной частью PPO является **обобщенная оценка преимуществ (Generalized Advantage Estimation, GAE)**. Она позволяет сбалансировать дисперсию и смещение (bias-variance tradeoff) при оценке преимущества действия, используя взвешенную комбинацию $n$-шаговых оценщиков. Ведущий отмечает, что использование телескопических сумм позволяет эффективно пересчитывать значения, не храня в памяти множество копий различных оценщиков.

### 📉 Монотонное улучшение и границы производительности
[[JUMP:28:44]]

Теоретическим обоснованием успеха PPO служит доказательство возможности гарантированного монотонного улучшения. В основе лежит использование нижней границы (lower bound) функции производительности стратегии. 

*   Если мы максимизируем эту нижнюю границу, мы гарантированно получаем стратегию, которая либо лучше предыдущей, либо достигает локального оптимума.
*   На практике прямая реализация этого теоретического результата часто приводит к слишком консервативным «малым шагам», из-за чего обучение занимает много времени.

Хотя PPO не гарантирует монотонность в чистом виде (из-за приближений), он приближается к ней, что делает его предпочтительным инструментом в чувствительных областях, таких как медицина или управление промышленным оборудованием.

### 🤖 Имитационное обучение: от Behavior Cloning к Dagger
[[JUMP:44:05]]

Имитационное обучение (Imitation Learning) позволяет избежать необходимости явного задания функции вознаграждения, используя демонстрации экспертов.

#### Behavior Cloning (BC)
Самый прямой подход, сводящий RL к задаче обучения с учителем. 

*   **Метод:** агент обучается предсказывать действия эксперта по состоянию среды.
*   **Проблема:** накопление ошибок (compounding errors). Небольшая ошибка на одном шаге выводит агента в область состояний, которую эксперт не демонстрировал (data distribution mismatch), что ведет к квадратичному росту ошибки в долгосрочной перспективе.

#### Алгоритм Dagger
Решает проблему BC через итеративное взаимодействие с экспертом:

1.  Агент выполняет текущую стратегию в среде.
2.  Эксперт («тренер») размечает, какое действие было бы правильным в каждой точке траектории, где агент совершил ошибку.
3.  Данные агрегируются, и модель переобучается.
*   **Минус:** метод требует «человека в цикле» (human-in-the-loop), что крайне дорого и ресурсозатратно.

### 💎 Обратное обучение с подкреплением (Inverse RL)
[[JUMP:103:52]]

В случаях, когда эксперт демонстрирует оптимальное поведение, но функция вознаграждения неизвестна, применяется **Inverse Reinforcement Learning (IRL)**.

*   **Проблема идентификации:** существует бесконечное множество функций вознаграждения, при которых одна и та же стратегия является оптимальной. Например, нулевая функция или функция, умноженная на положительную константу.
*   **Feature Matching:** ведущий подчеркивает, что для восстановления функции достаточно найти стратегию, которая воспроизводит те же частоты признаков (feature counts), что и эксперт. В условиях, когда веса функций вознаграждения ограничены, это гарантирует близость к производительности экспертной стратегии.