# Стэнфорд о PPO: «Почему это самый полезный метод в RL»

Источник: https://www.youtube.com/watch?v=8PwvNQ5WS-o
Канал: Stanford Online
Опубликовано: 30.10.2024

---

## Введение в методы поиска стратегий: от базовых подходов до PPO
[[JUMP:02:37]]

В шестой лекции курса Stanford CS234 эксперты Stanford Online разбирают современные методы поиска стратегий (policy search) в обучении с подкреплением, уделяя особое внимание алгоритму Proximal Policy Optimization (PPO). PPO является стандартом индустрии, используемым, в частности, при обучении ChatGPT, благодаря своей эффективности и стабильности. Лекторы объясняют переход от базовых градиентных методов к более продвинутым архитектурам «актер-критик» (actor-critic), позволяющим существенно повысить скорость обучения и качество получаемых политик.

## 🛡️ Стабилизация обучения: Базовые линии и смещение
[[JUMP:05:02]]

Одной из главных проблем «ванильных» методов градиента стратегии (policy gradient) является высокая дисперсия оценок, что замедляет сходимость.

*   **Введение базовой линии (Baseline):** Добавление функции $b(s_t)$, зависящей только от состояния, позволяет снизить дисперсию оценки градиента без внесения смещения (bias).
*   **Теоретическое обоснование:** Лекторы доказали, что в математическом ожидании вычитание базовой линии равно нулю, что делает градиент несмещенным.
*   **Выбор базовой линии:** Оптимальным выбором является среднее ожидаемое вознаграждение, близкое к значению функции ценности (value function) самой политики.

## 🎭 Архитектуры Актер-Критик
[[JUMP:16:28]]

Для дальнейшего снижения дисперсии вводится концепция «актер-критик» (actor-critic), где обучение разделено на две части:

*   **Актер (Actor):** Сама политика (параметризуется весами $\theta$), отвечающая за выбор действий.
*   **Критик (Critic):** Оценка функции ценности или функции «состояние-действие» (параметризуется весами $w$), оценивающая качество принятых решений.
*   **Преимущество:** Использование критика позволяет проводить бутстрапинг (bootstrapping), аппроксимируя значение функции вместо использования полного Монте-Карло возврата, что значительно снижает дисперсию.

## ⚖️ Торговля смещением и дисперсией в n-шаговых методах
[[JUMP:21:05]]

При выборе целей для обучения алгоритма возникает фундаментальный компромисс между смещением (bias) и дисперсией (variance):

1.  **TD-методы (Temporal Difference):** Имеют низкую дисперсию, но высокое смещение из-за раннего бутстрапинга на основе оценок.
2.  **Монте-Карло методы:** Обладают низким или нулевым смещением (так как основаны на реальных возвратах), но страдают от крайне высокой дисперсии из-за стохастичности среды.

Лекторы подчеркивают, что оптимальный подход часто заключается в выборе $n$ шагов перед бутстрапингом для поиска баланса между этими крайностями.

## 🚀 Проблемы градиентов стратегии и решение PPO
[[JUMP:31:48]]

Традиционные методы сталкиваются с двумя критическими препятствиями:

*   **Низкая эффективность выборки:** Стандартные методы требуют сбора новых данных после каждого шага обновления политики (on-policy).
*   **Чувствительность к размеру шага:** Небольшие изменения в пространстве параметров $\theta$ могут приводить к радикальным и непредсказуемым изменениям в распределении действий, что часто вызывает катастрофическое падение производительности («крах» политики).

### 📉 Clipped Objective (Клиппированный целевой объект)
[[JUMP:106:42]]

Чтобы избежать чрезмерно резких обновлений, PPO вводит механизм ограничения (clipping) отношения вероятностей действий новой и старой политики.

*   **Механизм:** Если изменение политики становится слишком большим (отношение выходит за пределы $[1-\epsilon, 1+\epsilon]$), функция потерь ограничивается.
*   **Результат:** Это делает процесс оптимизации более консервативным и стабильным, предотвращая взрывное поведение весов.
*   **Эффективность:** Графики производительности в доменах MuJoCo показывают, что PPO достигает лучших результатов быстрее, чем TRPO, при этом будучи значительно проще в реализации.