Стэнфорд о PPO: «Почему это самый полезный метод в RL»

Stanford Online 11,4 тыс. 1 ч 19 мин 2 мин 30.10.2024
Главное

Введение в методы поиска стратегий: от базовых подходов до PPO 2:37

В шестой лекции курса Stanford CS234 эксперты Stanford Online разбирают современные методы поиска стратегий (policy search) в обучении с подкреплением, уделяя особое внимание алгоритму Proximal Policy Optimization (PPO). PPO является стандартом индустрии, используемым, в частности, при обучении ChatGPT, благодаря своей эффективности и стабильности. Лекторы объясняют переход от базовых градиентных методов к более продвинутым архитектурам «актер-критик» (actor-critic), позволяющим существенно повысить скорость обучения и качество получаемых политик.

🛡️ Стабилизация обучения: Базовые линии и смещение 5:02

Одной из главных проблем «ванильных» методов градиента стратегии (policy gradient) является высокая дисперсия оценок, что замедляет сходимость.

🎭 Архитектуры Актер-Критик 16:28

Для дальнейшего снижения дисперсии вводится концепция «актер-критик» (actor-critic), где обучение разделено на две части:

⚖️ Торговля смещением и дисперсией в n-шаговых методах 21:05

При выборе целей для обучения алгоритма возникает фундаментальный компромисс между смещением (bias) и дисперсией (variance):

  1. TD-методы (Temporal Difference): Имеют низкую дисперсию, но высокое смещение из-за раннего бутстрапинга на основе оценок.
  2. Монте-Карло методы: Обладают низким или нулевым смещением (так как основаны на реальных возвратах), но страдают от крайне высокой дисперсии из-за стохастичности среды.

Лекторы подчеркивают, что оптимальный подход часто заключается в выборе $n$ шагов перед бутстрапингом для поиска баланса между этими крайностями.

🚀 Проблемы градиентов стратегии и решение PPO 31:48

Традиционные методы сталкиваются с двумя критическими препятствиями:

📉 Clipped Objective (Клиппированный целевой объект)

Чтобы избежать чрезмерно резких обновлений, PPO вводит механизм ограничения (clipping) отношения вероятностей действий новой и старой политики.

💬 Цитаты

«PPO — это то, что использовали в ChatGPT и огромном количестве других прикладных областей.»

Лектор Stanford Online 03:40

«В целом, методы Монте-Карло обычно совершенно несмещены, но имеют массу условий. Вы можете считать, что в них много стохастичности.»

Лектор Stanford Online 25:59
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
PPO (Proximal Policy Optimization)
Алгоритм обучения с подкреплением, который ограничивает изменения политики для обеспечения стабильности обучения.
Actor-Critic
Класс методов, использующих две нейронные сети: актер (политика) и критик (оценка функции ценности).
KL Divergence
Мера различия между двумя распределениями вероятностей.
Bootstrapping
Метод обновления оценки на основе других оценок, а не только реальных данных.
On-policy
Режим обучения, где агент учится на данных, собранных именно той политикой, которую он сейчас оптимизирует.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Reinforcement Learning PPO Actor-Critic Policy Gradient Stanford CS234