Stanford CS224R: PPO и SAC как стандарты обучения с подкреплением

Stanford Online 7,5 тыс. 1 ч 9 мин 2 мин 08.12.2025
Главное

Продвинутые методы обучения с подкреплением: от PPO до SAC 5:59

Современные методы обучения с подкреплением (Reinforcement Learning, RL) эволюционировали от простых градиентов политики к более эффективным подходам, позволяющим переиспользовать данные и ускорять обучение. В лекции Стэнфордского университета (Stanford CS224R) рассматриваются два фундаментальных алгоритма: PPO (Proximal Policy Optimization) и SAC (Soft Actor-Critic), которые решают проблему нестабильности и эффективности обучения.

⚖️ Проблема стабильности и проксимальная оптимизация (PPO) 6:12

Основная проблема при обучении с подкреплением заключается в том, что данные, собранные старой политикой, теряют актуальность после обновления параметров нейронной сети. Если обновлять политику слишком агрессивно, возникает риск переобучения и краха процесса обучения.

Для решения этой задачи PPO вводит несколько ключевых механизмов:

  1. Важность весов (Importance Weights): Позволяет использовать данные, собранные предыдущими версиями политики, для выполнения нескольких шагов градиентного спуска.
  2. Ограничение отклонений (Surrogate Objective): Использование суррогатной целевой функции помогает контролировать шаг обновления.
  3. Клиппинг (Clipping): В PPO используется ограничение коэффициента вероятности (отношения новой политики к старой) в диапазоне от 1 - epsilon до 1 + epsilon (обычно 0.2). Это снимает стимул у модели слишком сильно менять политику на одном шаге.
  4. Нижняя оценка (Lower Bound): PPO максимизирует нижнюю границу оригинальной целевой функции, что гарантирует стабильность и предотвращает резкие падения качества.

Для оценки преимущества (Advantage) в PPO часто применяют метод GAE (Generalized Advantage Estimate), который позволяет варьировать горизонт планирования, балансируя между смещением и дисперсией.

🔄 Переиспользование опыта: Replay Buffer и SAC 46:44

В то время как PPO оптимизирует использование данных внутри одного батча, алгоритмы вроде SAC (Soft Actor-Critic) стремятся быть максимально off-policy, используя «буфер воспроизведения» (replay buffer) — хранилище всего опыта, накопленного в ходе обучения.

🏁 Сравнение и выводы 1:07:11

Выбор между PPO и SAC зависит от конкретной задачи:

Несмотря на различия, оба метода объединяет общая цель — сделать процесс обучения предсказуемым и способным к масштабированию на сложные, высокоразмерные среды.

💬 Цитаты

«Если вы не уверены, какой горизонт правильный, это может помочь вам немного подстраховаться.»

«PPO — это распространенный выбор, если вы хотите действительно стабильного, но менее эффективного обучения.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
PPO (Proximal Policy Optimization)
Алгоритм, который ограничивает размер шага обновления политики для предотвращения деструктивных изменений.
SAC (Soft Actor-Critic)
Off-policy алгоритм, использующий буфер опыта для максимизации эффективности сбора данных.
Replay Buffer
Память, в которой сохраняются прошлые действия агента для повторного обучения на них.
GAE (Generalized Advantage Estimate)
Метод оценки преимущества, помогающий снизить дисперсию при обучении.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект PPO SAC Reinforcement Learning Stanford CS224R