Лекция Stanford CS221: От табличных методов к Actor-Critic

Stanford Online 561 1 ч 13 мин 2 мин 09.03.2026
Главное

Современные подходы в обучении с подкреплением: от Policy Gradient к Actor-Critic 0:05

Обучение с подкреплением (Reinforcement Learning, RL) представляет собой фундаментальную парадигму искусственного интеллекта, где агент взаимодействует со средой, совершая действия и получая обратную связь в виде вознаграждений. В рамках девятой лекции курса Stanford CS221 преподаватель подробно разбирает переход от табличных методов к современным алгоритмам обучения на основе функций аппроксимации и градиентов стратегии (Policy Gradient). Лекция охватывает эволюцию от оценки марковских процессов принятия решений (MDP) до передовых методов Actor-Critic, позволяющих решать задачи с огромным пространством состояний.

🧠 Табличные методы и ограничения масштабирования 17:06

Традиционные методы обучения с подкреплением, такие как Q-learning и SARSA, полагаются на «табличный» подход, где для каждой пары состояние-действие (SA-пара) хранится значение $Q(s, a)$.

По мнению лектора, хотя в табличном случае Q-learning гарантированно сходится, при использовании аппроксимации функций теоретические гарантии сходимости к оптимальной стратегии в общем случае отсутствуют, однако методы часто находят приемлемые локальные оптимумы.

📈 Методы Policy Gradient: оптимизация стратегии напрямую 34:29

Если методы на основе ценности (value-based) сначала оценивают «качество» действий, а затем извлекают стратегию, то методы градиента стратегии (policy-based) обучают классификатор, который отображает состояния непосредственно в распределение вероятностей действий.

📉 Уменьшение дисперсии и Actor-Critic

Основная проблема алгоритмов типа Reinforce — высокая дисперсия оценок, что замедляет сходимость.

  1. Контроль дисперсии: Использование контрольных переменных (control variates) позволяет уменьшить шум в оценках градиента, не внося смещения (bias).
  2. Базовые линии (Baselines): Введение функции $B(s)$, зависящей только от состояния, позволяет «вычитать» среднее ожидаемое значение, стабилизируя обновление параметров.
  3. Actor-Critic: Это гибридный подход, где «Актер» (Actor) определяет стратегию, а «Критик» (Critic) оценивает текущее состояние с помощью функции ценности (например, Q-функции). По словам лектора, эти методы сочетают достоинства Policy Gradient (прямая оптимизация стратегии) и методов, основанных на ценности (bootstrapping для снижения дисперсии).
💬 Цитаты

«Reinforcement learning is more of a setting than necessarily a particular algorithm.»

Лектор Stanford CS221 00:43

«We don't need the MDP, we don't need the Q values, we can just directly estimate the policy.»

Лектор Stanford CS221 35:09
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Bootstrapping
Метод оценки, при котором текущая оценка значения обновляется на основе других текущих оценок (например, будущих состояний), а не на основе реального завершенного результата.
Rollout
Последовательность действий, состояний и вознаграждений, сгенерированная агентом при взаимодействии со средой в рамках одной попытки (эпизода).
Policy Gradient
Класс алгоритмов RL, которые напрямую оптимизируют параметры стратегии (политики) агента с помощью градиентного спуска.
Actor-Critic
Архитектура RL, объединяющая подход на основе стратегии (Actor) и подход на основе ценности (Critic) для повышения эффективности обучения.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Reinforcement Learning Policy Gradient Q-learning Actor-Critic Stanford CS221