Stanford Online: «Методы Actor-Critic — база для обучения LLM и роботов»

Stanford Online 10,5 тыс. 1 ч 3 мин 4 мин 08.12.2025
Главное

В рамках курса Стэнфордского университета CS224R Deep Reinforcement Learning прошла лекция, посвященная методам Actor-Critic. Эти алгоритмы лежат в основе современных систем управления гуманоидными роботами и обучения больших языковых моделей (LLM), таких как PPO. Лекция фокусируется на переходе от «шумных» градиентов стратегии к более стабильным методам, использующим функции ценности для оценки действий агента.


🔄 Рекап: Ограничения градиентов стратегии 0:05

Перед погружением в новые методы лектор напомнил основы онлайн-обучения с подкреплением (RL). Процесс итеративен: сбор данных текущей стратегией, обновление параметров и повторение цикла. В стандартном алгоритме Policy Gradient (PG) вероятность действий увеличивается, если они привели к награде выше среднего (базовой линии), и уменьшается в противном случае.

Однако у «чистых» градиентов стратегии есть критические недостатки:


📊 Математический фундамент: V, Q и Advantage 4:27

Для решения проблем дисперсии вводятся функции ценности, которые оценивают «хорошесть» состояния или конкретного действия.

Основные объекты оценки:

  1. V-функция ($V^\pi(s)$): Ожидаемая сумма наград, если агент начинает в состоянии $s$ и далее следует стратегии $\pi$.
  2. Q-функция ($Q^\pi(s, a)$): Ожидаемая сумма наград, если агент в состоянии $s$ сначала совершает конкретное действие $a$, а уже потом следует стратегии $\pi$.
  3. Функция преимущества (Advantage, $A^\pi(s, a)$): Разница между $Q$ и $V$. Она показывает, насколько действие $a$ лучше или хуже среднего действия в данном состоянии.

$$A^\pi(s, a) = Q^\pi(s, a) - V^\pi(s)$$

Аналогия с обучением игре на барабанах 12:08

Лектор привел наглядный пример: вы хотите научиться играть на барабанах за месяц. Ваши действия: сидеть на пляже ($a_1$), смотреть ТВ ($a_2$) или практиковаться ($a_3$).


🎭 Архитектура Actor-Critic 18:26

Методы Actor-Critic объединяют два подхода. Идея заключается в том, чтобы заменить сырую сумму наград из траектории на оценку функции преимущества.

Использование Критика позволяет Актеру получать более стабильный сигнал для обучения. Вместо того чтобы ждать конца эпизода, Актер может корректировать поведение на каждом шаге, основываясь на предсказаниях Критика о будущих наградах.


🧠 Policy Evaluation: Как обучить Критика 27:03

Главный вопрос: как заставить нейросеть точно предсказывать $V^\pi(s)$? Существует три основных подхода к формированию меток для обучения (таргетов):

1. Метод Монте-Карло (Monte Carlo) 41:05

Критик обучается предсказывать реальную сумму наград, полученную в ходе эпизода от текущего момента до конца.

2. Бутстрапинг и TD-learning 44:21

Критик использует свои собственные предсказания для следующего шага в качестве цели обучения: $$Target = r_t + V(s_{t+1})$$ Это называется временной разницей (Temporal Difference).

3. N-step Returns (Гибрид) 53:10

Промежуточный вариант: мы суммируем реальные награды за $n$ шагов, а затем добавляем предсказанную ценность оставшегося пути. Это позволяет балансировать между точностью и стабильностью.


📉 Дисконтирование и финальный алгоритм 56:23

В задачах с бесконечным или очень длинным горизонтом сумма наград может стремиться к бесконечности. Для этого вводится коэффициент дисконтирования $\gamma$ (обычно 0.9–0.99). Лектор пояснил это через аналогию со смертью: использование $\gamma$ эквивалентно допущению, что на каждом шаге агент может с вероятностью $1 - \gamma$ попасть в «состояние смерти» с нулевой наградой.

Полный цикл Actor-Critic: 1:00:27

  1. Сбор данных: Прогнать текущую стратегию в среде и собрать батч траекторий.
  2. Оценка ценности: Обновить веса Критика $V_\phi(s)$, используя методы MC или TD.
  3. Расчет преимущества: Вычислить $\hat{A}(s, a) = r + \gamma V(s') - V(s)$.
  4. Обновление стратегии: Сделать шаг градиента для Актера, увеличивая вероятность действий с высоким $A$.
  5. Повтор: Перейти к шагу 1 с новой стратегией.

Этот подход позволяет эффективно использовать данные и обучать агентов в сложных условиях, где награды могут быть редкими или отложенными во времени.

💬 Цитаты

«Вы можете думать о Критике как о сети, которая критикует то, насколько хороши состояние и политика.»

Лектор Stanford Online 1:02:01

«По сути, дисконтирование эквивалентно утверждению, что существует вероятность того, что агент умрет в любой момент времени.»

Лектор Stanford Online 58:04
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Бутстрапинг
Метод обучения нейросети, где в качестве целевого значения (таргета) используются ее собственные текущие предсказания для будущих состояний.
On-policy
Тип алгоритмов RL, которые могут обучаться только на данных, собранных самой последней версией стратегии.
Дисперсия (Variance)
Степень разброса оценок градиента; высокая дисперсия делает обучение нестабильным и медленным.
Предвзятость (Bias)
Систематическая ошибка в оценке ценности, часто возникающая в начале обучения при использовании бутстрапинга.
📊 Цифры
🗓 Хронология
  1. Spring 2025 Проведение текущего курса лекций CS224R в Стэнфорде.
⚖️ Другая сторона
Искусственный интеллект Actor-Critic Reinforcement Learning Stanford University CS224R Policy Gradient