Механика обучения моделей: лектор Стэнфорда о GRPO

Stanford Online 32,3 тыс. 1 ч 16 мин 2 мин 08.07.2025
Главное

Механика обучения с подкреплением в языковых моделях: погружение в алгоритм GRPO 0:34

В рамках 17-й лекции курса CS336 в Стэнфордском университете ведущий подробно разобрал техническую сторону алгоритмов policy gradient (градиента стратегии), уделив основное внимание методу GRPO (Group Relative Policy Optimization). Лектор подчеркнул, что reinforcement learning (RL) для языковых моделей обладает уникальными свойствами по сравнению с классической робототехникой, что делает обучение более гибким, но и создает специфические вызовы, такие как высокая дисперсия градиентов.

Основные концепции: RL в контексте языковых моделей 0:47

В задачах для языковых моделей состояние (state) определяется как промпт вместе с уже сгенерированным ответом, а действие (action) — как генерация следующего токена. Важной особенностью является использование «результативных наград» (outcome rewards), где функция вознаграждения оценивает весь ответ целиком, а не отдельные шаги.

Политика обучения и проблема «разреженных» наград 5:37

Цель обучения — максимизировать ожидаемую награду. Классический (наивный) метод градиента стратегии предлагает просто брать градиент логарифма вероятности действий, взвешенный на награду. Однако на практике это приводит к существенным проблемам:

  1. Высокая дисперсия: Градиенты могут быть крайне шумными.
  2. Разреженные награды (sparse rewards): Если модель поначалу выдает только неправильные ответы (награда 0), она не получает сигнала для обновления параметров и «застревает».
  3. Изменение датасета: Важно понимать, что данные для обучения меняются от итерации к итерации, так как обновленная политика генерирует новые, потенциально более качественные ответы.

Роль базовых линий (baselines) и GRPO 15:43

Чтобы снизить дисперсию, в RL используют базовые линии (baselines) — функции $B(S)$, которые вычитаются из награды. Это не меняет математическое ожидание градиента, но значительно уменьшает шум, ускоряя сходимость.

Алгоритм GRPO (Group Relative Policy Optimization) стал популярен в 2024 году, так как он идеально подходит для LLM: модель генерирует группу ответов для одного промпта, что позволяет естественным образом вычислять относительную ценность ответов внутри группы.

Практическая реализация: пример с сортировкой чисел 33:39

Для демонстрации лектор предложил простую задачу: сортировку $n$ чисел.

  1. Проблема частичных наград: Если давать 1 балл только за полностью верную сортировку, модель не обучится. Поэтому вводятся частичные награды за верное количество позиций или наличие токенов из промпта в ответе.
  2. Ловушки: Использование слишком щедрых «частичных наград» может привести к тому, что модель научится «хакать» систему, получая баллы за простые действия, но не решая задачу целиком.
  3. Архитектура: Лектор реализовал простую модель на Python, где каждый токен ответа декодируется почти независимо для простоты манипуляций с тензорами.

В заключение было отмечено, что при масштабировании RL-систем возникают сложности, нетипичные для пре-трейнинга: необходимость поддерживать одновременно несколько моделей (текущую, старую для стабильности обновлений и референсную для KL-регуляризации), а также организация распределенных вычислений для генерации ответов (inference).

💬 Цитаты

«Если вы можете это измерить, вы можете это оптимизировать.»

«GRPO — это упрощение PPO. Начинайте с простого и усложняйте по мере необходимости.»

👥 Спикер
📖 Термины
GRPO
Group Relative Policy Optimization: метод обучения, при котором модель сравнивает несколько вариантов ответов на один промпт для коррекции стратегии.
Policy Gradient
Класс алгоритмов в обучении с подкреплением, которые напрямую оптимизируют стратегию (policy) модели.
Baseline
Функция, вычитаемая из награды для уменьшения дисперсии и стабилизации процесса обучения.
Sparse Rewards
Ситуация, когда модель получает положительную награду крайне редко, что затрудняет обучение.
📊 Цифры
🗓 Хронология
  1. 2017 Представление алгоритма PPO.
  2. 2024 Активное внедрение и обсуждение GRPO для обучения LLM.
⚖️ Другая сторона
Искусственный интеллект GRPO RLHF policy gradient Stanford CS336