# Стэнфорд: «Ваша языковая модель — это на самом деле скрытая модель вознаграждения»

Источник: https://www.youtube.com/watch?v=PmW_TMQ3l0I
Канал: Stanford Online
Опубликовано: 14.11.2025

---

В рамках курса Стэнфордского университета CME295, посвященного архитектуре Transformer и большим языковым моделям (LLM), лекторы Афшин и Шервин представили глубокий разбор методов дообучения моделей. Основное внимание в пятой лекции уделено тому, как превратить «автозаполнитель текста» в полезного и безопасного ассистента, используя обратную связь от человека.

## 🎯 От предсказания токенов к человеческим предпочтениям
[[JUMP:00:58]]

Процесс создания современной LLM состоит из нескольких этапов. После предварительного обучения (pre-training), где модель поглощает колоссальные объемы данных из интернета и учится предсказывать следующий токен [01:24], наступает этап SFT (Supervised Fine-Tuning) — обучение на высококачественных наборах инструкций [02:35]. Однако, как отмечают лекторы, даже после этого модель может выдавать фактически верные, но нежелательные по тону или безопасности ответы.

Третий критический этап — тюнинг предпочтений (preference tuning). Его цель — выровнять (align) поведение модели с тем, что человек считает «хорошим» ответом [04:16]. По мнению Афшина, этот этап необходим по трем причинам:

*   **Сложность генерации против оценки:** Людям гораздо проще выбрать лучший из двух готовых вариантов ответа, чем написать идеальный эталонный текст с нуля [07:45].
*   **Контроль распределения:** SFT сильно зависит от баланса промптов в обучающей выборке; добавление новых примеров может сместить модель в нежелательную сторону [08:56].
*   **Отрицательный сигнал:** В отличие от SFT, которое учит модель тому, «что делать», тюнинг предпочтений вводит отрицательный сигнал, показывая, «что делать не стоит» [11:18].

## 📊 Сбор данных: искусство выбора
[[JUMP:11:49]]

Для обучения модели предпочтениям необходимо собрать данные. Существует три основных подхода к оценке ответов:

1.  **Pointwise (поточечная):** Каждому ответу присваивается балл (например, от 0 до 1). Это сложно для человека, так как трудно соблюдать единую шкалу [12:32].
2.  **Pairwise (попарная):** Сравнение двух вариантов (А лучше Б). Это самый популярный метод из-за его простоты и надежности [13:32].
3.  **Listwise (списочная):** Ранжирование списка из N вариантов. Метод сложнее попарного, но информативнее [13:04].

Процесс сбора обычно выглядит так: модель генерирует два разных ответа на один промпт (используя положительную температуру для вариативности) [14:27]. Затем эти пары оцениваются людьми или другими LLM (подход «LLM как судья») по бинарной шкале или более нюансированной сетке (от «намного лучше» до «намного хуже») [16:00].

## 🤖 Модель вознаграждения (Reward Model)
[[JUMP:26:28]]

Первым шагом в классическом цикле RLHF (Reinforcement Learning from Human Feedback) является обучение модели вознаграждения (RM). Эта модель должна научиться имитировать человеческие предпочтения: принимать на вход промпт и ответ, а выдавать скалярное число — оценку качества [26:59].

В основе RM лежит формулировка Брэдли-Терри [29:58]. Она постулирует, что вероятность того, что ответ *i* лучше ответа *j*, зависит от разности их оценок через сигмоид-функцию:
$P(i > j) = \sigma(r_i - r_j)$.

Для обучения RM используется лосс-функция, минимизирующая отрицательное логарифмическое правдоподобие того, что победившему варианту из датасета будет присвоен более высокий балл, чем проигравшему [38:12]. В качестве архитектуры RM сегодня чаще всего используют ту же декодерную LLM, заменяя финальный слой на классификационную голову, выдающую одно число [40:31]. Оценить качество такой модели можно с помощью бенчмарков, например, RewardBench [41:12].

## 🚀 Обучение с подкреплением (PPO)
[[JUMP:46:07]]

Когда модель вознаграждения готова, начинается этап собственно обучения с подкреплением. Основная цель здесь — максимизировать вознаграждение, получаемое от RM, при этом не уходя слишком далеко от исходной SFT-модели [48:41].

Лектор Афшин предупреждает о риске «взлома вознаграждения» (reward hacking). Если модель будет слишком рьяно оптимизировать оценку, она может найти лазейки в RM [51:12]. Он приводит аналогию с лекцией: «Если моя цель — информативность, но я измеряю успех громкостью аплодисментов, я могу начать просто рассказывать шутки. Аплодисменты будут громкими, но цель лекции не будет достигнута» [51:56].

Для предотвращения этого используется алгоритм PPO (Proximal Policy Optimization) [54:05]:

*   **KL-дивергенция:** В лосс-функцию добавляется штраф за отклонение распределения токенов новой модели от базовой [55:42].
*   **PPO-Clip:** Механизм, ограничивающий размер обновления параметров за одну итерацию, чтобы избежать дестабилизации обучения [1:04:05].
*   **Преимущество (Advantage):** Модель учится не просто максимизировать награду, а превосходить «ожидаемый» уровень качества для данного промпта [58:13].

Сложность PPO заключается в необходимости держать в памяти сразу четыре модели: текущую политику (которую обучаем), эталонную модель ( frozen SFT), модель вознаграждения и функцию ценности (value function) для оценки преимуществ [1:14:42].

## ⚡ Альтернатива: Best-of-N
[[JUMP:1:22:40]]

Если RL-обучение кажется слишком дорогим или нестабильным, существует метод Best-of-N (выбор лучшего из N). Идея проста: для каждого пользовательского запроса модель генерирует, например, 5-10 вариантов ответа [1:23:51]. Затем модель вознаграждения ранжирует их, и пользователю выдается только вариант с самым высоким баллом [1:25:15].

Главный минус этого подхода — огромная вычислительная стоимость на этапе инференса (выполнения запроса) и высокая задержка (latency) [1:26:00].

## 🛠 Direct Preference Optimization (DPO)
[[JUMP:1:29:46]]

Шервин представил современную альтернативу RLHF — метод DPO. Авторы статьи «Ваша языковая модель втайне является моделью вознаграждения» доказали, что можно оптимизировать политику напрямую по данным предпочтений, минуя создание отдельной модели вознаграждения и сложный цикл RL [1:34:36].

Основные преимущества DPO:

*   **Простота:** Обучение превращается в обычную задачу классификации (supervised learning) на парах «лучший/худший» [1:39:58].
*   **Экономия ресурсов:** Нужно хранить в памяти только две модели (текущую и эталонную) вместо четырех [1:40:12].
*   **Стабильность:** Нет необходимости настраивать сложные гиперпараметры обучения с подкреплением [1:41:46].

Однако, по словам Шервина, PPO всё еще может показывать лучшие результаты при очень тщательной настройке [1:46:54]. DPO же является отличным выбором для быстрого достижения хорошего качества без «нянченья» с процессом обучения [1:47:08].

## 🧸 Практический пример: Тедди и стирка
[[JUMP:1:44:25]]

В завершение лекции Шервин продемонстрировал разницу между SFT и тюнингом предпочтений на примере вопроса: «Можно ли стирать моего плюшевого мишку в машинке?» [1:44:38].

*   **SFT-модель:** «Нет, он может повредиться. Попробуйте ручную стирку». Ответ фактический, но сухой и резкий [1:44:52].
*   **Модель после тюнинга предпочтений:** «Лучше этого не делать. Вашему мишке может быть больно. Бережная ручная стирка будет безопаснее». Модель сохранила факты, но адаптировала тон под ожидания пользователя, создавая более приятный опыт общения [1:46:03].