Как устроен посттренинг языковых моделей: от SFT до RLHF

В лекции Стэнфордского университета, прочитанной в рамках курса CS336, детально разбирается один из самых закрытых и критически важных этапов создания современных искусственных интеллектов — этап посттренинга (post-training). Лектор объясняет, как именно разработчики переводят огромные базовые модели из режима простого предсказания следующего слова в режим безопасных и полезных ИИ-ассистентов. В центре внимания оказываются две ключевые парадигмы выравнивания (alignment): детальное обучение с учителем (SFT) и алгоритмы обучения с подкреплением на основе обратной связи (RLHF, PPO, DPO), меняющие саму математическую суть работы нейросетей.

🔄 От сырых вероятностей к полезным продуктам: зачем нужно выравнивание 0:05

Долгое время индустрия была сфокусирована исключительно на этапе предварительного обучения (pre-training) моделей на гигантских массивах данных. Однако сама по себе предобученная модель, пусть даже уровня легендарной GPT-3, практически непригодна для конечного пользователя. Она не умеет следовать инструкциям, не понимает формата диалога и не обладает встроенными механизмами безопасности. Лектор подчеркивает, что pre-training можно представить как процесс плотной «упаковки» всевозможных знаний и латентных способностей внутрь параметров сети. Задача посттренинга — заставить модель извлекать эти способности «из коробки» по первому требованию.

Современные системы выравнивания научились обрабатывать невероятно сложные, вложенные и многоуровневые цепочки инструкций. В качестве примера приводится классический препринт Себастьяна Бубека 2023 года о «первых искрах сильного ИИ» в GPT-4, где модель была способна с первой попытки (zero-shot) сгенерировать сложный код для библиотеки matplotlib, одновременно выполняя десяток жестких текстовых ограничений.

Помимо расширения возможностей, важнейшей задачей посттренинга становится модерация контента и обеспечение безопасности. Бизнес и пользователи не готовы платить за токсичные системы или размещать рекламу в сервисах, которые могут генерировать мошеннические схемы. Успех ChatGPT во многом обусловлен именно созданием жестких защитных «барьеров» (guardrails). Чтобы выстроить их, инженерам приходится решать сложнейшие алгоритмические вопросы: от сбора демонстраций экспертов до обработки парных отзывов в духе «выходной сигнал А лучше сигнала Б».

📝 Часть 1. Обучение с учителем (SFT) и дилемма качества данных 4:30

Классический пайплайн посттренинга, унаследованный из оригинальной статьи InstructGPT от OpenAI, начинается со стадии Supervised Fine-Tuning (SFT) — обучения с учителем на демонстрациях экспертов. Лектор выделяет три принципиально разных подхода (или парадигмы) к формированию таких данных, которые сформировались в индустрии:

Фокус на бенчмарках (подход Flan от Google): Этот датасет создавался путем агрегации множества существующих академических NLP-задач (Natural Instructions v2, T0 SF, Adversarial QA). Разработчики брали готовые базы данных — например, массив писем скандальной корпорации Enron (что традиционно вызывает улыбку у студентов) — и механически превращали их в задачи вида «напиши тему для этого письма». Похожая хирургия проводилась с датасетом E2E, где таблицы ресторанов переводились в связные описания. Минус подхода — такие данные выглядят крайне неестественно для обычного чат-интерфейса.
Краудсорсинг энтузиастов (Open Assistant): Движение, родившееся на волне хайпа сразу после релиза ChatGPT. Тысячи интернет-активистов вручную писали сложные инструкции и детализированные, многостраничные эталонные ответы с цитатами и источниками. Это дало беспрецедентно высокое качество, но такой подход невероятно тяжело масштабировать.
Дистилляция и генерация с помощью ИИ (Stanford Alpaca): Подход, разработанный в Стэнфорде, где небольшая базовая выборка написанных человеком инструкций подавалась сильной модели (InstructGPT) для генерации тысяч новых диалогов. В отличие от Flan, здесь ответы изначально формулировались в свободной, развернутой текстовой форме, идеально подходящей для чат-ботов.

⏱️ Эксперимент в аудитории: почему людям тяжело писать хорошие ответы 12:00

Чтобы студенты на своем опыте прочувствовали всю сложность сбора данных, лектор провел интерактивный эксперимент, предложив аудитории через специальную Google-форму за 5 минут написать идеальный эталонный ответ на комплексный технический промпт. Результаты оказались показательны: значительная часть студентов либо прислала крайне короткие отписки, либо откровенно троллила систему (например, копируя базовое определение «мороженое — это замороженный десерт...»), либо просто втихую сгенерировала текст через ChatGPT, что выдавало обилие характерных эмодзи.

Этот эксперимент иллюстрирует фундаментальную проблему краудсорсинга: даже мотивированные эксперты в условиях жесткого времени не способны массово писать длинные, глубокие и фактологически выверенные тексты. Именно поэтому индустрия массово переходит на использование ИИ-фидбека (генерацию через GPT-4o), поскольку это обходится в разы дешевле и дает стабильно высокую детализацию.

Однако здесь кроется ловушка — так называемая предвзятость к длине (length bias). Исследования Иджонга Вонга из Вашингтонского университета (UDub) показывают, что как люди, так и ИИ-судьи в 60–70% случаев отдают предпочтение более длинным ответам и маркированным спискам, даже если они содержат избыточную информацию. При этом, по словам лектора, стилистическое удлинение ответов практически никак не влияет на реальную успеваемость моделей в жестких академических бенчмарках вроде MMLU.

⚠️ Ловушка ложных ссылок и концепция Джона Шульмана 18:23

Включение избыточно глубоких знаний и академических ссылок в SFT-датасеты может иметь опасный побочный эффект. Лектор демонстрирует это на примере из Open Assistant, где модель просят написать текст о монопсонии в экономике, и идеальный человеческий ответ содержит конкретную ссылку на книгу исследователя Джоша Бивенса.

Если обучать модель на таких примерах методом стандартного градиентного спуска, внутри сети начинают одновременно конкурировать два механизма:

Модель пытается связать концепт монопсонии с конкретной фамилией автора (обучение реальному знанию).
Модель усваивает общую стилистическую сигнатуру: «если меня спрашивают о чем-то сложном, я обязана закончить текст авторитетно выглядящей ссылкой».

Если базовая модель изначально в процессе предобучения не зафиксировала четкую связь между этим экономическим термином и книгой Бивенса, она выберет второй, более легкий для минимизации функции потерь путь — начнет выдумывать похожие по форме, но абсолютно фальшивые ссылки.

Лектор ссылается на авторитетное мнение сооснователя OpenAI Джона Шульмана, высказанное им во время лекции в Беркли: форсированное обучение с учителем (SFT) на слишком сложных текстах напрямую учит модели галлюцинировать. Модель заставляют отвечать в строгой форме на вопросы, фактологической базы для которых у неё нет. По мнению Шульмана, решить эту проблему можно только с помощью обучения с подкреплением в режиме реального времени (on-policy RL), когда модель наказывают за ложь и поощряют за честный ответ «Я не знаю».

Аналогичные сложности возникают и в выравнивании безопасности (safety tuning). Даже крошечный датасет из 500 качественных примеров способен привить модели базовые правила поведения. Однако в рамках SFT невозможно передать все языковые нюансы, из-за чего возникает проблема избыточного отказа (over-refusal): модель может заблокировать абсолютно безобидный запрос «как убить (kill) процесс в Python», просто среагировав на опасное, по её мнению, слово.

📈 Размытие границ: от SFT к «промежуточному обучению» (Mid-Training) 27:52

В академической среде SFT до сих пор воспринимается как минорный шаг: запустил градиентный спуск на небольшой выборке, обновил веса и готово. Но на уровне коммерческих фронтирных лабораторий с огромными бюджетами этот процесс превратился в масштабную инженерную задачу. Современный посттренинг стал настолько огромен, что границы между ним и предобучением окончательно размылись.

Сегодня индустрия перешла к концепции «промежуточного обучения» (mid-training). Инструктивные данные больше не подаются на обособленном финальном этапе. Вместо этого их начинают активно подмешивать прямо в тело предобучения — на стадии затухания скорости обучения (learning rate decay) в рамках популярного расписания WSD (Warm-up, Stable, Decay). Это позволяет глубоко интегрировать новые паттерны поведения без риска катастрофического забывания базовых знаний.

Ярким примером этой архитектуры лектор называет китайский проект MiniCPM. Процесс их обучения разделен на две глобальные стадии:

Стабильная фаза (Stable Stage): Чистый pre-training на терабайтах сырых данных (Common Crawl, базы кода, массивы Pile и Dolma).
Фаза затухания (Decay Stage): Смесь из остатков предобучения, статей Википедии и огромного количества SFT-пакетов — от специфического кодинга до баз вопросов-ответов UltraChat, StackExchange, Eval Instruct и OSS Instruct.

Подобная интеграция приводит к тому, что само понятие «базовая модель» (base model) в релизах современных ИТ-гигантов становится маркетинговой условностью. Почти все они уже прошли скрытый этап инструктивного mid-training.

Комментируя альтернативные попытки научить модель контролировать себя (например, архитектуры STAR и Quiet STAR от Ноа Гудмана и Эрика Зелкмана, где внедряются скрытые «токены мыслей» для внутренней самопроверки фактов), лектор отмечает их перспективность. Однако в условиях статического датасета на этапе претренинга крайне тяжело рассчитывать градиенты для таких динамических проверок, что опять же подталкивает индустрию в сторону RL-технологий.

⚖️ Часть 2. RLHF и разрыв между генерацией и валидацией 41:46

Во второй части лекции происходит важный концептуальный переход от классического генеративного моделирования (где задача нейросети — максимально точно скопировать эталонное распределение вероятностей $P^*$) к теории обучения с подкреплением (RLHF). В мире RLHF инженерам больше не нужно, чтобы модель подражала какому-то конкретному тексту. Цель иная — найти такую стратегию поведения (policy) $\pi(y|x)$, которая максимизирует скалярную функцию вознаграждения $R(y,x)$. Модель перестает быть просто имитатором интернета, она становится агентом, максимизирующим выигрыш.

Главный экономический и технический аргумент в пользу RLHF — существование фундаментального «разрыва между генерацией и валидацией» (generator-validator gap). Написать качественный экспертный текст с нуля — невероятно долго и дорого (лаборатории тратят на это миллионы долларов). Но оценить, какой из двух уже готовых текстов написан лучше, человек или внешняя система могут практически мгновенно.

Более того, валидация зачастую оказывается банально качественнее генерации. Лектор делится результатами исследования своего студента двухлетней давности: во время тестирования систем суммаризации текстов один профессиональный писатель-фрилансер (аннотатор) систематически оценивал краткие выжимки от ИИ значительно выше, чем свои собственные. В интервью он признался: «Когда вы просите меня написать текст самому, я подсознательно начинаю использовать слишком вычурный, витиеватый язык. Но когда я читаю сухой вариант от ИИ, я вижу, что он объективно воспринимается лучше».

👥 Сбор парных отзывов: инструкции, демография и влияние ИИ 46:40

Стандартный процесс RLHF строится на генерации моделью нескольких вариантов ответа (rollouts), которые затем попарно сравниваются аннотаторами. На основе этих сравнений обучается отдельная «модель вознаграждения» (reward model), аппроксимирующая человеческие предпочтения в виде скалярных величин.

В качестве примера реальной работы лектор приводит официальные гайдлайны InstructGPT от OpenAI, требующие от аннотаторов оценивать ответы по трем столпам:

Helpfulness (Полезность): Четкость формулировок, адекватное считывание контекста (например, если пользователь пишет «football», ИИ не должен по умолчанию думать об американском футболе, игнорируя международную аудиторию).
Truthfulness (Правдивость): Жесткое пресечение галлюцинаций.
Harmlessness (Безвредность): Отсутствие токсичности и неприемлемого контента (NSFW).

В утекших в прессу аналогичных инструкциях для Google Bard вскрылась серьезная проблема: на оценку одного сложного текста аннотатору давалась всего одна минута. Проведенный лектором повторный экспресс-опрос студентов показал, что в условиях дефицита времени люди физически не успевают перепроверить математические вычисления или скрытые факты в тексте. В итоге аудитория предсказуемо проголосовала за более длинный, содержательный на вид, но абсолютно галлюцинаторный ответ. Другая опасность крауда — банальная лень, когда наемные рабочие берут пары ответов, прогоняют их через ту же GPT-4 и копируют вердикт обратно в форму.

Кроме того, финальное поведение ИИ оказывается в жесткой заложниках у демографии разметчиков. Совместная работа лектора, Перси Лянга и постдоков Шивани и Эссена выявила удивительный факт: старые версии модели InstructGPT внезапно продемонстрировали аномально высокую синергию с ценностями юго-восточных азиатских религий. Изучив приложения к статье OpenAI, исследователи обнаружили, что основной пул аннотаторов физически находился в Филиппинах и Бангладеш (и лишь 17% составляли американцы).

Параллельно в работе Хоскинга, Блунама и Барло было доказано, что профессиональные авторы при оценке смотрят исключительно на фактологическую точность текста, в то время как обычные крауд-работники оценивают в первую очередь красивое форматирование.

🤖 Эра RLAIF и конституционный ИИ 56:56

Разочарование в стабильности человеческого краудсорсинга привело к расцвету эпохи RLAIF (Reinforcement Learning from AI Feedback) — обучения на основе фидбека от самого ИИ. Множество работ, включая тесты открытого датасета UltraFeedback, доказали, что оценки предпочтений от GPT-4 коррелируют с человеческими суждениями на том же уровне, что и оценки людей между собой, но стоят при этом копейки.

Этот подход лег в основу создания таких моделей, как Zephyr 7B от Hugging Face (где авторы изначально верили в превосходство людей-аннотаторов, но на поздних этапах признали, что фидбек от GPT-4 работает эффективнее), а также недавнего проекта Tulu 3 от института AI2. Первопроходцем же здесь выступила компания Anthropic со своей концепцией «Конституционного ИИ» (Constitutional AI), где выравнивание модели происходит на базе зафиксированного свода текстовых правил.

Лектор разделяет данные для такой настройки на два типа:

Off-policy данные: Сторонние готовые датасеты предпочтений, которые показывают модели общий ландшафт того, где она находиться не должна.
On-policy данные: Сгенерированные самой моделью ответы, позволяющие ей точечно рефлексировать и калибровать собственные веса.

🧮 Математика выравнивания: от сложного PPO к элегантному DPO 1:05:20

В финальной, самой технической части лекции раскрывается математический аппарат RLHF. Классическая целевая функция из статьи InstructGPT (Уравнение 2) выглядит следующим образом:

$$\max_{\pi_\theta} \mathbb{E}{(x,y) \sim \pi\theta} [R_\phi(x,y)] - \beta \, \text{KL}(\pi_\theta(y|x) \,|\, \pi_{\text{SFT}}(y|x)) + \gamma \, \mathbb{E}{x \sim D{\text{pretrain}}} [\log \pi_\theta(x)]$$

Здесь первый член отвечает за максимизацию награды от обученной модели вознаграждения $R_\phi$. Второй член — штраф за дивергенцию Кульбака-Лейблера ($\text{KL}$), который жестко удерживает новую RL-стратегию $\pi_\theta$ вблизи исходной SFT-модели $\pi_{\text{SFT}}$, чтобы сеть не пошла вразнос в погоне за баллами. Третий член ($\gamma$) опционально возвращает модель к градиентам претренинга для удержания общей эрудиции.

Сама модель вознаграждения базируется на классической вероятностной модели Брэдли-Терри. Предполагается, что у каждого текста в мире есть скрытая истинная скалярная ценность $R$, а человек при выборе между ответами $y_w$ (chosen) и $y_l$ (rejected) совершает логистический выбор на основе их разности:

$$P(y_w \succ y_l \mid x) = \sigma(R(x, y_w) - R(x, y_l))$$

Оригинальный алгоритм PPO (Proximal Policy Optimization), разработанный OpenAI, решает эту задачу «в лоб» через градиент полиси (REINFORCE). Для снижения дисперсии вместо чистой награды там используется функция преимущества (advantage), а также поправки на важность выборок (importance weighting) и жесткое отсечение (clipping) отношений вероятностей, не позволяющее модели обновлять веса слишком радикально за один шаг.

Однако лектор признает: реализация PPO — это настоящее «страдание» для инженеров из-за экстремальной нестабильности и тяжеловесности процесса (именно поэтому студентам курса решили не задавать писать его вручную). Академический мир долго искал альтернативу, пробуя банально маркировать плохие и хорошие ответы специальными токенами или учиться только на хороших ответах, но это не давало нужного качества.

Прорывом стал алгоритм DPO (Direct Preference Optimization), разработанный исследователями из Стэнфорда. Авторы DPO применили изящный математический трюк. Если рассматривать оптимизируемую стратегию $\pi_\theta$ как непараметрическую произвольную функцию, то из уравнения оптимального шага можно аналитически выразить саму неявную функцию вознаграждения $R(x,y)$ через отношение текущей и референсной SFT-моделей:

$$R(x, y) = \beta \log \frac{\pi_\theta(y|x)}{\pi_{\text{SFT}}(y|x)}$$

Подставив это выражение напрямую в формулу Брэдли-Терри, разработчики полностью избавились от необходимости обучать отдельную reward-модель и делать дорогостоящие on-policy запуски генерации в процессе RL. Сложнейшая задача обучения с подкреплением была элегантно сведена к стандартной задаче максимизации правдоподобия (maximum likelihood) на фиксированном датасете парных человеческих предпочтений. Модель просто увеличивает веса для хороших ответов и пропорционально уменьшает для плохих, сохраняя строгие математические гарантии классического RLHF.