Тюнинг LLM: как методы PPO и DPO превращают нейросети из автодополнителей в полезных помощников

Stanford Online 41,1 тыс. 1 ч 47 мин 4 мин 14.11.2025
Главное

В пятой лекции курса CME295 Стэнфордского университета, посвященного трансформерам и большим языковым моделям (LLM), эксперты Афшин и Шервин подробно разбирают критически важный этап создания ИИ — выравнивание (alignment) с человеческими предпочтениями. После того как модель выучила язык (pre-training) и научилась следовать инструкциям (SFT), наступает стадия тонкой настройки, которая превращает «умный автодополнитель» в безопасного и полезного ассистента, способного понимать нюансы человеческого общения.

🛠️ Три этапа жизненного цикла LLM 1:11

Процесс обучения современной языковой модели состоит из трех последовательных стадий :

  1. Pre-training (Предварительное обучение): модель поглощает колоссальные объемы текста и кода, обучаясь предсказывать следующий токен. На выходе получается «эрудит», знающий структуру языка, но не умеющий помогать пользователю.
  2. SFT (Supervised Fine-Tuning / Контролируемое дообучение): обучение на высококачественных наборах данных (промпт + идеальный ответ). Здесь модель учится поведению ассистента .
  3. Preference Tuning (Настройка предпочтений): финальный этап, на котором модель обучают выбирать ответы, наиболее соответствующие человеческим ценностям, тону и правилам безопасности .

По словам Афшина, третья стадия необходима, потому что в рамках SFT сложно передать негативные сигналы — модель учится тому, что генерировать, но не тому, чего генерировать не следует . Кроме того, человеку гораздо проще сравнить два готовых варианта текста, чем написать идеальный эталон с нуля .

📊 Сбор данных: от баллов к парам 11:49

Для настройки предпочтений необходимо собрать данные о том, что нравится людям. Афшин выделяет три подхода к оценке ответов модели :

Именно парное сравнение (pairwise) стало отраслевым стандартом благодаря своей простоте . Процесс выглядит так: на один и тот же промпт модель генерирует два ответа (при положительной «температуре» генерации), а затем человек или другая LLM (в роли судьи) помечает, какой ответ лучше .

🧠 Создание модели вознаграждения (Reward Model) 28:34

Чтобы автоматизировать процесс выравнивания, ученые обучают отдельную нейросеть — модель вознаграждения (Reward Model, RM). Её задача — принимать на вход промпт и ответ, а на выходе выдавать число (score), отражающее качество ответа .

В основе RM лежит математическая формулировка Брэдли-Терри (Bradley-Terry) :

Афшин отмечает, что современные модели вознаграждения часто строятся на базе тех же архитектур (например, BERT или декодерные LLM), где вместо головы предсказания токенов устанавливается классификационная голова, выдающая скалярное значение .

🚀 PPO: обучение с подкреплением на практике 46:07

Классический метод настройки предпочтений — RLHF (Reinforcement Learning from Human Feedback), где ключевым алгоритмом является PPO (Proximal Policy Optimization) .

Процесс RL-оптимизации включает в себя несколько важных нюансов:

  1. Максимизация выгоды (Advantage): модель учится генерировать ответы, которые получают баллы выше среднего ожидаемого уровня .
  2. Борьба с «взломом вознаграждения» (Reward Hacking): если модель будет слишком фанатично гнаться за высоким баллом от RM, она может начать выдавать странные ответы, которые нравятся «судье», но бесполезны для человека .
    • Пример от Афшина: если лектор будет оценивать успех лекции только по громкости аплодисментов, он начнет только шутить, забыв об информативности .
  3. KL-дивергенция: чтобы модель не «сломалась» и не забыла всё, чему училась на стадии pre-training, в функцию потерь добавляется штраф за слишком сильное отклонение от базовой SFT-модели .

PPO — крайне ресурсоемкий алгоритм. Для его работы в памяти нужно держать одновременно четыре модели: обучаемую политику, референсную модель, модель вознаграждения и функцию ценности (Value Function) .

⚖️ Альтернатива: Best-of-N 1:23:24

Если разработчик не хочет связываться со сложным обучением RL, он может использовать метод Best-of-N. Суть проста: при каждом запросе пользователя модель генерирует $N$ вариантов ответа, модель вознаграждения их оценивает, и пользователю отдается только лучший .

Главный минус этого подхода — огромные затраты на инференс. Генерация пяти ответов вместо одного увеличивает стоимость и задержку (latency) в разы .

⚡ DPO: «Секретная» модель вознаграждения 1:30:03

Спикер Шервин представляет метод DPO (Direct Preference Optimization), который произвел революцию, избавив разработчиков от необходимости обучать отдельную модель вознаграждения .

Основные тезисы DPO:

Однако, по мнению Шервина, PPO всё еще может показывать лучшие результаты при наличии опытных инженеров и больших вычислительных мощностей, в то время как DPO — отличный выбор для быстрого и эффективного старта .

🧸 Пример с плюшевым мишкой: зачем всё это нужно? 1:44:38

В завершение лекции Шервин демонстрирует разницу между SFT и Preference Tuning на примере вопроса «Можно ли стирать моего плюшевого мишку в машинке?» .

Тюнинг предпочтений — это не про новые факты, а про форму, манеру общения и безопасность ИИ-систем.

💬 Цитаты

«SFT учит модель тому, что генерировать, но не учит тому, чего генерировать не следует. Тюнинг предпочтений позволяет добавить негативный сигнал.»

«Ваша языковая модель — это секретная модель вознаграждения.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
RLHF
Обучение с подкреплением на основе отзывов людей.
SFT
Контролируемое дообучение модели на парах 'запрос-ответ'.
KL-дивергенция
Математическая мера того, насколько одна вероятность распределения отличается от другой; используется для удержания модели от катастрофического забывания.
Reward Hacking
Ситуация, когда нейросеть находит лазейки в системе оценки, чтобы получить высокий балл, не выполняя задачу качественно.
📊 Цифры
🗓 Хронология
  1. 2017 Публикация оригинальной статьи про алгоритм PPO.
  2. Autumn 2025 Проведение текущей лекции в Стэнфорде.
⚖️ Другая сторона
Искусственный интеллект Stanford Online RLHF DPO PPO Reward Model