В пятой лекции курса CME295 Стэнфордского университета, посвященного трансформерам и большим языковым моделям (LLM), эксперты Афшин и Шервин подробно разбирают критически важный этап создания ИИ — выравнивание (alignment) с человеческими предпочтениями. После того как модель выучила язык (pre-training) и научилась следовать инструкциям (SFT), наступает стадия тонкой настройки, которая превращает «умный автодополнитель» в безопасного и полезного ассистента, способного понимать нюансы человеческого общения.
🛠️ Три этапа жизненного цикла LLM 1:11
Процесс обучения современной языковой модели состоит из трех последовательных стадий :
- Pre-training (Предварительное обучение): модель поглощает колоссальные объемы текста и кода, обучаясь предсказывать следующий токен. На выходе получается «эрудит», знающий структуру языка, но не умеющий помогать пользователю.
- SFT (Supervised Fine-Tuning / Контролируемое дообучение): обучение на высококачественных наборах данных (промпт + идеальный ответ). Здесь модель учится поведению ассистента .
- Preference Tuning (Настройка предпочтений): финальный этап, на котором модель обучают выбирать ответы, наиболее соответствующие человеческим ценностям, тону и правилам безопасности .
По словам Афшина, третья стадия необходима, потому что в рамках SFT сложно передать негативные сигналы — модель учится тому, что генерировать, но не тому, чего генерировать не следует . Кроме того, человеку гораздо проще сравнить два готовых варианта текста, чем написать идеальный эталон с нуля .
📊 Сбор данных: от баллов к парам 11:49
Для настройки предпочтений необходимо собрать данные о том, что нравится людям. Афшин выделяет три подхода к оценке ответов модели :
- Pointwise (Поточечный): присвоение баллов (например, от 0 до 1) каждому ответу. Это сложно для людей, так как шкала субъективна.
- Listwise (Списочный): ранжирование целого списка ответов.
- Pairwise (Парный): выбор лучшего из двух вариантов ответа.
Именно парное сравнение (pairwise) стало отраслевым стандартом благодаря своей простоте . Процесс выглядит так: на один и тот же промпт модель генерирует два ответа (при положительной «температуре» генерации), а затем человек или другая LLM (в роли судьи) помечает, какой ответ лучше .
🧠 Создание модели вознаграждения (Reward Model) 28:34
Чтобы автоматизировать процесс выравнивания, ученые обучают отдельную нейросеть — модель вознаграждения (Reward Model, RM). Её задача — принимать на вход промпт и ответ, а на выходе выдавать число (score), отражающее качество ответа .
В основе RM лежит математическая формулировка Брэдли-Терри (Bradley-Terry) :
- Вероятность того, что ответ A лучше ответа B, выражается через сигмоиду разности их баллов .
- Цель обучения — максимизировать баллы для «выигрышных» ответов и минимизировать для «проигрышных» .
Афшин отмечает, что современные модели вознаграждения часто строятся на базе тех же архитектур (например, BERT или декодерные LLM), где вместо головы предсказания токенов устанавливается классификационная голова, выдающая скалярное значение .
🚀 PPO: обучение с подкреплением на практике 46:07
Классический метод настройки предпочтений — RLHF (Reinforcement Learning from Human Feedback), где ключевым алгоритмом является PPO (Proximal Policy Optimization) .
Процесс RL-оптимизации включает в себя несколько важных нюансов:
- Максимизация выгоды (Advantage): модель учится генерировать ответы, которые получают баллы выше среднего ожидаемого уровня .
- Борьба с «взломом вознаграждения» (Reward Hacking): если модель будет слишком фанатично гнаться за высоким баллом от RM, она может начать выдавать странные ответы, которые нравятся «судье», но бесполезны для человека .
- KL-дивергенция: чтобы модель не «сломалась» и не забыла всё, чему училась на стадии pre-training, в функцию потерь добавляется штраф за слишком сильное отклонение от базовой SFT-модели .
PPO — крайне ресурсоемкий алгоритм. Для его работы в памяти нужно держать одновременно четыре модели: обучаемую политику, референсную модель, модель вознаграждения и функцию ценности (Value Function) .
⚖️ Альтернатива: Best-of-N 1:23:24
Если разработчик не хочет связываться со сложным обучением RL, он может использовать метод Best-of-N. Суть проста: при каждом запросе пользователя модель генерирует $N$ вариантов ответа, модель вознаграждения их оценивает, и пользователю отдается только лучший .
Главный минус этого подхода — огромные затраты на инференс. Генерация пяти ответов вместо одного увеличивает стоимость и задержку (latency) в разы .
⚡ DPO: «Секретная» модель вознаграждения 1:30:03
Спикер Шервин представляет метод DPO (Direct Preference Optimization), который произвел революцию, избавив разработчиков от необходимости обучать отдельную модель вознаграждения .
Основные тезисы DPO:
- Ваша LLM — уже модель вознаграждения: математически доказано, что оптимальную политику можно найти напрямую через лосс-функцию, сравнивающую вероятности выигрышного и проигрышного ответов .
- Простота: вместо четырех моделей нужны только две (обучаемая и замороженная референсная) .
- Стабильность: DPO — это, по сути, обычное обучение с учителем (supervised learning), которое гораздо легче «варить», чем капризный RL .
Однако, по мнению Шервина, PPO всё еще может показывать лучшие результаты при наличии опытных инженеров и больших вычислительных мощностей, в то время как DPO — отличный выбор для быстрого и эффективного старта .
🧸 Пример с плюшевым мишкой: зачем всё это нужно? 1:44:38
В завершение лекции Шервин демонстрирует разницу между SFT и Preference Tuning на примере вопроса «Можно ли стирать моего плюшевого мишку в машинке?» .
- SFT-модель (инструкция): «Нет, он может испортиться. Стирайте вручную». Ответ точный, но сухой.
- Aligned-модель (после тюнинга): «Лучше не стоит. Ваш мишка может пострадать. Бережная ручная стирка будет безопаснее». Тон стал мягче и эмпатичнее, что больше соответствует ожиданиям человека .
Тюнинг предпочтений — это не про новые факты, а про форму, манеру общения и безопасность ИИ-систем.