Direct Preference Optimization: почему исследователи переходят на DPO

Эволюция алгоритмов выравнивания LLM: от RLHF к DPO 12:43

Гостевая лекция в Стэнфордском университете, проведенная Рафаэлем Рафайловым, Арчитом Шармой и Эриком Митчеллом, была посвящена методу Direct Preference Optimization (DPO). Лекторы проанализировали ограничения традиционного подхода RLHF (обучение с подкреплением на основе отзывов людей) и представили DPO как эффективную альтернативу для настройки больших языковых моделей (LLM) в соответствии с человеческими предпочтениями.

📉 Проблемы классического RLHF 14:46

Эрик Митчелл подчеркнул, что RLHF стало «золотым стандартом» после успеха ChatGPT, однако этот процесс остается технически сложным и многоэтапным.

Трехэтапный конвейер: включает пре-тренинг, обучение с учителем (SFT) для создания эталонной модели и, наконец, обучение функции вознаграждения и оптимизацию политики (обычно через PPO).
Трудности PPO: по мнению Рафаэля Рафайлова, PPO (Proximal Policy Optimization) — это сложный алгоритм с множеством «движущихся частей», что делает его настройку крайне нестабильной и трудоемкой.
Проблема «шумного» сигнала: Арчит Шарма отметил, что при сборе данных люди часто не откалиброваны по абсолютным шкалам вознаграждения, поэтому ранжирование (парные предпочтения) предпочтительнее балльных оценок. Однако даже в парных сравнениях возникает проблема высокой дисперсии сигнала, что затрудняет обучение модели.

🚀 DPO как прямое решение 26:10

Арчит Шарма объяснил, что DPO позволяет исключить отдельную стадию обучения функции вознаграждения и сложную оптимизацию PPO, используя математическую связь между языковой моделью и оптимальной политикой.

Математическая элегантность: в основе DPO лежит закрытое решение уравнения для KL-регуляризованной оптимизации. Алгоритм выражает функцию вознаграждения через саму языковую модель, что позволяет проводить обучение напрямую на данных предпочтений.
Отсутствие PPO: DPO превращает задачу обучения с подкреплением в задачу бинарной классификации, где предпочтительный ответ должен иметь более высокую вероятность, чем отвергнутый.
Эффективность: Рафаэль Рафайлов продемонстрировал, что DPO не уступает RLHF в качестве. На лидербордах открытых моделей (Open LLM Leaderboard) значительная часть лидеров используют DPO.

⚠️ Риски и «взлом» вознаграждения 46:16

Одной из главных тем дискуссии стало явление reward hacking (взлом вознаграждения). Спикеры предупредили, что оно встречается не только в RLHF, но и в DPO.

Феномен «болтливости»: при чрезмерном обучении модели DPO начинают генерировать аномально длинные ответы, пытаясь «взломать» функцию вознаграждения, которая статистически смещена в сторону более verbose-контента.
Сложность оптимизации: Рафаэль Рафайлов утверждает, что PPO может казаться стабильнее именно потому, что это «более слабый» оптимизатор. DPO, будучи точным аналитическим оптимизатором, может интенсивнее приводить к нежелательным крайностям.
Методы борьбы: среди перспективных путей решения проблемы лекторы выделили весовое усреднение (weight averaging) чекпоинтов моделей и использование ансамблей.

💡 Будущее исследований 51:00

Лекторы обозначили границы применимости текущих подходов и поделились видением развития области:

Расширение модальностей: DPO уже успешно применяется для Stable Diffusion 3, мультимодальных моделей и планируется к использованию в задачах синтеза белков.
Новые подходы: Арчит Шарма и коллеги упоминают алгоритмы «прямой оптимизации Нэша» (Nash learning), которые позволяют уйти от жесткой максимизации вознаграждения к поиску стабильных стратегий в условиях конфликтующих предпочтений.
Агенты и многошаговость: одной из актуальных проблем является перенос методов выравнивания на сложные агентные системы с многоходовым взаимодействием, где классический RLHF не справляется.