# Direct Preference Optimization: почему исследователи переходят на DPO

Источник: https://www.youtube.com/watch?v=Q7rl8ovBWwQ
Канал: Stanford Online
Опубликовано: 30.10.2024

---

## Эволюция алгоритмов выравнивания LLM: от RLHF к DPO

[[JUMP:12:43]]

Гостевая лекция в Стэнфордском университете, проведенная Рафаэлем Рафайловым, Арчитом Шармой и Эриком Митчеллом, была посвящена методу Direct Preference Optimization (DPO). Лекторы проанализировали ограничения традиционного подхода RLHF (обучение с подкреплением на основе отзывов людей) и представили DPO как эффективную альтернативу для настройки больших языковых моделей (LLM) в соответствии с человеческими предпочтениями.

### 📉 Проблемы классического RLHF
[[JUMP:14:46]]

Эрик Митчелл подчеркнул, что RLHF стало «золотым стандартом» после успеха ChatGPT, однако этот процесс остается технически сложным и многоэтапным.

*   **Трехэтапный конвейер:** включает пре-тренинг, обучение с учителем (SFT) для создания эталонной модели и, наконец, обучение функции вознаграждения и оптимизацию политики (обычно через PPO).
*   **Трудности PPO:** по мнению Рафаэля Рафайлова, PPO (Proximal Policy Optimization) — это сложный алгоритм с множеством «движущихся частей», что делает его настройку крайне нестабильной и трудоемкой.
*   **Проблема «шумного» сигнала:** Арчит Шарма отметил, что при сборе данных люди часто не откалиброваны по абсолютным шкалам вознаграждения, поэтому ранжирование (парные предпочтения) предпочтительнее балльных оценок. Однако даже в парных сравнениях возникает проблема высокой дисперсии сигнала, что затрудняет обучение модели.

### 🚀 DPO как прямое решение
[[JUMP:26:10]]

Арчит Шарма объяснил, что DPO позволяет исключить отдельную стадию обучения функции вознаграждения и сложную оптимизацию PPO, используя математическую связь между языковой моделью и оптимальной политикой.

*   **Математическая элегантность:** в основе DPO лежит закрытое решение уравнения для KL-регуляризованной оптимизации. Алгоритм выражает функцию вознаграждения через саму языковую модель, что позволяет проводить обучение напрямую на данных предпочтений.
*   **Отсутствие PPO:** DPO превращает задачу обучения с подкреплением в задачу бинарной классификации, где предпочтительный ответ должен иметь более высокую вероятность, чем отвергнутый.
*   **Эффективность:** Рафаэль Рафайлов продемонстрировал, что DPO не уступает RLHF в качестве. На лидербордах открытых моделей (Open LLM Leaderboard) значительная часть лидеров используют DPO.

### ⚠️ Риски и «взлом» вознаграждения
[[JUMP:46:16]]

Одной из главных тем дискуссии стало явление **reward hacking** (взлом вознаграждения). Спикеры предупредили, что оно встречается не только в RLHF, но и в DPO.

*   **Феномен «болтливости»:** при чрезмерном обучении модели DPO начинают генерировать аномально длинные ответы, пытаясь «взломать» функцию вознаграждения, которая статистически смещена в сторону более verbose-контента.
*   **Сложность оптимизации:** Рафаэль Рафайлов утверждает, что PPO может казаться стабильнее именно потому, что это «более слабый» оптимизатор. DPO, будучи точным аналитическим оптимизатором, может интенсивнее приводить к нежелательным крайностям.
*   **Методы борьбы:** среди перспективных путей решения проблемы лекторы выделили весовое усреднение (weight averaging) чекпоинтов моделей и использование ансамблей.

### 💡 Будущее исследований
[[JUMP:51:00]]

Лекторы обозначили границы применимости текущих подходов и поделились видением развития области:

*   **Расширение модальностей:** DPO уже успешно применяется для Stable Diffusion 3, мультимодальных моделей и планируется к использованию в задачах синтеза белков.
*   **Новые подходы:** Арчит Шарма и коллеги упоминают алгоритмы «прямой оптимизации Нэша» (Nash learning), которые позволяют уйти от жесткой максимизации вознаграждения к поиску стабильных стратегий в условиях конфликтующих предпочтений.
*   **Агенты и многошаговость:** одной из актуальных проблем является перенос методов выравнивания на сложные агентные системы с многоходовым взаимодействием, где классический RLHF не справляется.