Эволюция алгоритмов выравнивания LLM: от RLHF к DPO 12:43
Гостевая лекция в Стэнфордском университете, проведенная Рафаэлем Рафайловым, Арчитом Шармой и Эриком Митчеллом, была посвящена методу Direct Preference Optimization (DPO). Лекторы проанализировали ограничения традиционного подхода RLHF (обучение с подкреплением на основе отзывов людей) и представили DPO как эффективную альтернативу для настройки больших языковых моделей (LLM) в соответствии с человеческими предпочтениями.
📉 Проблемы классического RLHF 14:46
Эрик Митчелл подчеркнул, что RLHF стало «золотым стандартом» после успеха ChatGPT, однако этот процесс остается технически сложным и многоэтапным.
- Трехэтапный конвейер: включает пре-тренинг, обучение с учителем (SFT) для создания эталонной модели и, наконец, обучение функции вознаграждения и оптимизацию политики (обычно через PPO).
- Трудности PPO: по мнению Рафаэля Рафайлова, PPO (Proximal Policy Optimization) — это сложный алгоритм с множеством «движущихся частей», что делает его настройку крайне нестабильной и трудоемкой.
- Проблема «шумного» сигнала: Арчит Шарма отметил, что при сборе данных люди часто не откалиброваны по абсолютным шкалам вознаграждения, поэтому ранжирование (парные предпочтения) предпочтительнее балльных оценок. Однако даже в парных сравнениях возникает проблема высокой дисперсии сигнала, что затрудняет обучение модели.
🚀 DPO как прямое решение 26:10
Арчит Шарма объяснил, что DPO позволяет исключить отдельную стадию обучения функции вознаграждения и сложную оптимизацию PPO, используя математическую связь между языковой моделью и оптимальной политикой.
- Математическая элегантность: в основе DPO лежит закрытое решение уравнения для KL-регуляризованной оптимизации. Алгоритм выражает функцию вознаграждения через саму языковую модель, что позволяет проводить обучение напрямую на данных предпочтений.
- Отсутствие PPO: DPO превращает задачу обучения с подкреплением в задачу бинарной классификации, где предпочтительный ответ должен иметь более высокую вероятность, чем отвергнутый.
- Эффективность: Рафаэль Рафайлов продемонстрировал, что DPO не уступает RLHF в качестве. На лидербордах открытых моделей (Open LLM Leaderboard) значительная часть лидеров используют DPO.
⚠️ Риски и «взлом» вознаграждения 46:16
Одной из главных тем дискуссии стало явление reward hacking (взлом вознаграждения). Спикеры предупредили, что оно встречается не только в RLHF, но и в DPO.
- Феномен «болтливости»: при чрезмерном обучении модели DPO начинают генерировать аномально длинные ответы, пытаясь «взломать» функцию вознаграждения, которая статистически смещена в сторону более verbose-контента.
- Сложность оптимизации: Рафаэль Рафайлов утверждает, что PPO может казаться стабильнее именно потому, что это «более слабый» оптимизатор. DPO, будучи точным аналитическим оптимизатором, может интенсивнее приводить к нежелательным крайностям.
- Методы борьбы: среди перспективных путей решения проблемы лекторы выделили весовое усреднение (weight averaging) чекпоинтов моделей и использование ансамблей.
💡 Будущее исследований 51:00
Лекторы обозначили границы применимости текущих подходов и поделились видением развития области:
- Расширение модальностей: DPO уже успешно применяется для Stable Diffusion 3, мультимодальных моделей и планируется к использованию в задачах синтеза белков.
- Новые подходы: Арчит Шарма и коллеги упоминают алгоритмы «прямой оптимизации Нэша» (Nash learning), которые позволяют уйти от жесткой максимизации вознаграждения к поиску стабильных стратегий в условиях конфликтующих предпочтений.
- Агенты и многошаговость: одной из актуальных проблем является перенос методов выравнивания на сложные агентные системы с многоходовым взаимодействием, где классический RLHF не справляется.