Direct Preference Optimization: почему исследователи переходят на DPO

Stanford Online 12,4 тыс. 1 ч 18 мин 2 мин 30.10.2024
Главное

Эволюция алгоритмов выравнивания LLM: от RLHF к DPO 12:43

Гостевая лекция в Стэнфордском университете, проведенная Рафаэлем Рафайловым, Арчитом Шармой и Эриком Митчеллом, была посвящена методу Direct Preference Optimization (DPO). Лекторы проанализировали ограничения традиционного подхода RLHF (обучение с подкреплением на основе отзывов людей) и представили DPO как эффективную альтернативу для настройки больших языковых моделей (LLM) в соответствии с человеческими предпочтениями.

📉 Проблемы классического RLHF 14:46

Эрик Митчелл подчеркнул, что RLHF стало «золотым стандартом» после успеха ChatGPT, однако этот процесс остается технически сложным и многоэтапным.

🚀 DPO как прямое решение 26:10

Арчит Шарма объяснил, что DPO позволяет исключить отдельную стадию обучения функции вознаграждения и сложную оптимизацию PPO, используя математическую связь между языковой моделью и оптимальной политикой.

⚠️ Риски и «взлом» вознаграждения 46:16

Одной из главных тем дискуссии стало явление reward hacking (взлом вознаграждения). Спикеры предупредили, что оно встречается не только в RLHF, но и в DPO.

💡 Будущее исследований 51:00

Лекторы обозначили границы применимости текущих подходов и поделились видением развития области:

💬 Цитаты

«Для меня это было своего рода сноской. Как мы заставили это работать лучше, мы просто сэмплировали больше ответов на каждый запрос.»

Рафаэль Рафайлов 36:43

«Reward hacking кажется довольно заметным в DPO, и, на самом деле, может быть даже более заметным, чем в PPO.»

Рафаэль Рафайлов 48:46
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
RLHF
Метод обучения моделей, использующий человеческие оценки для подкрепления желаемого поведения.
DPO
Метод прямой оптимизации предпочтений, исключающий этап обучения функции вознаграждения.
PPO
Алгоритм обучения с подкреплением, используемый в RLHF для оптимизации политики модели.
Reward hacking
Ситуация, когда модель максимизирует прокси-вознаграждение, игнорируя реальную пользу.
KL-дивергенция
Мера различия между распределениями; используется для ограничения отклонения от эталонной модели.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект DPO RLHF PPO LLM Reward hacking