Преподаватель Стэнфорда о методах обучения языковых моделей: от RLHF к DPO

Stanford Online 5 тыс. 1 ч 2 мин 3 мин 08.12.2025
Главное

Оптимизация языковых моделей: от обучения к предпочтениям пользователя 🚀 0:05

В лекции 9 курса Stanford CS224R: Deep Reinforcement Learning преподаватель Стэнфордского университета подробно разбирает современные методы «дообучения» (post-training) языковых моделей, позволяющие превратить их из простых предсказателей текста в полезных интеллектуальных помощников. Основная проблема заключается в том, что базовые модели, обученные на гигантских корпусах данных интернета, лишь прогнозируют следующее слово, что не всегда соответствует целям пользователя. Для исправления этого разрыва применяются методы тонкой настройки (fine-tuning) и оптимизации на основе человеческих предпочтений, такие как RLHF и DPO.

🧠 От предсказания токенов к ассистентам 4:02

Базовое обучение (pre-training) учит модель синтаксису, фактам и даже основам логики, однако этого недостаточно для комфортного общения с пользователем.

🏆 Reinforcement Learning from Human Preferences (RLHF) 12:50

Для решения проблем fine-tuning был разработан пайплайн RLHF, который позволяет оптимизировать модель для соответствия человеческим намерениям, даже когда точного «эталонного» ответа нет.

🎯 Direct Preference Optimization (DPO) 35:47

DPO предлагает радикальное упрощение процесса, позволяя оптимизировать модель напрямую на предпочтениях без обучения отдельной модели вознаграждения.

🚧 Будущее и проблемы «отравления» данных 55:43

Преподаватель Стэнфордского университета отмечает, что инструменты вроде DPO стали стандартом в open-source сообществе (используются в Llama и Mistral), но вопросы безопасности остаются открытыми.

💬 Цитаты

«Мы учим модель синтаксису, фактам и основам логики, но этого недостаточно для общения с пользователем.»

Преподаватель 1:15

«DPO позволяет полностью исключить этап сэмплирования и оптимизировать модель напрямую как задачу бинарной классификации.»

Преподаватель 53:08
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
RLHF
Метод обучения моделей с использованием подкрепления на основе оценок и предпочтений людей.
DPO
Прямая оптимизация предпочтений, упрощающая дообучение моделей без явного обучения модели вознаграждения.
KL-дивергенция
Мера различия двух распределений вероятностей; в RLHF используется для удержания модели близко к исходной.
Reward Hacking
Ситуация, когда модель находит способ получить высокое вознаграждение, не выполняя задачу корректно.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект RLHF DPO Stanford CS224R Instruction Fine-Tuning