# Нейтан Ламберт о жизни после DPO: почему PPO все еще лучше, но сложнее

Источник: https://www.youtube.com/watch?v=dnF463_Ar9I
Канал: Stanford Online
Опубликовано: 04.03.2025

---

В современной индустрии искусственного интеллекта основной фокус внимания сместился с предварительного обучения (pretraining) на этап пост-обучения (post-training). О том, как устроена «жизнь после DPO» и почему открытое сообщество все еще догоняет технологических гигантов, рассказал **Нейтан Ламберт (Nathan Lambert)**, ученый из Института искусственного интеллекта Аллена (Ai2), на лекции в Стэнфордском университете в рамках курса **CS224N**.

## 🧬 Краткая история и роль RLHF в успехе ChatGPT
[[JUMP:01:54]]

Нейтан Ламберт подчеркивает, что хотя претрейнинг дает моделям фундаментальные знания, именно обучение с подкреплением на основе обратной связи от человека (RLHF) делает их полезными и безопасными [05:28]. Без этого этапа ChatGPT не стал бы тем продуктом, который покорил мир. Несмотря на то что RLHF долгое время считался «нестабильной и туманной областью» (цитата из отчета Meta по Llama 2), на практике он оказался решающим инструментом для настройки поведения моделей [06:21].

В процессе обучения выделяют несколько ключевых понятий:

*   **Instruction Fine-tuning (IFT):** обучение модели следовать конкретным инструкциям пользователя (например, «напиши код» или «составь план»).
*   **Supervised Fine-tuning (SFT):** дообучение на размеченных данных в конкретной предметной области.
*   **Alignment (Выравнивание):** глобальный процесс подстройки модели под ожидания и ценности пользователя [07:54].

По словам лектора, такие компании, как Meta, закупают колоссальные объемы данных для этих целей — около 1,5 млн сравнений для Llama 2, что значительно превышает объем публичных наборов данных, таких как Chatbot Arena [02:36].

## 🧪 От PPO к DPO: революция упрощения
[[JUMP:09:49]]

Долгое время стандартом в RLHF был алгоритм PPO (Proximal Policy Optimization). Однако он крайне сложен в реализации, требует значительных вычислительных мощностей и новой инфраструктуры [13:13]. Ситуация изменилась с появлением метода **DPO (Direct Preference Optimization)**.

Ключевые особенности DPO, выделенные Нейтаном Ламбертом:

*   **Простота математики:** DPO заменяет сложную оптимизацию вознаграждения простым логарифмическим соотношением вероятностей ответов [12:17].
*   **Эффективность:** DPO легче отлаживать, он быстрее обучается и требует меньше памяти.
*   **Доступность:** для работы с DPO не нужно строить новый стек инфраструктуры — достаточно стандартного обучения на градиентном спуске [14:31].

Лектор отмечает, что изначально сообщество относилось к DPO скептически. Популярность пришла только спустя четыре месяца (в сентябре 2023 года), когда модель Zephyr от Hugging Face показала отличные результаты, используя этот метод [20:57].

## 📊 RewardBench: как измерить «хорошесть» модели
[[JUMP:25:51]]

Одной из главных проблем пост-обучения является отсутствие инструментов для оценки «моделей вознаграждения» (Reward Models). Нейтан Ламберт представил проект **RewardBench** — бенчмарк для глубокого анализа того, как модели выбирают лучший ответ из двух предложенных [29:42].

Основные выводы исследования RewardBench:

1.  **Насыщение:** топовые позиции в рейтинге меняются молниеносно. За два месяца модель, занимавшая 5-е место, опустилась на 31-е из-за выхода новых решений [31:46].
2.  **Лидерство индустрии:** закрытые модели, такие как Cohere, показывают результаты лучше, чем GPT-4o в задачах оценки ответов [32:40].
3.  **Chat Hard:** самая сложная категория тестов — вопросы с подвохом. Например, когда модель должна отличить метафору про звезды от метафоры про луну (ассоциативно близкие, но разные понятия) [34:26].
4.  **Проблема безопасности:** многие модели склонны к «чрезмерному отказу» (refusal). Например, модель может отказаться убить системный процесс в Linux, решив, что речь идет о насилии [18:45].

## 🥊 DPO против PPO: эмпирическое сравнение
[[JUMP:39:50]]

Нейтан Ламберт и его команда провели систематическое сравнение DPO и PPO на модели Llama 2 13B. Результаты оказались неоднозначными:

*   **Преимущество PPO:** по данным Ламберта, PPO стабильно дает прирост в 1-2% по сравнению с DPO при прочих равных условиях [42:04].
*   **Трудозатраты:** PPO требует на порядок больше усилий по подбору гиперпараметров (регуляризация, функции ценности, прогрев) [44:14].
*   **Скорость:** PPO работает гораздо медленнее из-за необходимости постоянно генерировать новые ответы в процессе обучения [44:42].

По мнению Ламберта, OpenAI продолжает использовать PPO именно из-за этого небольшого, но важного преимущества в качестве («добыча большего сигнала»), тогда как академическое сообщество чаще выбирает DPO за его доступность [46:28].

## 🔮 Будущее: Online DPO и синтетические данные
[[JUMP:48:52]]

Лектор полагает, что будущее за гибридными и «онлайн» методами. «Онлайн» в данном случае означает, что модель во время обучения генерирует свежие данные, которые тут же оцениваются актуальной версией модели вознаграждения [48:26].

Ключевые направления развития:

*   **Self-rewarding модели:** подход Meta, где модель сама оценивает свои ответы и учится на них [49:57].
*   **Интеграция методов:** в Llama 3 компания Meta применила сразу всё: SFT, DPO и PPO по очереди [54:29].
*   **Синтетические данные:** из-за дефицита человеческой разметки все больше исследований уходит в область генерации данных самими нейросетями [56:19].

Нейтан Ламберт завершил лекцию мыслью о том, что хотя индустрия и закрывается, для академических исследователей все еще много работы в области масштабирования малых моделей и создания прозрачных инструментов оценки [57:36].