Нейтан Ламберт о жизни после DPO: почему PPO все еще лучше, но сложнее

В современной индустрии искусственного интеллекта основной фокус внимания сместился с предварительного обучения (pretraining) на этап пост-обучения (post-training). О том, как устроена «жизнь после DPO» и почему открытое сообщество все еще догоняет технологических гигантов, рассказал Нейтан Ламберт (Nathan Lambert), ученый из Института искусственного интеллекта Аллена (Ai2), на лекции в Стэнфордском университете в рамках курса CS224N.

🧬 Краткая история и роль RLHF в успехе ChatGPT 1:54

Нейтан Ламберт подчеркивает, что хотя претрейнинг дает моделям фундаментальные знания, именно обучение с подкреплением на основе обратной связи от человека (RLHF) делает их полезными и безопасными . Без этого этапа ChatGPT не стал бы тем продуктом, который покорил мир. Несмотря на то что RLHF долгое время считался «нестабильной и туманной областью» (цитата из отчета Meta по Llama 2), на практике он оказался решающим инструментом для настройки поведения моделей .

В процессе обучения выделяют несколько ключевых понятий:

Instruction Fine-tuning (IFT): обучение модели следовать конкретным инструкциям пользователя (например, «напиши код» или «составь план»).
Supervised Fine-tuning (SFT): дообучение на размеченных данных в конкретной предметной области.
Alignment (Выравнивание): глобальный процесс подстройки модели под ожидания и ценности пользователя .

По словам лектора, такие компании, как Meta, закупают колоссальные объемы данных для этих целей — около 1,5 млн сравнений для Llama 2, что значительно превышает объем публичных наборов данных, таких как Chatbot Arena .

🧪 От PPO к DPO: революция упрощения 9:49

Долгое время стандартом в RLHF был алгоритм PPO (Proximal Policy Optimization). Однако он крайне сложен в реализации, требует значительных вычислительных мощностей и новой инфраструктуры . Ситуация изменилась с появлением метода DPO (Direct Preference Optimization).

Ключевые особенности DPO, выделенные Нейтаном Ламбертом:

Простота математики: DPO заменяет сложную оптимизацию вознаграждения простым логарифмическим соотношением вероятностей ответов .
Эффективность: DPO легче отлаживать, он быстрее обучается и требует меньше памяти.
Доступность: для работы с DPO не нужно строить новый стек инфраструктуры — достаточно стандартного обучения на градиентном спуске .

Лектор отмечает, что изначально сообщество относилось к DPO скептически. Популярность пришла только спустя четыре месяца (в сентябре 2023 года), когда модель Zephyr от Hugging Face показала отличные результаты, используя этот метод .

📊 RewardBench: как измерить «хорошесть» модели 25:51

Одной из главных проблем пост-обучения является отсутствие инструментов для оценки «моделей вознаграждения» (Reward Models). Нейтан Ламберт представил проект RewardBench — бенчмарк для глубокого анализа того, как модели выбирают лучший ответ из двух предложенных .

Основные выводы исследования RewardBench:

Насыщение: топовые позиции в рейтинге меняются молниеносно. За два месяца модель, занимавшая 5-е место, опустилась на 31-е из-за выхода новых решений .
Лидерство индустрии: закрытые модели, такие как Cohere, показывают результаты лучше, чем GPT-4o в задачах оценки ответов .
Chat Hard: самая сложная категория тестов — вопросы с подвохом. Например, когда модель должна отличить метафору про звезды от метафоры про луну (ассоциативно близкие, но разные понятия) .
Проблема безопасности: многие модели склонны к «чрезмерному отказу» (refusal). Например, модель может отказаться убить системный процесс в Linux, решив, что речь идет о насилии .

🥊 DPO против PPO: эмпирическое сравнение 39:50

Нейтан Ламберт и его команда провели систематическое сравнение DPO и PPO на модели Llama 2 13B. Результаты оказались неоднозначными:

Преимущество PPO: по данным Ламберта, PPO стабильно дает прирост в 1-2% по сравнению с DPO при прочих равных условиях .
Трудозатраты: PPO требует на порядок больше усилий по подбору гиперпараметров (регуляризация, функции ценности, прогрев) .
Скорость: PPO работает гораздо медленнее из-за необходимости постоянно генерировать новые ответы в процессе обучения .

По мнению Ламберта, OpenAI продолжает использовать PPO именно из-за этого небольшого, но важного преимущества в качестве («добыча большего сигнала»), тогда как академическое сообщество чаще выбирает DPO за его доступность .

🔮 Будущее: Online DPO и синтетические данные 48:52

Лектор полагает, что будущее за гибридными и «онлайн» методами. «Онлайн» в данном случае означает, что модель во время обучения генерирует свежие данные, которые тут же оцениваются актуальной версией модели вознаграждения .

Ключевые направления развития:

Self-rewarding модели: подход Meta, где модель сама оценивает свои ответы и учится на них .
Интеграция методов: в Llama 3 компания Meta применила сразу всё: SFT, DPO и PPO по очереди .
Синтетические данные: из-за дефицита человеческой разметки все больше исследований уходит в область генерации данных самими нейросетями .

Нейтан Ламберт завершил лекцию мыслью о том, что хотя индустрия и закрывается, для академических исследователей все еще много работы в области масштабирования малых моделей и создания прозрачных инструментов оценки .