Нейтан Ламберт о жизни после DPO: почему PPO все еще лучше, но сложнее

Stanford Online 13,1 тыс. 1 ч 8 мин 4 мин 04.03.2025
Главное

В современной индустрии искусственного интеллекта основной фокус внимания сместился с предварительного обучения (pretraining) на этап пост-обучения (post-training). О том, как устроена «жизнь после DPO» и почему открытое сообщество все еще догоняет технологических гигантов, рассказал Нейтан Ламберт (Nathan Lambert), ученый из Института искусственного интеллекта Аллена (Ai2), на лекции в Стэнфордском университете в рамках курса CS224N.

🧬 Краткая история и роль RLHF в успехе ChatGPT 1:54

Нейтан Ламберт подчеркивает, что хотя претрейнинг дает моделям фундаментальные знания, именно обучение с подкреплением на основе обратной связи от человека (RLHF) делает их полезными и безопасными . Без этого этапа ChatGPT не стал бы тем продуктом, который покорил мир. Несмотря на то что RLHF долгое время считался «нестабильной и туманной областью» (цитата из отчета Meta по Llama 2), на практике он оказался решающим инструментом для настройки поведения моделей .

В процессе обучения выделяют несколько ключевых понятий:

По словам лектора, такие компании, как Meta, закупают колоссальные объемы данных для этих целей — около 1,5 млн сравнений для Llama 2, что значительно превышает объем публичных наборов данных, таких как Chatbot Arena .

🧪 От PPO к DPO: революция упрощения 9:49

Долгое время стандартом в RLHF был алгоритм PPO (Proximal Policy Optimization). Однако он крайне сложен в реализации, требует значительных вычислительных мощностей и новой инфраструктуры . Ситуация изменилась с появлением метода DPO (Direct Preference Optimization).

Ключевые особенности DPO, выделенные Нейтаном Ламбертом:

Лектор отмечает, что изначально сообщество относилось к DPO скептически. Популярность пришла только спустя четыре месяца (в сентябре 2023 года), когда модель Zephyr от Hugging Face показала отличные результаты, используя этот метод .

📊 RewardBench: как измерить «хорошесть» модели 25:51

Одной из главных проблем пост-обучения является отсутствие инструментов для оценки «моделей вознаграждения» (Reward Models). Нейтан Ламберт представил проект RewardBench — бенчмарк для глубокого анализа того, как модели выбирают лучший ответ из двух предложенных .

Основные выводы исследования RewardBench:

  1. Насыщение: топовые позиции в рейтинге меняются молниеносно. За два месяца модель, занимавшая 5-е место, опустилась на 31-е из-за выхода новых решений .
  2. Лидерство индустрии: закрытые модели, такие как Cohere, показывают результаты лучше, чем GPT-4o в задачах оценки ответов .
  3. Chat Hard: самая сложная категория тестов — вопросы с подвохом. Например, когда модель должна отличить метафору про звезды от метафоры про луну (ассоциативно близкие, но разные понятия) .
  4. Проблема безопасности: многие модели склонны к «чрезмерному отказу» (refusal). Например, модель может отказаться убить системный процесс в Linux, решив, что речь идет о насилии .

🥊 DPO против PPO: эмпирическое сравнение 39:50

Нейтан Ламберт и его команда провели систематическое сравнение DPO и PPO на модели Llama 2 13B. Результаты оказались неоднозначными:

По мнению Ламберта, OpenAI продолжает использовать PPO именно из-за этого небольшого, но важного преимущества в качестве («добыча большего сигнала»), тогда как академическое сообщество чаще выбирает DPO за его доступность .

🔮 Будущее: Online DPO и синтетические данные 48:52

Лектор полагает, что будущее за гибридными и «онлайн» методами. «Онлайн» в данном случае означает, что модель во время обучения генерирует свежие данные, которые тут же оцениваются актуальной версией модели вознаграждения .

Ключевые направления развития:

Нейтан Ламберт завершил лекцию мыслью о том, что хотя индустрия и закрывается, для академических исследователей все еще много работы в области масштабирования малых моделей и создания прозрачных инструментов оценки .

💬 Цитаты

«DPO — это история прошлого года. Теперь все хотят знать, что будет дальше.»

Нейтан Ламберт (Nathan Lambert) 02:08

«RLHF — это инструмент, чтобы сделать модель зеркалом того, что хочет пользователь.»

Нейтан Ламберт (Nathan Lambert) 07:54
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
DPO (Direct Preference Optimization)
Алгоритм прямой оптимизации предпочтений без необходимости обучения отдельной функции вознаграждения.
PPO (Proximal Policy Optimization)
Классический алгоритм RL, используемый для тонкой настройки языковых моделей на основе человеческих оценок.
Reward Model
Нейросеть, обученная предсказывать вероятность того, что человек предпочтет один ответ другому.
📊 Цифры
🗓 Хронология
  1. Ноябрь 2022 Запуск ChatGPT от OpenAI.
  2. Апрель 2023 Волна первых открытых инструктивных моделей: Alpaca, Vicuna, Dolly.
  3. Май 2023 Публикация статьи о методе DPO (Direct Preference Optimization).
  4. Март 2024 Выпуск бенчмарка RewardBench.
⚖️ Другая сторона
Искусственный интеллект Nathan Lambert DPO PPO RLHF Stanford Online