В современной индустрии искусственного интеллекта основной фокус внимания сместился с предварительного обучения (pretraining) на этап пост-обучения (post-training). О том, как устроена «жизнь после DPO» и почему открытое сообщество все еще догоняет технологических гигантов, рассказал Нейтан Ламберт (Nathan Lambert), ученый из Института искусственного интеллекта Аллена (Ai2), на лекции в Стэнфордском университете в рамках курса CS224N.
🧬 Краткая история и роль RLHF в успехе ChatGPT 1:54
Нейтан Ламберт подчеркивает, что хотя претрейнинг дает моделям фундаментальные знания, именно обучение с подкреплением на основе обратной связи от человека (RLHF) делает их полезными и безопасными . Без этого этапа ChatGPT не стал бы тем продуктом, который покорил мир. Несмотря на то что RLHF долгое время считался «нестабильной и туманной областью» (цитата из отчета Meta по Llama 2), на практике он оказался решающим инструментом для настройки поведения моделей .
В процессе обучения выделяют несколько ключевых понятий:
- Instruction Fine-tuning (IFT): обучение модели следовать конкретным инструкциям пользователя (например, «напиши код» или «составь план»).
- Supervised Fine-tuning (SFT): дообучение на размеченных данных в конкретной предметной области.
- Alignment (Выравнивание): глобальный процесс подстройки модели под ожидания и ценности пользователя .
По словам лектора, такие компании, как Meta, закупают колоссальные объемы данных для этих целей — около 1,5 млн сравнений для Llama 2, что значительно превышает объем публичных наборов данных, таких как Chatbot Arena .
🧪 От PPO к DPO: революция упрощения 9:49
Долгое время стандартом в RLHF был алгоритм PPO (Proximal Policy Optimization). Однако он крайне сложен в реализации, требует значительных вычислительных мощностей и новой инфраструктуры . Ситуация изменилась с появлением метода DPO (Direct Preference Optimization).
Ключевые особенности DPO, выделенные Нейтаном Ламбертом:
- Простота математики: DPO заменяет сложную оптимизацию вознаграждения простым логарифмическим соотношением вероятностей ответов .
- Эффективность: DPO легче отлаживать, он быстрее обучается и требует меньше памяти.
- Доступность: для работы с DPO не нужно строить новый стек инфраструктуры — достаточно стандартного обучения на градиентном спуске .
Лектор отмечает, что изначально сообщество относилось к DPO скептически. Популярность пришла только спустя четыре месяца (в сентябре 2023 года), когда модель Zephyr от Hugging Face показала отличные результаты, используя этот метод .
📊 RewardBench: как измерить «хорошесть» модели 25:51
Одной из главных проблем пост-обучения является отсутствие инструментов для оценки «моделей вознаграждения» (Reward Models). Нейтан Ламберт представил проект RewardBench — бенчмарк для глубокого анализа того, как модели выбирают лучший ответ из двух предложенных .
Основные выводы исследования RewardBench:
- Насыщение: топовые позиции в рейтинге меняются молниеносно. За два месяца модель, занимавшая 5-е место, опустилась на 31-е из-за выхода новых решений .
- Лидерство индустрии: закрытые модели, такие как Cohere, показывают результаты лучше, чем GPT-4o в задачах оценки ответов .
- Chat Hard: самая сложная категория тестов — вопросы с подвохом. Например, когда модель должна отличить метафору про звезды от метафоры про луну (ассоциативно близкие, но разные понятия) .
- Проблема безопасности: многие модели склонны к «чрезмерному отказу» (refusal). Например, модель может отказаться убить системный процесс в Linux, решив, что речь идет о насилии .
🥊 DPO против PPO: эмпирическое сравнение 39:50
Нейтан Ламберт и его команда провели систематическое сравнение DPO и PPO на модели Llama 2 13B. Результаты оказались неоднозначными:
- Преимущество PPO: по данным Ламберта, PPO стабильно дает прирост в 1-2% по сравнению с DPO при прочих равных условиях .
- Трудозатраты: PPO требует на порядок больше усилий по подбору гиперпараметров (регуляризация, функции ценности, прогрев) .
- Скорость: PPO работает гораздо медленнее из-за необходимости постоянно генерировать новые ответы в процессе обучения .
По мнению Ламберта, OpenAI продолжает использовать PPO именно из-за этого небольшого, но важного преимущества в качестве («добыча большего сигнала»), тогда как академическое сообщество чаще выбирает DPO за его доступность .
🔮 Будущее: Online DPO и синтетические данные 48:52
Лектор полагает, что будущее за гибридными и «онлайн» методами. «Онлайн» в данном случае означает, что модель во время обучения генерирует свежие данные, которые тут же оцениваются актуальной версией модели вознаграждения .
Ключевые направления развития:
- Self-rewarding модели: подход Meta, где модель сама оценивает свои ответы и учится на них .
- Интеграция методов: в Llama 3 компания Meta применила сразу всё: SFT, DPO и PPO по очереди .
- Синтетические данные: из-за дефицита человеческой разметки все больше исследований уходит в область генерации данных самими нейросетями .
Нейтан Ламберт завершил лекцию мыслью о том, что хотя индустрия и закрывается, для академических исследователей все еще много работы в области масштабирования малых моделей и создания прозрачных инструментов оценки .