Натан Ламберт: «RLHF — это необходимый инструмент выравнивания ИИ»

Эволюция выравнивания открытых языковых моделей: от идей до индустриального стандарта 0:05

Лекция Натана Ламберта, научного сотрудника Алленовского института искусственного интеллекта (AI2) и автора ресурса interconnects.ai, посвящена стремительному развитию технологий тонкой настройки и выравнивания (alignment) открытых языковых моделей. В центре обсуждения — переход от теоретических концепций к практическим методам, которые сделали современные модели способными вести полноценный диалог и следовать сложным инструкциям. Ламберт анализирует, как инструменты вроде RLHF и DPO изменили ландшафт ИИ, превратив «дикие» базовые модели в управляемые системы, и почему процесс «демократизации» ИИ — это не просто технический прогресс, а результат цепочки случайных открытий, полулегальных наборов данных и активного сообщества разработчиков.

🏗 Фундамент: от авторегрессии к Instruct-моделям 1:25

Современные языковые модели базируются на авторегрессионной функции потерь, где задача предсказания следующего токена определяет поведение системы. Хотя концепция предсказания последовательностей существует со времен Клода Шеннона, появление архитектуры Transformer в 2017 году и последующих моделей (ELMo, BERT, GPT-1) радикально изменило правила игры.

Ключевые этапы раннего развития:

GPT-2: ознаменовала эру законов масштабирования, показав, что увеличение вычислительных мощностей ведет к линейному снижению тестовых потерь, и инициировала дискуссии о рисках публичного выпуска моделей.
GPT-3: открыла возможности few-shot обучения, но одновременно высветила серьезные этические риски.
Stochastic Parrots (2021): работа, подвергшая сомнению разумность моделей и подчеркнувшая опасность их бесконтрольного роста.

По словам Ламберта, ChatGPT стал катализатором, показавшим, что RLHF (обучение с подкреплением на основе отзывов людей) является необходимым, хотя и недостаточным компонентом для создания современных диалоговых систем уровня Gemini или Claude. В то время как NLP-сообщество долгое время считало RL нестабильной и дорогой областью, успехи Anthropic и OpenAI доказали его колоссальную эффективность в контексте тонкой настройки.

💡 Эпоха «дикого» fine-tuning и self-instruct 11:18

После выхода ChatGPT возникла волна энтузиазма, приведшая к попыткам «воспроизвести» успех продукта в открытом доступе, что на практике оказалось почти невозможным из-за разницы между модельными весами и полноценным закрытым продуктом.

Прорыв произошел с появлением первых instruction-tuned моделей:

Alpaca: стала знаковой моделью, так как доказала возможность использования «самоинструкций» (self-instruct) — генерации данных для обучения одной моделью с помощью другой, более мощной модели (в данном случае от OpenAI). Это позволило обойти «бутылочное горлышко» ручной разметки данных людьми.
Vicuna: внедрила использование данных из ShareGPT, что значительно повысило качество ответов благодаря разнообразию реальных пользовательских запросов. Ламберт отмечает, что здесь возникла правовая «серая зона», так как данные собирались без явного согласия пользователей, однако именно они ускорили прогресс в индустрии.
Dolly: стала важным проектом, который сделал ставку на данные, написанные реальными людьми, а не синтезированные ИИ.

⚙️ Технологическая революция: QLoRA и новые горизонты 24:51

Технология QLoRA (Low Rank Adaptation) стала переломным моментом, так как позволила дообучать большие модели (7B, 13B и даже больше) на потребительском оборудовании, требующем значительно меньше видеопамяти.

Основные тезисы о методах настройки:

LoRA позволяет замораживать большую часть весов базовой модели, обучая только специфические дополнительные слои.
QLoRA добавляет квантование и специализированные GPU-оптимизации, что делает возможным fine-tuning моделей на одной видеокарте с 24–32 ГБ памяти.
Именно с QLoRA появились модели Guanaco, установившие новую планку производительности в открытом сообществе.

📊 Проблема оценок: ChatBotArena и AlpacaEval 32:16

С развитием моделей возникла острая нужда в инструментах оценки, так как человеческая разметка стала слишком дорогой.

Популярные современные стандарты:

ChatBotArena: «золотой стандарт» для сравнения моделей, хотя инженерам он часто кажется медленным и недостаточно специфичным для оперативной разработки.
AlpacaEval и MT Bench: дешевые и быстрые инструменты, позволяющие автоматизировать проверку качества моделей с помощью GPT-4. Ламберт предупреждает, что эти оценки часто страдают от «длины ответа» (length bias) и не дают четкого понимания, что означает 20% или 30% прироста качества в реальных бизнес-задачах.

🧠 DPO против PPO: вечный спор оптимизаций 40:56

В области RLHF долгое время доминировал дебат между методами на основе PPO и DPO (Direct Preference Optimization). DPO упростило обучение, позволив использовать градиентный подъем напрямую на логарифмических вероятностях (log-probs) без необходимости создания сложной инфраструктуры для reward-модели.

Тем не менее, Ламберт отмечает, что в текущих экспериментах (в том числе в AI2) PPO часто показывает себя немного эффективнее, «выжимая» из данных чуть больше потенциала. Он подчеркивает: выбор метода часто зависит от имеющейся инфраструктуры, накопленного опыта команды и удачи, а не от фундаментального превосходства одной математической формулы над другой.