Натан Ламберт: «RLHF — это необходимый инструмент выравнивания ИИ»

Stanford Online 30 тыс. 1 ч 16 мин 3 мин 10.05.2024
Главное

Эволюция выравнивания открытых языковых моделей: от идей до индустриального стандарта 0:05

Лекция Натана Ламберта, научного сотрудника Алленовского института искусственного интеллекта (AI2) и автора ресурса interconnects.ai, посвящена стремительному развитию технологий тонкой настройки и выравнивания (alignment) открытых языковых моделей. В центре обсуждения — переход от теоретических концепций к практическим методам, которые сделали современные модели способными вести полноценный диалог и следовать сложным инструкциям. Ламберт анализирует, как инструменты вроде RLHF и DPO изменили ландшафт ИИ, превратив «дикие» базовые модели в управляемые системы, и почему процесс «демократизации» ИИ — это не просто технический прогресс, а результат цепочки случайных открытий, полулегальных наборов данных и активного сообщества разработчиков.

🏗 Фундамент: от авторегрессии к Instruct-моделям 1:25

Современные языковые модели базируются на авторегрессионной функции потерь, где задача предсказания следующего токена определяет поведение системы. Хотя концепция предсказания последовательностей существует со времен Клода Шеннона, появление архитектуры Transformer в 2017 году и последующих моделей (ELMo, BERT, GPT-1) радикально изменило правила игры.

Ключевые этапы раннего развития:

По словам Ламберта, ChatGPT стал катализатором, показавшим, что RLHF (обучение с подкреплением на основе отзывов людей) является необходимым, хотя и недостаточным компонентом для создания современных диалоговых систем уровня Gemini или Claude. В то время как NLP-сообщество долгое время считало RL нестабильной и дорогой областью, успехи Anthropic и OpenAI доказали его колоссальную эффективность в контексте тонкой настройки.

💡 Эпоха «дикого» fine-tuning и self-instruct 11:18

После выхода ChatGPT возникла волна энтузиазма, приведшая к попыткам «воспроизвести» успех продукта в открытом доступе, что на практике оказалось почти невозможным из-за разницы между модельными весами и полноценным закрытым продуктом.

Прорыв произошел с появлением первых instruction-tuned моделей:

⚙️ Технологическая революция: QLoRA и новые горизонты 24:51

Технология QLoRA (Low Rank Adaptation) стала переломным моментом, так как позволила дообучать большие модели (7B, 13B и даже больше) на потребительском оборудовании, требующем значительно меньше видеопамяти.

Основные тезисы о методах настройки:

📊 Проблема оценок: ChatBotArena и AlpacaEval 32:16

С развитием моделей возникла острая нужда в инструментах оценки, так как человеческая разметка стала слишком дорогой.

Популярные современные стандарты:

🧠 DPO против PPO: вечный спор оптимизаций 40:56

В области RLHF долгое время доминировал дебат между методами на основе PPO и DPO (Direct Preference Optimization). DPO упростило обучение, позволив использовать градиентный подъем напрямую на логарифмических вероятностях (log-probs) без необходимости создания сложной инфраструктуры для reward-модели.

Тем не менее, Ламберт отмечает, что в текущих экспериментах (в том числе в AI2) PPO часто показывает себя немного эффективнее, «выжимая» из данных чуть больше потенциала. Он подчеркивает: выбор метода часто зависит от имеющейся инфраструктуры, накопленного опыта команды и удачи, а не от фундаментального превосходства одной математической формулы над другой.

💬 Цитаты

«RLHF seems to be necessary but is not sufficient.»

Натан Ламберт 05:42

«Data is the biggest limitation to alignment.»

Натан Ламберт 58:02
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
RLHF
Метод дообучения модели на основе предпочтений людей, помогающий сделать ответы более полезными и безопасными.
DPO
Альтернативный метод оптимизации, позволяющий напрямую обучать модель на предпочтениях без построения сложной системы подкрепления.
QLoRA
Техника эффективного дообучения моделей, использующая квантование для экономии видеопамяти.
Autoregressive loss
Функция потерь, при которой модель учится предсказывать следующий токен в последовательности.
Instruction tuning
Процесс обучения модели отвечать на конкретные структурированные запросы (инструкции).
📊 Цифры
🗓 Хронология
  1. 2017 Выход статьи «Attention Is All You Need» и рождение архитектуры Transformer.
  2. 2020 Релиз GPT-3, продемонстрировавший мощь few-shot обучения.
  3. 2021 Публикация статьи «Stochastic Parrots».
  4. 2022 Выход ChatGPT, изменивший нарратив вокруг языковых моделей.
  5. Май 2023 Публикация статьи о методе DPO.
  6. 2024 Продолжение экспансии открытых моделей и переход к специализированным методам выравнивания.
⚖️ Другая сторона
Искусственный интеллект RLHF DPO LLM alignment OpenAI Stanford