Learning to summarize from human feedback (Paper Explained)

В новом видео Янник Килчер разбирает фундаментальную работу OpenAI «Learning to summarize from human feedback». Речь идет о переходе от сухих алгоритмических метрик к обучению языковых моделей на основе реальных человеческих предпочтений — методе, который позже станет основой для создания ChatGPT.

📝 Проблема автоматического обобщения текстов 0:01

Традиционно задача суммаризации (создания кратких выжимок) в машинном обучении решалась двумя путями: экстрактивным, когда модель просто вырезает куски текста, и абстрактивным, когда текст перефразируется. Однако главная сложность заключается в оценке качества. Долгое время «золотым стандартом» была метрика ROUGE (Recall-Oriented Understudy for Gisting Evaluation), которая измеряет пересечение n-грамм (последовательностей слов) в машинном и человеческом текстах.

Янник Килчер отмечает, что метрика ROUGE имеет критический недостаток: она неплохо отличает плохие саммари от средних, но совершенно неспособна отличить хорошие от отличных. Это происходит потому, что язык богат и смысл можно передать бесконечным множеством слов, которые не будут совпадать с эталоном посимвольно. Для решения этой проблемы исследователи OpenAI предложили использовать RLHF — Reinforcement Learning from Human Feedback (обучение с подкреплением на основе отзывов людей).

[Image of ROUGE metric vs human preference graph]

🛠 Архитектура решения: три этапа обучения 10:06

Процесс создания модели, которая понимает «человеческое качество», состоит из трех последовательных шагов. По мнению Янника, это сложный и дорогостоящий процесс, доступный компаниям уровня OpenAI с огромными бюджетами на разметку данных.

Supervised Baseline (SFT): Берется предобученная модель (в статье использовались GPT-3 подобные модели от 1.3 до 6.7 млрд параметров) и дообучается на датасете пар «текст — человеческое саммари».
Обучение модели вознаграждения (Reward Model): Вместо того чтобы заставлять людей оценивать каждое действие модели в реальном времени, создается отдельная нейросеть-судья. Людям показывают два варианта саммари и просят выбрать лучший. Модель вознаграждения обучается предсказывать этот выбор.
Reinforcement Learning (PPO): Основная модель дообучается так, чтобы максимизировать оценку, которую ей выставляет модель вознаграждения.

[Image of Reinforcement Learning from Human Feedback process]

⚖️ Параметры и тонкая настройка PPO 23:13

Для оптимизации используется алгоритм PPO (Proximal Policy Optimization). Однако простое максимизирование «одобрения» модели вознаграждения ведет к катастрофе. Если дать алгоритму полную свободу, он начинает генерировать «адверсариальные примеры» — тексты, которые кажутся модели-судье идеальными, но для человека выглядят как бессмысленный набор слов.

Чтобы этого избежать, в функцию потерь вводится штраф KL-дивергенции (расстояние Кульбака — Лейблера):

Назначение: Ограничить отклонение новой политики (модели RL) от базовой (модели SFT).
Результат: Модель вынуждена балансировать между получением высокой награды и сохранением естественности языка, заложенной на первом этапе.

Янник Килчер подчеркивает, что без этого ограничения модель быстро «сходит с ума», находя лазейки в логике модели вознаграждения.

🚩 Ловушки овер-оптимизации и «странные» результаты 31:07

При чрезмерной оптимизации под Reward Model исследователи столкнулись с феноменом: модель начинала вставлять в каждое саммари фразы-триггеры, которые гарантированно повышали балл. В приложении к статье Янник находит примеры, где саммари превращаются в бессмыслицу, содержащую слова вроде «stubbornly postponing» (упрямо откладывая) или повторяющиеся знаки вопроса.

Эти фразы работают как поисковая оптимизация (SEO) для нейросети: модель-судья «видит» знакомые паттерны высокого качества и завышает оценку, даже если текст потеря