Янник Кильчер разобрал метод Reinforced Self-Training от Google DeepMind

Yannic Kilcher 34,5 тыс. 53 мин 5 мин 03.09.2023
Главное

В своем новом видео популярный ИИ-блогер и исследователь Янник Кильчер (Yannic Kilcher) подробно разбирает свежее исследование от команды Google DeepMind, посвященное новому методу оптимизации языковых моделей — Reinforced Self-Training (ReST). Этот подход обещает повышать качество генерации без привлечения дополнительных внешних данных или ручной разметки. Суть метода заключается в циклическом самообучении модели на собственных отфильтрованных результатах, что, по мнению автора, выглядит многообещающе, но таит в себе несколько скрытых нюансов и странностей.

🔄 Проблема «поедания собственных отходов» и суть ReST 0:00

Идея обучения модели на ее собственных данных не нова, однако классический подход часто сталкивается с фундаментальной проблемой. Если заставить модель генерировать текст и сразу же дообучать ее на этих же данных, система быстро стабилизируется на своем текущем уровне производительности. Янник Кильчер иронично называет этот процесс «поеданием собственных отходов»: без притока нового качества модель не способна прыгнуть выше головы.

Для обхода этого ограничения разработчики из Google DeepMind предложили алгоритм Reinforced Self-Training (ReST). Основная идея метода строится на двух ключевых допущениях:

Благодаря фильтрации плохих ответов и сохранению только высококачественных, искусственно созданный датасет получается чище и лучше исходного. Обучаясь на таком рафинированном материале, модель следующей итерации естественным образом демонстрирует более высокое качество.

📈 Двухэтапный алгоритм: Шаги Grow и Improve 11:13

Процесс работы алгоритма ReST жестко разделен на две основные фазы, образующие внешний и внутренний циклы обучения:

  1. Шаг роста (Grow Step) На этом этапе фиксируется текущая версия языковой модели ($\pi$). Берется исходный массив входных данных $X$ (например, немецкие предложения для перевода). Модель запускает инференс и генерирует множество вариантов ответов $\hat{Y}$. Полученные синтетические пары объединяются с оригинальным датасетом, создавая расширенную базу данных $D_G$. На этом шаге веса ИИ никак не меняются — происходит лишь накопление сырого материала.

  2. Шаг улучшения (Improve Step) Этот шаг представляет собой внутренний цикл, который может выполняться многократно на одном и том же сгенерированном пуле данных. Весь массив $D_G$ прогоняется через модель вознаграждения (в статье используется система MetricX). Каждому ответу присваивается балл. Далее устанавливается определенный порог качества (threshold). Все данные, не прошедшие фильтр, безжалостно удаляются. Оставшийся массив высококачественных данных используется для стандартного supervised-обучения модели.

По словам Янника Кильчера, ключевая оптимизация авторов заключается в минимизации дорогостоящих шагов Grow. Вместо того чтобы генерировать новые данные после каждого изменения весов, алгоритм раз за разом берет уже созданный массив $D_G$, но закручивает гайки фильтрации, повышая порог отсева и оставляя только самую «элитную» выборку для последующих эпох обучения.

🥊 ReST против онлайн-обучения (PPO) 15:22

В современной практике ИИ для выравнивания моделей с человеческими предпочтениями (RLHF) чаще всего применяется алгоритм PPO (Proximal Policy Optimization). Янник Кильчер подробно сопоставляет ReST и PPO, указывая на критические различия в их эффективности.

Традиционный онлайн-RL (включая PPO) устроен как постоянное взаимодействие агента со средой: модель генерирует токен, среда дает оценку, веса корректируются. В контексте LLM средой выступает модель вознаграждения. Поскольку ИИ получает лишь одну финальную цифру за всю цепочку генерации (эпизод), для стабильного обучения требуются миллионы примеров. При этом запускать инференс приходится в реальном времени прямо по ходу обучения, что делает PPO чрезвычайно медленным и вычислительно затратным процессом.

ReST принципиально переносит генерацию в офлайн:

🧐 Математическое обоснование и скрытые ловушки регуляризации 34:27

Анализируя математическое описание функции потерь (loss function), представленное в статье, Янник Кильчер раскладывает градиент обучения ReST на две составляющие. Поскольку датасет состоит из смеси реальных человеческих данных и отфильтрованных синтетических генераций, формула учитывает оба источника.

Левая часть уравнения отвечает за обучение на оригинальных данных, выступая мощным регуляризатором. Она удерживает модель в рамках изначального распределения языка и предотвращает так называемый коллапс модели (mode collapse). Правая часть оценивает собственную генерацию ИИ, подтягивая вероятность «хороших» (одобренных фильтром) ответов вверх.

Однако Янник Кильчер высказывает серьезное скептическое замечание относительно долгосрочной стабильности этого процесса. Авторы утверждают, что постоянное присутствие оригинального датасета страхует от «взлома вознаграждения» (reward hacking). Кильчер же считает, что здесь кроется ловушка:

Этот феномен Кильчер называет «двойным ударом»: модель не просто подстраивается под метрику, но и планомерно уничтожает те самые эталонные данные, которые должны были удерживать её от деградации. Именно поэтому, по мнению блогера, авторы статьи отмечают неэффективность проведения более чем двух крупных шагов Grow.

📊 Эксперименты, подозрительные аномалии и вердикт людей 46:24

В секции результатов исследования Кильчер обнаруживает крайне любопытную аномалию. В таблицах присутствует конфигурация «g=1, i=0» — это означает, что был сделан один шаг роста данных, но ноль шагов улучшения (то есть фильтрация по вознаграждению вообще не проводилась). С точки зрения логики алгоритма, модель просто обучили на смеси исходных данных и её собственных неотфильтрованных генераций.

К удивлению Кильчера, даже в этом режиме «чистого поедания отходов» модель показала прирост качества, обогнав по ряду метрик полноценный онлайн-RL (PPO) (72.0 балла против 71.6 у PPO). Янник Кильчер заявляет, что относится к этому результату с большим подозрением. Он предполагает, что подобные цифры могут быть следствием либо некачественной настройки бейзлайна PPO, либо слишком малого размера тестируемых языковых моделей, которые попросту не были до конца обучены изначально.

Что касается живых тестов с привлечением людей-экспертов, то они подтвердили превосходство ReST над базовыми моделями. Тем не менее, как подчеркивает Кильчер, человеческие оценки росли далеко не пропорционально автоматическим метрикам качества. Это в очередной раз доказывает, что идеальный балл от Reward-модели и реальное качество текста для человека — это всё ещё два принципиально разных направления.

💬 Цитаты

«Если модель хороша, она будет производить хорошие данные, но в рамках математического ожидания мы не должны видеть улучшений.»

Янник Кильчер 06:39

«Вы все еще, образно говоря, едите собственные отходы, пусть даже вы и отфильтровали их по качеству.»

Янник Кильчер 26:20
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Reinforced Self-Training (ReST)
Метод итеративного улучшения языковых моделей путем генерации offline-датасетов и их последующей фильтрации моделью вознаграждения.
PPO (Proximal Policy Optimization)
Популярный алгоритм обучения с подкреплением, используемый в задачах RLHF для тонкой настройки ИИ в реальном времени.
Reward Hacking
Феномен, при котором нейросеть находит лазейки в проверяющей математической метрике для получения высокого балла без реального улучшения качества.
Behavior Cloning
Метод обучения ИИ, при котором модель просто пытается максимально точно скопировать поведение или тексты из обучающей выборки.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Reinforced Self-Training Google DeepMind Янник Кильчер PPO Языковые модели