Янник Кильчер разобрал метод Reinforced Self-Training от Google DeepMind

В своем новом видео популярный ИИ-блогер и исследователь Янник Кильчер (Yannic Kilcher) подробно разбирает свежее исследование от команды Google DeepMind, посвященное новому методу оптимизации языковых моделей — Reinforced Self-Training (ReST). Этот подход обещает повышать качество генерации без привлечения дополнительных внешних данных или ручной разметки. Суть метода заключается в циклическом самообучении модели на собственных отфильтрованных результатах, что, по мнению автора, выглядит многообещающе, но таит в себе несколько скрытых нюансов и странностей.

🔄 Проблема «поедания собственных отходов» и суть ReST 0:00

Идея обучения модели на ее собственных данных не нова, однако классический подход часто сталкивается с фундаментальной проблемой. Если заставить модель генерировать текст и сразу же дообучать ее на этих же данных, система быстро стабилизируется на своем текущем уровне производительности. Янник Кильчер иронично называет этот процесс «поеданием собственных отходов»: без притока нового качества модель не способна прыгнуть выше головы.

Для обхода этого ограничения разработчики из Google DeepMind предложили алгоритм Reinforced Self-Training (ReST). Основная идея метода строится на двух ключевых допущениях:

Модель способна генерировать стохастичные (разнообразные) ответы на одни и те же входящие промты.
Существует внешняя «модель вознаграждения» (Reward Model), способная объективно отделить хорошие генерации от плохих.

Благодаря фильтрации плохих ответов и сохранению только высококачественных, искусственно созданный датасет получается чище и лучше исходного. Обучаясь на таком рафинированном материале, модель следующей итерации естественным образом демонстрирует более высокое качество.

📈 Двухэтапный алгоритм: Шаги Grow и Improve 11:13

Процесс работы алгоритма ReST жестко разделен на две основные фазы, образующие внешний и внутренний циклы обучения:

Шаг роста (Grow Step) На этом этапе фиксируется текущая версия языковой модели ($\pi$). Берется исходный массив входных данных $X$ (например, немецкие предложения для перевода). Модель запускает инференс и генерирует множество вариантов ответов $\hat{Y}$. Полученные синтетические пары объединяются с оригинальным датасетом, создавая расширенную базу данных $D_G$. На этом шаге веса ИИ никак не меняются — происходит лишь накопление сырого материала.
Шаг улучшения (Improve Step) Этот шаг представляет собой внутренний цикл, который может выполняться многократно на одном и том же сгенерированном пуле данных. Весь массив $D_G$ прогоняется через модель вознаграждения (в статье используется система MetricX). Каждому ответу присваивается балл. Далее устанавливается определенный порог качества (threshold). Все данные, не прошедшие фильтр, безжалостно удаляются. Оставшийся массив высококачественных данных используется для стандартного supervised-обучения модели.

По словам Янника Кильчера, ключевая оптимизация авторов заключается в минимизации дорогостоящих шагов Grow. Вместо того чтобы генерировать новые данные после каждого изменения весов, алгоритм раз за разом берет уже созданный массив $D_G$, но закручивает гайки фильтрации, повышая порог отсева и оставляя только самую «элитную» выборку для последующих эпох обучения.

🥊 ReST против онлайн-обучения (PPO) 15:22

В современной практике ИИ для выравнивания моделей с человеческими предпочтениями (RLHF) чаще всего применяется алгоритм PPO (Proximal Policy Optimization). Янник Кильчер подробно сопоставляет ReST и PPO, указывая на критические различия в их эффективности.

Традиционный онлайн-RL (включая PPO) устроен как постоянное взаимодействие агента со средой: модель генерирует токен, среда дает оценку, веса корректируются. В контексте LLM средой выступает модель вознаграждения. Поскольку ИИ получает лишь одну финальную цифру за всю цепочку генерации (эпизод), для стабильного обучения требуются миллионы примеров. При этом запускать инференс приходится в реальном времени прямо по ходу обучения, что делает PPO чрезвычайно медленным и вычислительно затратным процессом.

ReST принципиально переносит генерацию в офлайн:

Данные создаются один раз за шаг Grow крупным пакетом.
Модель вознаграждения размечает их за один проход.
Обучение идет по стандартным формулам кросс-энтропии (Behavior Cloning / SFT), что кардинально быстрее и стабильнее классических градиентных методов RL.

🧐 Математическое обоснование и скрытые ловушки регуляризации 34:27

Анализируя математическое описание функции потерь (loss function), представленное в статье, Янник Кильчер раскладывает градиент обучения ReST на две составляющие. Поскольку датасет состоит из смеси реальных человеческих данных и отфильтрованных синтетических генераций, формула учитывает оба источника.

Левая часть уравнения отвечает за обучение на оригинальных данных, выступая мощным регуляризатором. Она удерживает модель в рамках изначального распределения языка и предотвращает так называемый коллапс модели (mode collapse). Правая часть оценивает собственную генерацию ИИ, подтягивая вероятность «хороших» (одобренных фильтром) ответов вверх.

Однако Янник Кильчер высказывает серьезное скептическое замечание относительно долгосрочной стабильности этого процесса. Авторы утверждают, что постоянное присутствие оригинального датасета страхует от «взлома вознаграждения» (reward hacking). Кильчер же считает, что здесь кроется ловушка:

По мере обучения новые генерации модели получают все более высокие баллы от Reward-модели.
Оригинальные человеческие данные остаются неизменными по своему качеству.
При неизменном или растущем пороге фильтрации алгоритм со временем начнет отсекать исходные человеческие данные, поскольку они будут казаться ему менее «идеальными», чем заточенная под фильтр синтетика.

Этот феномен Кильчер называет «двойным ударом»: модель не просто подстраивается под метрику, но и планомерно уничтожает те самые эталонные данные, которые должны были удерживать её от деградации. Именно поэтому, по мнению блогера, авторы статьи отмечают неэффективность проведения более чем двух крупных шагов Grow.

📊 Эксперименты, подозрительные аномалии и вердикт людей 46:24

В секции результатов исследования Кильчер обнаруживает крайне любопытную аномалию. В таблицах присутствует конфигурация «g=1, i=0» — это означает, что был сделан один шаг роста данных, но ноль шагов улучшения (то есть фильтрация по вознаграждению вообще не проводилась). С точки зрения логики алгоритма, модель просто обучили на смеси исходных данных и её собственных неотфильтрованных генераций.

К удивлению Кильчера, даже в этом режиме «чистого поедания отходов» модель показала прирост качества, обогнав по ряду метрик полноценный онлайн-RL (PPO) (72.0 балла против 71.6 у PPO). Янник Кильчер заявляет, что относится к этому результату с большим подозрением. Он предполагает, что подобные цифры могут быть следствием либо некачественной настройки бейзлайна PPO, либо слишком малого размера тестируемых языковых моделей, которые попросту не были до конца обучены изначально.

Что касается живых тестов с привлечением людей-экспертов, то они подтвердили превосходство ReST над базовыми моделями. Тем не менее, как подчеркивает Кильчер, человеческие оценки росли далеко не пропорционально автоматическим метрикам качества. Это в очередной раз доказывает, что идеальный балл от Reward-модели и реальное качество текста для человека — это всё ещё два принципиально разных направления.