Уэс Рот о новой революции в RL: «Эра компактных и дешевых учителей ИИ настала»

Японский стартап Sakana AI представил результаты исследования, которые могут радикально изменить подход к обучению моделей рассуждения (Reasoning Models). Вместо традиционного метода Reinforcement Learning (RL), где модель учится решать задачи методом проб и ошибок, разработчики предложили концепцию «RL-учителя», который оптимизируется не под правильный ответ, а под качество объяснения материала студенту.

🚀 Новая парадигма: от решения задач к обучению 0:00

Традиционно обучение с подкреплением (Reinforcement Learning) строится на выдаче «наград» за правильный результат . Если модель правильно решает математическую задачу или пишет рабочий код, она получает виртуальное поощрение. Уэс Рот сравнивает это с дрессировкой: системе говорят «делай больше того, что ты только что сделала» .

Компания Sakana AI, известная своими проектами «машины Дарвина» и первой научной статьей по ML, прошедшей рецензирование и полностью написанной ИИ, предложила перевернуть этот процесс. Их новый метод фокусируется на «обученном через RL учителе» (Reinforcement Learned Teacher, RLT) .

Ключевые особенности подхода:

Учитель уже знает правильный ответ на вопрос .
Его задача — не найти решение, а сформулировать наиболее эффективное объяснение процесса.
Качество работы учителя оценивается по тому, насколько успешно ученик (студент) смог восстановить верное решение, опираясь на эти объяснения .

По мнению Рота, это похоже на систему образования: если баллы студентов растут после лекций, значит, учитель хорош; если падают — учителю нужно менять подход .

🧠 Феномен маленького учителя 4:28

Одним из самых поразительных результатов исследования стала «необъяснимая эффективность» миниатюрных моделей. В традиционных схемах для генерации качественных обучающих данных (синтетических данных) требуются огромные и дорогие модели, такие как DeepSeek V3 или GPT-4 .

Однако Sakana AI доказала, что модель размером всего в 7 миллиардов параметров (7B), обученная по методике RLT, может превзойти гигантов . В экспериментах на бенчмарках AIM Math и GPQA результаты распределились следующим образом:

Базовая модель (без дообучения): 39.0 баллов .
Модель, обученная гигантом DeepSeek R1 (671B параметров): 46.6 баллов .
Модель, обученная компактным RLT-учителем (7B параметров): 49.5 баллов .

По словам Рота, это означает, что модель в 100 раз меньше может быть более эффективным наставником, чем тяжеловесные системы . Это делает продвинутое обучение ИИ доступным для обычного пользовательского оборудования .

🏗️ Процесс дистилляции и экономика обучения 6:56

Технически процесс обучения делится на два этапа:

RL-петля для учителя: Модель-учитель тренируется давать объяснения, пока не найдет стиль изложения, который лучше всего «усваивается» студентом .
Дистилляция: Полученные данные объяснений используются для «холодного старта» обучения финальной модели .

Уэс Рот подчеркивает экономическую выгоду этого метода:

Скорость: Обучение студента на 32B параметров методом RLT заняло менее суток на одном вычислительном узле .
Традиционный RL: На том же оборудовании классическое обучение с подкреплением заняло бы месяцы .
Стоимость: По оценке ведущего, это разница между затратами в $10,000 (подход Sakana) и $500,000 (традиционный подход), при этом более дешевый вариант показывает лучшие результаты .

Кроме того, RLT создает более качественные цепочки рассуждений. Объяснения становятся лаконичными, прямыми и часто содержат логические шаги, которые пропускают даже такие мощные модели, как DeepSeek R1 .

🧬 Рекурсивное самосовершенствование и «Машина Дарвина» 14:09

Исследование Sakana AI подводит индустрию к возможности создания систем, которые одновременно являются и учителем, и учеником . Генерируя объяснения для самой себя, модель может бесконечно улучшать свои когнитивные способности.

Эта идея перекликается с другим проектом Sakana — Darwin Goal Machine. Ведущий напоминает, что это самоэволюционирующий агент для написания кода :

Он пробует различные подходы к улучшению собственного кода.
Тестирует их на бенчмарке SWE-bench.
Успешные изменения формируют «чемпионские ветки» (линии преемственности), а тупиковые — «вымирают» .

По мнению Рота, мы входим в фазу «снежного кома», когда ИИ начинает брать на себя часть исследований в области машинного обучения .

🌍 Последствия для индустрии и open-source 16:36

Уэс Рот задается вопросом, как рынок отреагирует на эти новости. Напомним, выход модели DeepSeek в свое время спровоцировал падение капитализации глобального рынка на триллион долларов за день . Доступность мощных методик обучения для малых лабораторий и отдельных исследователей может серьезно пошатнуть позиции технологических гигантов вроде OpenAI или Google .

Основные выводы о текущем состоянии проекта:

Весь код и результаты исследований опубликованы в открытом доступе на GitHub .
Методика легко адаптируется и, по-видимому, не имеет явных недостатков в плане качества вывода .
Sakana AI продолжает «биться в тяжелом весе», несмотря на относительно небольшой размер команды .

В завершение Рот отмечает, что хотя новости от Sakana могут распространяться медленнее, чем анонсы от Anthropic или Google, их влияние на индустрию может оказаться фундаментальным из-за радикального снижения входного порога в создание высокоуровневых моделей рассуждения .