# Уэс Рот о новой революции в RL: «Эра компактных и дешевых учителей ИИ настала»

Источник: https://www.youtube.com/watch?v=2mezj14pCFI
Канал: Wes Roth
Опубликовано: 23.06.2025

---

Японский стартап Sakana AI представил результаты исследования, которые могут радикально изменить подход к обучению моделей рассуждения (Reasoning Models). Вместо традиционного метода Reinforcement Learning (RL), где модель учится решать задачи методом проб и ошибок, разработчики предложили концепцию «RL-учителя», который оптимизируется не под правильный ответ, а под качество объяснения материала студенту.

## 🚀 Новая парадигма: от решения задач к обучению
[[JUMP:00:00]]

Традиционно обучение с подкреплением (Reinforcement Learning) строится на выдаче «наград» за правильный результат [00:25]. Если модель правильно решает математическую задачу или пишет рабочий код, она получает виртуальное поощрение. Уэс Рот сравнивает это с дрессировкой: системе говорят «делай больше того, что ты только что сделала» [00:38].

Компания Sakana AI, известная своими проектами «машины Дарвина» и первой научной статьей по ML, прошедшей рецензирование и полностью написанной ИИ, предложила перевернуть этот процесс. Их новый метод фокусируется на «обученном через RL учителе» (Reinforcement Learned Teacher, RLT) [01:56]. 

Ключевые особенности подхода:

*   Учитель уже знает правильный ответ на вопрос [02:09]. 
*   Его задача — не найти решение, а сформулировать наиболее эффективное объяснение процесса.
*   Качество работы учителя оценивается по тому, насколько успешно ученик (студент) смог восстановить верное решение, опираясь на эти объяснения [02:49].

По мнению Рота, это похоже на систему образования: если баллы студентов растут после лекций, значит, учитель хорош; если падают — учителю нужно менять подход [03:01].

## 🧠 Феномен маленького учителя
[[JUMP:04:28]]

Одним из самых поразительных результатов исследования стала «необъяснимая эффективность» миниатюрных моделей. В традиционных схемах для генерации качественных обучающих данных (синтетических данных) требуются огромные и дорогие модели, такие как DeepSeek V3 или GPT-4 [05:10]. 

Однако Sakana AI доказала, что модель размером всего в 7 миллиардов параметров (7B), обученная по методике RLT, может превзойти гигантов [06:03]. В экспериментах на бенчмарках AIM Math и GPQA результаты распределились следующим образом:

*   Базовая модель (без дообучения): **39.0** баллов [10:24].
*   Модель, обученная гигантом DeepSeek R1 (671B параметров): **46.6** баллов [10:40].
*   Модель, обученная компактным RLT-учителем (7B параметров): **49.5** баллов [10:52].

По словам Рота, это означает, что модель в 100 раз меньше может быть более эффективным наставником, чем тяжеловесные системы [06:17]. Это делает продвинутое обучение ИИ доступным для обычного пользовательского оборудования [11:04].

## 🏗️ Процесс дистилляции и экономика обучения
[[JUMP:06:56]]

Технически процесс обучения делится на два этапа:

1.  **RL-петля для учителя:** Модель-учитель тренируется давать объяснения, пока не найдет стиль изложения, который лучше всего «усваивается» студентом [08:14].
2.  **Дистилляция:** Полученные данные объяснений используются для «холодного старта» обучения финальной модели [08:42].

Уэс Рот подчеркивает экономическую выгоду этого метода:

*   **Скорость:** Обучение студента на 32B параметров методом RLT заняло менее суток на одном вычислительном узле [11:31].
*   **Традиционный RL:** На том же оборудовании классическое обучение с подкреплением заняло бы месяцы [11:45].
*   **Стоимость:** По оценке ведущего, это разница между затратами в $10,000 (подход Sakana) и $500,000 (традиционный подход), при этом более дешевый вариант показывает лучшие результаты [12:37].

Кроме того, RLT создает более качественные цепочки рассуждений. Объяснения становятся лаконичными, прямыми и часто содержат логические шаги, которые пропускают даже такие мощные модели, как DeepSeek R1 [11:58].

## 🧬 Рекурсивное самосовершенствование и «Машина Дарвина»
[[JUMP:14:09]]

Исследование Sakana AI подводит индустрию к возможности создания систем, которые одновременно являются и учителем, и учеником [14:09]. Генерируя объяснения для самой себя, модель может бесконечно улучшать свои когнитивные способности.

Эта идея перекликается с другим проектом Sakana — **Darwin Goal Machine**. Ведущий напоминает, что это самоэволюционирующий агент для написания кода [14:35]:

*   Он пробует различные подходы к улучшению собственного кода.
*   Тестирует их на бенчмарке SWE-bench.
*   Успешные изменения формируют «чемпионские ветки» (линии преемственности), а тупиковые — «вымирают» [15:28].

По мнению Рота, мы входим в фазу «снежного кома», когда ИИ начинает брать на себя часть исследований в области машинного обучения [16:22].

## 🌍 Последствия для индустрии и open-source
[[JUMP:16:36]]

Уэс Рот задается вопросом, как рынок отреагирует на эти новости. Напомним, выход модели DeepSeek в свое время спровоцировал падение капитализации глобального рынка на триллион долларов за день [16:36]. Доступность мощных методик обучения для малых лабораторий и отдельных исследователей может серьезно пошатнуть позиции технологических гигантов вроде OpenAI или Google [16:49].

Основные выводы о текущем состоянии проекта:

*   Весь код и результаты исследований опубликованы в открытом доступе на GitHub [17:30].
*   Методика легко адаптируется и, по-видимому, не имеет явных недостатков в плане качества вывода [13:04].
*   Sakana AI продолжает «биться в тяжелом весе», несмотря на относительно небольшой размер команды [17:17].

В завершение Рот отмечает, что хотя новости от Sakana могут распространяться медленнее, чем анонсы от Anthropic или Google, их влияние на индустрию может оказаться фундаментальным из-за радикального снижения входного порога в создание высокоуровневых моделей рассуждения [17:17].