Японский стартап Sakana AI представил результаты исследования, которые могут радикально изменить подход к обучению моделей рассуждения (Reasoning Models). Вместо традиционного метода Reinforcement Learning (RL), где модель учится решать задачи методом проб и ошибок, разработчики предложили концепцию «RL-учителя», который оптимизируется не под правильный ответ, а под качество объяснения материала студенту.
🚀 Новая парадигма: от решения задач к обучению 0:00
Традиционно обучение с подкреплением (Reinforcement Learning) строится на выдаче «наград» за правильный результат . Если модель правильно решает математическую задачу или пишет рабочий код, она получает виртуальное поощрение. Уэс Рот сравнивает это с дрессировкой: системе говорят «делай больше того, что ты только что сделала» .
Компания Sakana AI, известная своими проектами «машины Дарвина» и первой научной статьей по ML, прошедшей рецензирование и полностью написанной ИИ, предложила перевернуть этот процесс. Их новый метод фокусируется на «обученном через RL учителе» (Reinforcement Learned Teacher, RLT) .
Ключевые особенности подхода:
- Учитель уже знает правильный ответ на вопрос .
- Его задача — не найти решение, а сформулировать наиболее эффективное объяснение процесса.
- Качество работы учителя оценивается по тому, насколько успешно ученик (студент) смог восстановить верное решение, опираясь на эти объяснения .
По мнению Рота, это похоже на систему образования: если баллы студентов растут после лекций, значит, учитель хорош; если падают — учителю нужно менять подход .
🧠 Феномен маленького учителя 4:28
Одним из самых поразительных результатов исследования стала «необъяснимая эффективность» миниатюрных моделей. В традиционных схемах для генерации качественных обучающих данных (синтетических данных) требуются огромные и дорогие модели, такие как DeepSeek V3 или GPT-4 .
Однако Sakana AI доказала, что модель размером всего в 7 миллиардов параметров (7B), обученная по методике RLT, может превзойти гигантов . В экспериментах на бенчмарках AIM Math и GPQA результаты распределились следующим образом:
- Базовая модель (без дообучения): 39.0 баллов .
- Модель, обученная гигантом DeepSeek R1 (671B параметров): 46.6 баллов .
- Модель, обученная компактным RLT-учителем (7B параметров): 49.5 баллов .
По словам Рота, это означает, что модель в 100 раз меньше может быть более эффективным наставником, чем тяжеловесные системы . Это делает продвинутое обучение ИИ доступным для обычного пользовательского оборудования .
🏗️ Процесс дистилляции и экономика обучения 6:56
Технически процесс обучения делится на два этапа:
- RL-петля для учителя: Модель-учитель тренируется давать объяснения, пока не найдет стиль изложения, который лучше всего «усваивается» студентом .
- Дистилляция: Полученные данные объяснений используются для «холодного старта» обучения финальной модели .
Уэс Рот подчеркивает экономическую выгоду этого метода:
- Скорость: Обучение студента на 32B параметров методом RLT заняло менее суток на одном вычислительном узле .
- Традиционный RL: На том же оборудовании классическое обучение с подкреплением заняло бы месяцы .
- Стоимость: По оценке ведущего, это разница между затратами в $10,000 (подход Sakana) и $500,000 (традиционный подход), при этом более дешевый вариант показывает лучшие результаты .
Кроме того, RLT создает более качественные цепочки рассуждений. Объяснения становятся лаконичными, прямыми и часто содержат логические шаги, которые пропускают даже такие мощные модели, как DeepSeek R1 .
🧬 Рекурсивное самосовершенствование и «Машина Дарвина» 14:09
Исследование Sakana AI подводит индустрию к возможности создания систем, которые одновременно являются и учителем, и учеником . Генерируя объяснения для самой себя, модель может бесконечно улучшать свои когнитивные способности.
Эта идея перекликается с другим проектом Sakana — Darwin Goal Machine. Ведущий напоминает, что это самоэволюционирующий агент для написания кода :
- Он пробует различные подходы к улучшению собственного кода.
- Тестирует их на бенчмарке SWE-bench.
- Успешные изменения формируют «чемпионские ветки» (линии преемственности), а тупиковые — «вымирают» .
По мнению Рота, мы входим в фазу «снежного кома», когда ИИ начинает брать на себя часть исследований в области машинного обучения .
🌍 Последствия для индустрии и open-source 16:36
Уэс Рот задается вопросом, как рынок отреагирует на эти новости. Напомним, выход модели DeepSeek в свое время спровоцировал падение капитализации глобального рынка на триллион долларов за день . Доступность мощных методик обучения для малых лабораторий и отдельных исследователей может серьезно пошатнуть позиции технологических гигантов вроде OpenAI или Google .
Основные выводы о текущем состоянии проекта:
- Весь код и результаты исследований опубликованы в открытом доступе на GitHub .
- Методика легко адаптируется и, по-видимому, не имеет явных недостатков в плане качества вывода .
- Sakana AI продолжает «биться в тяжелом весе», несмотря на относительно небольшой размер команды .
В завершение Рот отмечает, что хотя новости от Sakana могут распространяться медленнее, чем анонсы от Anthropic или Google, их влияние на индустрию может оказаться фундаментальным из-за радикального снижения входного порога в создание высокоуровневых моделей рассуждения .