Уэс Рот о новой революции в RL: «Эра компактных и дешевых учителей ИИ настала»

Wes Roth 70,1 тыс. 17 мин 4 мин 23.06.2025
Главное

Японский стартап Sakana AI представил результаты исследования, которые могут радикально изменить подход к обучению моделей рассуждения (Reasoning Models). Вместо традиционного метода Reinforcement Learning (RL), где модель учится решать задачи методом проб и ошибок, разработчики предложили концепцию «RL-учителя», который оптимизируется не под правильный ответ, а под качество объяснения материала студенту.

🚀 Новая парадигма: от решения задач к обучению 0:00

Традиционно обучение с подкреплением (Reinforcement Learning) строится на выдаче «наград» за правильный результат . Если модель правильно решает математическую задачу или пишет рабочий код, она получает виртуальное поощрение. Уэс Рот сравнивает это с дрессировкой: системе говорят «делай больше того, что ты только что сделала» .

Компания Sakana AI, известная своими проектами «машины Дарвина» и первой научной статьей по ML, прошедшей рецензирование и полностью написанной ИИ, предложила перевернуть этот процесс. Их новый метод фокусируется на «обученном через RL учителе» (Reinforcement Learned Teacher, RLT) .

Ключевые особенности подхода:

По мнению Рота, это похоже на систему образования: если баллы студентов растут после лекций, значит, учитель хорош; если падают — учителю нужно менять подход .

🧠 Феномен маленького учителя 4:28

Одним из самых поразительных результатов исследования стала «необъяснимая эффективность» миниатюрных моделей. В традиционных схемах для генерации качественных обучающих данных (синтетических данных) требуются огромные и дорогие модели, такие как DeepSeek V3 или GPT-4 .

Однако Sakana AI доказала, что модель размером всего в 7 миллиардов параметров (7B), обученная по методике RLT, может превзойти гигантов . В экспериментах на бенчмарках AIM Math и GPQA результаты распределились следующим образом:

По словам Рота, это означает, что модель в 100 раз меньше может быть более эффективным наставником, чем тяжеловесные системы . Это делает продвинутое обучение ИИ доступным для обычного пользовательского оборудования .

🏗️ Процесс дистилляции и экономика обучения 6:56

Технически процесс обучения делится на два этапа:

  1. RL-петля для учителя: Модель-учитель тренируется давать объяснения, пока не найдет стиль изложения, который лучше всего «усваивается» студентом .
  2. Дистилляция: Полученные данные объяснений используются для «холодного старта» обучения финальной модели .

Уэс Рот подчеркивает экономическую выгоду этого метода:

Кроме того, RLT создает более качественные цепочки рассуждений. Объяснения становятся лаконичными, прямыми и часто содержат логические шаги, которые пропускают даже такие мощные модели, как DeepSeek R1 .

🧬 Рекурсивное самосовершенствование и «Машина Дарвина» 14:09

Исследование Sakana AI подводит индустрию к возможности создания систем, которые одновременно являются и учителем, и учеником . Генерируя объяснения для самой себя, модель может бесконечно улучшать свои когнитивные способности.

Эта идея перекликается с другим проектом Sakana — Darwin Goal Machine. Ведущий напоминает, что это самоэволюционирующий агент для написания кода :

По мнению Рота, мы входим в фазу «снежного кома», когда ИИ начинает брать на себя часть исследований в области машинного обучения .

🌍 Последствия для индустрии и open-source 16:36

Уэс Рот задается вопросом, как рынок отреагирует на эти новости. Напомним, выход модели DeepSeek в свое время спровоцировал падение капитализации глобального рынка на триллион долларов за день . Доступность мощных методик обучения для малых лабораторий и отдельных исследователей может серьезно пошатнуть позиции технологических гигантов вроде OpenAI или Google .

Основные выводы о текущем состоянии проекта:

В завершение Рот отмечает, что хотя новости от Sakana могут распространяться медленнее, чем анонсы от Anthropic или Google, их влияние на индустрию может оказаться фундаментальным из-за радикального снижения входного порога в создание высокоуровневых моделей рассуждения .

💬 Цитаты

«Вместо обучения через решение задач они подходят к этому с позиции 'научись учить'.»

«Это разница между обучением модели за 10 000 долларов и традиционным RL за полмиллиона, который к тому же работает хуже.»

«Мы начинаем саморекурсивный процесс: ИИ начинает брать на себя часть исследований по машинному обучению.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Reinforcement Learning (RL)
Метод обучения ИИ, при котором система получает награды за правильные действия и штрафы за ошибки.
Дистилляция (Distillation)
Процесс переноса знаний из большой, сложной модели в более компактную и быструю.
Модель рассуждения (Reasoning Model)
Тип ИИ, способный выполнять сложные логические цепочки, часто используя 'скрытые' размышления перед выдачей ответа.
7B параметров
Относительно небольшая нейросеть с 7 миллиардами весов, которую можно запускать на мощных домашних ПК.
RLT (Reinforcement Learned Teacher)
Новый метод обучения, где нейросеть тренируется быть эффективным преподавателем для других моделей.
📊 Цифры
🗓 Хронология
  1. Февраль 2025 Sakana AI публикует статью и код метода RLT.
  2. Январь 2025 Релиз DeepSeek R1 вызвал потрясения на мировых финансовых рынках.
  3. 2024 Sakana AI запускает Darwin Goal Machine для самоэволюции кода.
⚖️ Другая сторона
Искусственный интеллект Sakana AI RLT Reinforcement Learning DeepSeek Darwin Goal Machine