Microsoft rStar-Math: как компактный ИИ превзошел OpenAI o1 в математике

Wes Roth 37,8 тыс. 28 мин 5 мин 10.01.2025
Главное

В 2024 году гонка в области искусственного интеллекта перешла в плоскость математического мышления. Исследователи из Microsoft представили проект rStar-Math — технологию, которая позволяет компактным языковым моделям не просто догонять, но и превосходить флагманские решения вроде OpenAI o1-preview в решении сложнейших задач уровня математических олимпиад.

🏆 Мал, да удал: rStar-Math против гигантов индустрии 0:00

В 2024 году мы стали свидетелями доминирования специализированных ИИ-систем в математических соревнованиях. Модель от Google DeepMind завоевала золотую медаль на Международной математической олимпиаде (IMO), а модель o3 от OpenAI почти достигла 100% результата на тесте AIME, предназначенном для лучших старшеклассников США . Однако Microsoft представила нечто иное — rStar-Math. Эта технология позволила малым языковым моделям (SLM), таким как Qwen 2.5-Math (7B) и Phi-3.8B, достичь невероятных результатов .

Ключевые достижения rStar-Math:

Уэс Рот подчеркивает значимость этого события: o1-preview является одной из самых продвинутых моделей в мире, использующей «вычисления во время тестирования» (test-time compute) и скрытые цепочки рассуждений . То, что модели размером 7B и 3,8B параметров смогли её обойти, меняет представление о необходимости огромных вычислительных мощностей для сложного логического вывода .

📉 Конец эпохи гигантомании? 2:45

Для сравнения масштабов Уэс Рот приводит иерархию моделей:

Ранее считалось, что прогресс ИИ подчиняется «законам масштабирования» (scaling laws): чем больше данных и вычислительных ресурсов, тем умнее модель . Однако индустрия сталкивается с физическими ограничениями: интернет уже практически полностью «скачан», а энергопотребление дата-центров заставляет компании перезапускать старые атомные электростанции .

Тренд последних шести месяцев, по мнению ведущего, — это переход к эффективности. Примером служит DeepSeek V3, на обучение которой было затрачено в 11 раз меньше вычислительных ресурсов, чем на сопоставимую модель Llama от Meta . rStar-Math идет по этому же пути, развивая «ортогональное» направление (как иронично замечает Рот, это новое модное слово в индустрии) — улучшение способностей модели за счет глубокого обдумывания задачи непосредственно в момент запроса, а не просто за счет увеличения её размера .

🧠 Прогноз Илона Маска и пик человеческого рычага 6:11

В контексте развития когнитивных способностей ИИ ведущий приводит мнение Илона Маска. По словам предпринимателя, в ближайшие 3–4 года ИИ сможет выполнять любую когнитивную задачу, которая не связана напрямую с манипуляцией физическими атомами .

Уэс Рот развивает эту мысль, выделяя уникальный исторический период:

  1. Текущий момент: Период «максимального рычага» для отдельного человека. Благодаря ИИ один индивид может обладать знаниями и навыками экспертного уровня в любой области .
  2. Ближайшее десятилетие: Время, когда те, кто эффективно применяет ИИ, смогут оказывать на мир влияние такого масштаба, какого не было в истории человечества .
  3. Отдаленное будущее: Точка насыщения, где большинство задач (от исследований до управления городами) будет автоматизировано, и роль человеческого интеллекта как ведущей силы может начать снижаться .

В качестве иллюстрации такого будущего Рот рекомендует книгу Иэна Бэнкса «Игрок» из цикла «Культура», где показано общество, управляемое сверхразумными машинами .

🛠 Три инновации rStar-Math 10:58

Главная особенность rStar-Math заключается в том, что она достигает выдающихся результатов без использования «дистилляции знаний» (knowledge distillation) — метода, когда малую модель обучают на ответах более мощной (например, GPT-4) . Вместо этого Microsoft применила три ключевых новшества.

1. Поиск по дереву Монте-Карло (MCTS)

Это метод, позволяющий модели исследовать различные варианты решения, словно в игре в шахматы или при разгадывании кроссворда. Модель пробует разные пути, оценивает их и возвращается назад, если заходит в тупик .

2. Цепочка рассуждений, дополненная кодом (Code-augmented CoT) 12:56

Обычные модели часто галлюцинируют: они могут привести неверные логические шаги, но случайно выдать правильный ответ. Чтобы исключить это, rStar-Math генерирует шаг рассуждения на естественном языке одновременно с кодом на Python . Код немедленно исполняется: если он не работает или выдает ошибку, этот путь рассуждения отбрасывается как невалидный. Это создает систему «плотных вознаграждений», где проверяется каждый этап работы, а не только финальный результат .

3. Модель предпочтения процесса (Process Preference Model, PPM) 17:03

Вместо того чтобы полагаться на аннотации людей (что дорого и не масштабируется), исследователи создали метод обучения модели, которая оценивает качество каждого отдельного шага рассуждения. Если путь выглядит перспективным (например, логика «от первого принципа»), модель продолжает его. Если рассуждение становится абсурдным, PPM дает сигнал прекратить разработку этой ветви .

✨ Эмерджентная саморефлексия 21:10

Одним из самых удивительных открытий исследования стало появление «внутренней саморефлексии». Это способность модели осознавать свою ошибку и корректировать курс без специальной команды .

В одном из примеров модель начала решать задачу, используя библиотеку символьной математики SymPy. Через три шага она «поняла», что этот путь ведет к ошибке, самостоятельно вернулась к началу и выбрала другой, более простой и верный подход . По словам Рота, это напоминает человеческое поведение: вы начинаете решать проблему, понимаете, что зашли не туда, и пробуете другой метод .

Примечательно, что исследователи не включали данные о саморефлексии в обучающую выборку. Эта способность возникла как эмерджентное свойство системы при использовании продвинутого логического вывода (System 2 reasoning) .

🚀 Будущее: ИИ, обучающий ИИ 24:45

Уэс Рот заключает, что мы переходим к этапу, когда модели следующего поколения будут создаваться самими моделями. rStar-Math прошла четыре раунда «самоэволюции» на миллионах синтезированных задач . На первых этапах процессу помогали алгоритмы, заданные людьми, но к третьему и четвертому раундам модель PPM (предпочтения процесса) уже сама определяла лучшие траектории обучения .

Автор канала подчеркивает свою цель: переводить сложные научные работы на язык, понятный широкой аудитории, сохраняя суть идей. Он призывает зрителей делиться лучшими аналогиями для объяснения этих концепций, чтобы сделать знания об ИИ доступными каждому .

💬 Цитаты

«Любая когнитивная задача, которая не включает в себя атомы, будет по силам ИИ в течение максимум трех-четырех лет.»

Илон Маск (в цитате Уэса Рота) 07:07

«Система сама поняла, что первые шаги были низкого качества, и воздержалась от продолжения по этому пути рассуждений.»

👥 Спикер
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
MCTS (Monte Carlo Tree Search)
Алгоритм поиска решений, который строит дерево возможных вариантов и выбирает лучшие из них.
Distillation (Дистилляция)
Процесс обучения маленькой модели на ответах более крупной и умной модели.
PPM (Process Preference Model)
Модель, которая оценивает правильность каждого отдельного шага в цепочке рассуждений ИИ.
Test-time compute
Вычислительные ресурсы, затрачиваемые моделью непосредственно в момент генерации ответа для более глубокого анализа.
📊 Цифры
🗓 Хронология
  1. 2024 ИИ-системы начинают доминировать в международных математических олимпиадах.
  2. Ближайшие 3-4 года Прогноз Илона Маска о полной автоматизации когнитивных задач.
  3. Следующее десятилетие Период максимального влияния отдельных людей, использующих ИИ-инструменты.
⚖️ Другая сторона
Искусственный интеллект rStar-Math Microsoft OpenAI o1 Monte Carlo Tree Search Chain of Thought