Microsoft rStar-Math: как компактный ИИ превзошел OpenAI o1 в математике

В 2024 году гонка в области искусственного интеллекта перешла в плоскость математического мышления. Исследователи из Microsoft представили проект rStar-Math — технологию, которая позволяет компактным языковым моделям не просто догонять, но и превосходить флагманские решения вроде OpenAI o1-preview в решении сложнейших задач уровня математических олимпиад.

🏆 Мал, да удал: rStar-Math против гигантов индустрии 0:00

В 2024 году мы стали свидетелями доминирования специализированных ИИ-систем в математических соревнованиях. Модель от Google DeepMind завоевала золотую медаль на Международной математической олимпиаде (IMO), а модель o3 от OpenAI почти достигла 100% результата на тесте AIME, предназначенном для лучших старшеклассников США . Однако Microsoft представила нечто иное — rStar-Math. Эта технология позволила малым языковым моделям (SLM), таким как Qwen 2.5-Math (7B) и Phi-3.8B, достичь невероятных результатов .

Ключевые достижения rStar-Math:

Точность модели Qwen 2.5-Math 7B выросла с 60% до 90%.
Модель Phi-3.8B (всего 3,8 млрд параметров) улучшила свои показатели с 42% до 87%.
Эти результаты превосходят показатели OpenAI o1-preview на 1–4,5% .

Уэс Рот подчеркивает значимость этого события: o1-preview является одной из самых продвинутых моделей в мире, использующей «вычисления во время тестирования» (test-time compute) и скрытые цепочки рассуждений . То, что модели размером 7B и 3,8B параметров смогли её обойти, меняет представление о необходимости огромных вычислительных мощностей для сложного логического вывода .

📉 Конец эпохи гигантомании? 2:45

Для сравнения масштабов Уэс Рот приводит иерархию моделей:

Малые (Small): около 7–8 млрд параметров (например, Llama 3.1 8B).
Средние (Medium): около 70 млрд параметров.
Большие (Large): от 405 млрд (Llama 3.1) до предполагаемых 1,7 трлн параметров у GPT-4 .

Ранее считалось, что прогресс ИИ подчиняется «законам масштабирования» (scaling laws): чем больше данных и вычислительных ресурсов, тем умнее модель . Однако индустрия сталкивается с физическими ограничениями: интернет уже практически полностью «скачан», а энергопотребление дата-центров заставляет компании перезапускать старые атомные электростанции .

Тренд последних шести месяцев, по мнению ведущего, — это переход к эффективности. Примером служит DeepSeek V3, на обучение которой было затрачено в 11 раз меньше вычислительных ресурсов, чем на сопоставимую модель Llama от Meta . rStar-Math идет по этому же пути, развивая «ортогональное» направление (как иронично замечает Рот, это новое модное слово в индустрии) — улучшение способностей модели за счет глубокого обдумывания задачи непосредственно в момент запроса, а не просто за счет увеличения её размера .

🧠 Прогноз Илона Маска и пик человеческого рычага 6:11

В контексте развития когнитивных способностей ИИ ведущий приводит мнение Илона Маска. По словам предпринимателя, в ближайшие 3–4 года ИИ сможет выполнять любую когнитивную задачу, которая не связана напрямую с манипуляцией физическими атомами .

Уэс Рот развивает эту мысль, выделяя уникальный исторический период:

Текущий момент: Период «максимального рычага» для отдельного человека. Благодаря ИИ один индивид может обладать знаниями и навыками экспертного уровня в любой области .
Ближайшее десятилетие: Время, когда те, кто эффективно применяет ИИ, смогут оказывать на мир влияние такого масштаба, какого не было в истории человечества .
Отдаленное будущее: Точка насыщения, где большинство задач (от исследований до управления городами) будет автоматизировано, и роль человеческого интеллекта как ведущей силы может начать снижаться .

В качестве иллюстрации такого будущего Рот рекомендует книгу Иэна Бэнкса «Игрок» из цикла «Культура», где показано общество, управляемое сверхразумными машинами .

🛠 Три инновации rStar-Math 10:58

Главная особенность rStar-Math заключается в том, что она достигает выдающихся результатов без использования «дистилляции знаний» (knowledge distillation) — метода, когда малую модель обучают на ответах более мощной (например, GPT-4) . Вместо этого Microsoft применила три ключевых новшества.

1. Поиск по дереву Монте-Карло (MCTS)

Это метод, позволяющий модели исследовать различные варианты решения, словно в игре в шахматы или при разгадывании кроссворда. Модель пробует разные пути, оценивает их и возвращается назад, если заходит в тупик .

2. Цепочка рассуждений, дополненная кодом (Code-augmented CoT) 12:56

Обычные модели часто галлюцинируют: они могут привести неверные логические шаги, но случайно выдать правильный ответ. Чтобы исключить это, rStar-Math генерирует шаг рассуждения на естественном языке одновременно с кодом на Python . Код немедленно исполняется: если он не работает или выдает ошибку, этот путь рассуждения отбрасывается как невалидный. Это создает систему «плотных вознаграждений», где проверяется каждый этап работы, а не только финальный результат .

3. Модель предпочтения процесса (Process Preference Model, PPM) 17:03

Вместо того чтобы полагаться на аннотации людей (что дорого и не масштабируется), исследователи создали метод обучения модели, которая оценивает качество каждого отдельного шага рассуждения. Если путь выглядит перспективным (например, логика «от первого принципа»), модель продолжает его. Если рассуждение становится абсурдным, PPM дает сигнал прекратить разработку этой ветви .

✨ Эмерджентная саморефлексия 21:10

Одним из самых удивительных открытий исследования стало появление «внутренней саморефлексии». Это способность модели осознавать свою ошибку и корректировать курс без специальной команды .

В одном из примеров модель начала решать задачу, используя библиотеку символьной математики SymPy. Через три шага она «поняла», что этот путь ведет к ошибке, самостоятельно вернулась к началу и выбрала другой, более простой и верный подход . По словам Рота, это напоминает человеческое поведение: вы начинаете решать проблему, понимаете, что зашли не туда, и пробуете другой метод .

Примечательно, что исследователи не включали данные о саморефлексии в обучающую выборку. Эта способность возникла как эмерджентное свойство системы при использовании продвинутого логического вывода (System 2 reasoning) .

🚀 Будущее: ИИ, обучающий ИИ 24:45

Уэс Рот заключает, что мы переходим к этапу, когда модели следующего поколения будут создаваться самими моделями. rStar-Math прошла четыре раунда «самоэволюции» на миллионах синтезированных задач . На первых этапах процессу помогали алгоритмы, заданные людьми, но к третьему и четвертому раундам модель PPM (предпочтения процесса) уже сама определяла лучшие траектории обучения .

Автор канала подчеркивает свою цель: переводить сложные научные работы на язык, понятный широкой аудитории, сохраняя суть идей. Он призывает зрителей делиться лучшими аналогиями для объяснения этих концепций, чтобы сделать знания об ИИ доступными каждому .