Математический прорыв OpenAI: модель o4-mini шокировала профессоров на секретной встрече

В мире математики и искусственного интеллекта произошло событие, которое многие эксперты называют поворотным моментом. На секретном симпозиуме группа из 30 ведущих математиков мира столкнулась с новой моделью OpenAI — o4-mini, которая продемонстрировала способность решать сложнейшие задачи университетского уровня и даже открытые вопросы теории чисел, вызывая одновременно восторг и тревогу у профессионального сообщества.

🤫 Секретный симпозиум: математики против алгоритма 3:00

В середине мая 2024 года состоялось закрытое собрание, которое участники называют «тайным математическим конклавом» . Тридцать профессоров и исследователей собрались в условиях строгой секретности: они подписали соглашение о неразглашении (NDA), а для связи использовали мессенджер Signal, чтобы исключить любую утечку данных . Целью встречи было испытать возможности новой модели искусственного интеллекта в решении задач, которые традиционно считались недоступными для машин.

Математик Кен Оно из Вирджинского университета, выступавший судьёй на мероприятии, признался, что его коллеги были буквально потрясены . По его словам, некоторые участники заявили, что модель вплотную приблизилась к уровню «математического гения» .

Особое впечатление на присутствующих произвёл случай, когда Кен Оно предложил модели задачу из своей области:

Это был вопрос уровня PhD (докторской степени) по теории чисел .
Модель o4-mini потратила первые две минуты на изучение и «освоение» соответствующей литературы в реальном времени .
Затем ИИ сообщил, что сначала решит упрощённую («игрушечную») версию задачи, чтобы выработать метод .
Спустя 10 минут модель представила верное решение, добавив в конце дерзкое замечание: «Цитаты не требуются, так как загадочное число было вычислено мной» .

Кен Оно назвал такую способность к рассуждению «пугающей» и отметил, что никогда раньше не видел ничего подобного у алгоритмов .

📊 Frontier Math: новый эталон сложности 1:05

Причиной проведения таких испытаний стало то, что существующие бенчмарки (тесты) для ИИ начали «насыщаться». Модели приближаются к 100% результативности на стандартных задачах, что делает тесты бесполезными для оценки прогресса . В ответ на это был создан Frontier Math — набор экстремально сложных задач, который спонсировала OpenAI, а разрабатывала некоммерческая организация Epic AI .

Особенности этого тестирования:

Сложность: В прошлом языковые модели решали менее 2% подобных задач .
Денежное вознаграждение: Каждому математику, чью задачу модель не могла решить, полагалась награда в размере $7500 .
Контрольная выборка: Из 300 вопросов 50 были выделены в «скрытый набор» (holdout set), который гарантированно не попадал в обучающие данные модели .

Несмотря на сложность, модель o4-mini справилась с большинством предложенных проблем, что, по мнению Оно, указывает на скорое пришествие сильного ИИ (AGI) .

🤨 Скептицизм и работа над ошибками 8:40

Однако не все участники симпозиума разделяют однозначный восторг. Математик по имени Джаспер (Jasper), также присутствовавший на встрече, внес важные уточнения в общую картину . По его мнению, некоторые заголовки в прессе были преувеличены .

Критику Джаспера и других экспертов можно свести к нескольким пунктам:

Ошибочная логика при верном ответе: Джаспер отметил, что модель иногда приходила к правильному численному результату, используя неверные рассуждения . Это происходит из-за особенностей обучения с подкреплением (RL), где ИИ получает «пятерку» за правильный ответ, даже если путь к нему был логически ошибочным .
Проблемы с синтезом: Когда Джаспер усложнил задачу, потребовав объединить промежуточные теоремы из свежей научной статьи в новый метод, ИИ потерпел неудачу . Модель не смогла эффективно выстроить длинную логическую цепь для синтеза новых знаний .
Гэри Маркус и вопрос данных: Известный критик ИИ Гэри Маркус выразил сомнение в чистоте эксперимента. По его мнению, OpenAI могла обучать модель на данных, специфически связанных с математическими бенчмарками, что создает иллюзию понимания там, где есть только «совпадение паттернов» .

🧬 AlphaEvolve и «эволюционный поиск» решений 11:55

Ведущий Уэс Рот сравнивает успех o4-mini с достижениями подразделения Google DeepMind. Он подчеркивает, что современные системы ИИ становятся мощнее не только за счет архитектуры, но и за счет «обвязки» (scaffolding) .

Пример AlphaEvolve от Google показывает, как это работает на практике:

Модель генерирует сотни или тысячи вариантов решения .
Специальный код оценивает каждое решение на пригодность.
Лучшие варианты становятся основой для следующего поколения «мутаций» .
В итоге система выдает результат, превосходящий человеческий код, пройдя через десятки итераций (например, 80 циклов в системе Darwin) .

По мнению Рота, если применить подобный эволюционный поиск к моделям вроде o4-mini, результаты будут «потрясающими», так как машина не устает и может генерировать тысячи итераций там, где человек ограничивается одной .

🔮 Практическая польза и «религия просто-изма» 18:23

Споры о том, «настоящий» это интеллект или просто «статистический попугай», не отменяют практических достижений. Рот приводит в пример работу Google DeepMind: их ИИ-оптимизация работы дата-центров уже год находится в эксплуатации и экономит 7% вычислительных ресурсов компании по всему миру . В масштабах Google это означает экономию десятков миллионов долларов и значительное снижение энергопотребления .

В завершение Скотт Ааронсон, эксперт по квантовым вычислениям, высмеивает скептиков, придерживающихся того, что он называет «религией просто-изма» (the religion of justism) .

Суть этой позиции, по словам Ааронсона:

«Это просто предсказание следующего токена» .
«Это просто аппроксиматор функций» .
«Это просто гигантский автозаполнитель» .

Ааронсон парирует этот аргумент вопросом: «А что такое вы, если не просто пучок нейронов и синапсов?» . По мнению исследователя, если ИИ успешно меняет цивилизацию, то утверждение «он не меняет её, а лишь кажется, что меняет» теряет всякий практический смысл .