Математический прорыв OpenAI: модель o4-mini шокировала профессоров на секретной встрече

Wes Roth 62,9 тыс. 20 мин 4 мин 09.06.2025
Главное

В мире математики и искусственного интеллекта произошло событие, которое многие эксперты называют поворотным моментом. На секретном симпозиуме группа из 30 ведущих математиков мира столкнулась с новой моделью OpenAI — o4-mini, которая продемонстрировала способность решать сложнейшие задачи университетского уровня и даже открытые вопросы теории чисел, вызывая одновременно восторг и тревогу у профессионального сообщества.

🤫 Секретный симпозиум: математики против алгоритма 3:00

В середине мая 2024 года состоялось закрытое собрание, которое участники называют «тайным математическим конклавом» . Тридцать профессоров и исследователей собрались в условиях строгой секретности: они подписали соглашение о неразглашении (NDA), а для связи использовали мессенджер Signal, чтобы исключить любую утечку данных . Целью встречи было испытать возможности новой модели искусственного интеллекта в решении задач, которые традиционно считались недоступными для машин.

Математик Кен Оно из Вирджинского университета, выступавший судьёй на мероприятии, признался, что его коллеги были буквально потрясены . По его словам, некоторые участники заявили, что модель вплотную приблизилась к уровню «математического гения» .

Особое впечатление на присутствующих произвёл случай, когда Кен Оно предложил модели задачу из своей области:

Кен Оно назвал такую способность к рассуждению «пугающей» и отметил, что никогда раньше не видел ничего подобного у алгоритмов .

📊 Frontier Math: новый эталон сложности 1:05

Причиной проведения таких испытаний стало то, что существующие бенчмарки (тесты) для ИИ начали «насыщаться». Модели приближаются к 100% результативности на стандартных задачах, что делает тесты бесполезными для оценки прогресса . В ответ на это был создан Frontier Math — набор экстремально сложных задач, который спонсировала OpenAI, а разрабатывала некоммерческая организация Epic AI .

Особенности этого тестирования:

  1. Сложность: В прошлом языковые модели решали менее 2% подобных задач .
  2. Денежное вознаграждение: Каждому математику, чью задачу модель не могла решить, полагалась награда в размере $7500 .
  3. Контрольная выборка: Из 300 вопросов 50 были выделены в «скрытый набор» (holdout set), который гарантированно не попадал в обучающие данные модели .

Несмотря на сложность, модель o4-mini справилась с большинством предложенных проблем, что, по мнению Оно, указывает на скорое пришествие сильного ИИ (AGI) .

🤨 Скептицизм и работа над ошибками 8:40

Однако не все участники симпозиума разделяют однозначный восторг. Математик по имени Джаспер (Jasper), также присутствовавший на встрече, внес важные уточнения в общую картину . По его мнению, некоторые заголовки в прессе были преувеличены .

Критику Джаспера и других экспертов можно свести к нескольким пунктам:

🧬 AlphaEvolve и «эволюционный поиск» решений 11:55

Ведущий Уэс Рот сравнивает успех o4-mini с достижениями подразделения Google DeepMind. Он подчеркивает, что современные системы ИИ становятся мощнее не только за счет архитектуры, но и за счет «обвязки» (scaffolding) .

Пример AlphaEvolve от Google показывает, как это работает на практике:

  1. Модель генерирует сотни или тысячи вариантов решения .
  2. Специальный код оценивает каждое решение на пригодность.
  3. Лучшие варианты становятся основой для следующего поколения «мутаций» .
  4. В итоге система выдает результат, превосходящий человеческий код, пройдя через десятки итераций (например, 80 циклов в системе Darwin) .

По мнению Рота, если применить подобный эволюционный поиск к моделям вроде o4-mini, результаты будут «потрясающими», так как машина не устает и может генерировать тысячи итераций там, где человек ограничивается одной .

🔮 Практическая польза и «религия просто-изма» 18:23

Споры о том, «настоящий» это интеллект или просто «статистический попугай», не отменяют практических достижений. Рот приводит в пример работу Google DeepMind: их ИИ-оптимизация работы дата-центров уже год находится в эксплуатации и экономит 7% вычислительных ресурсов компании по всему миру . В масштабах Google это означает экономию десятков миллионов долларов и значительное снижение энергопотребления .

В завершение Скотт Ааронсон, эксперт по квантовым вычислениям, высмеивает скептиков, придерживающихся того, что он называет «религией просто-изма» (the religion of justism) .

Суть этой позиции, по словам Ааронсона:

Ааронсон парирует этот аргумент вопросом: «А что такое вы, если не просто пучок нейронов и синапсов?» . По мнению исследователя, если ИИ успешно меняет цивилизацию, то утверждение «он не меняет её, а лишь кажется, что меняет» теряет всякий практический смысл .

💬 Цитаты

«Я никогда раньше не видел такого рода рассуждений у моделей. Это то, что делает ученый. Это пугает.»

«GPT не интерпретирует предложения — кажется, что интерпретирует. Он не учится — кажется, что учится. И он не изменит цивилизацию — он лишь будет казаться, что меняет её.»

Скотт Ааронсон 20:45
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Frontier Math
Новый стандарт тестирования ИИ, состоящий из сотен сложнейших математических задач, решения которых еще не опубликованы в сети.
Scaffolding (Обвязка)
Внешний программный код и инструменты, которые помогают языковой модели выполнять задачи, проверять ошибки и итерировать решения.
Stochastic Parrot (Стохастический попугай)
Критический термин, описывающий ИИ как систему, которая лишь имитирует понимание языка, предсказывая наиболее вероятные слова.
📊 Цифры
🗓 Хронология
  1. Май 2024 Проведение секретного математического симпозиума с участием 30 экспертов.
  2. 2023-2024 Разработка и внедрение ИИ-алгоритмов оптимизации в дата-центры Google.
⚖️ Другая сторона
Математика и физика OpenAI o4-mini Frontier Math Google DeepMind Кен Оно