# Математический прорыв OpenAI: модель o4-mini шокировала профессоров на секретной встрече

Источник: https://www.youtube.com/watch?v=dvRFQ58x7O8
Канал: Wes Roth
Опубликовано: 09.06.2025

---

В мире математики и искусственного интеллекта произошло событие, которое многие эксперты называют поворотным моментом. На секретном симпозиуме группа из 30 ведущих математиков мира столкнулась с новой моделью OpenAI — o4-mini, которая продемонстрировала способность решать сложнейшие задачи университетского уровня и даже открытые вопросы теории чисел, вызывая одновременно восторг и тревогу у профессионального сообщества.

## 🤫 Секретный симпозиум: математики против алгоритма
[[JUMP:03:00]]

В середине мая 2024 года состоялось закрытое собрание, которое участники называют «тайным математическим конклавом» [03:00]. Тридцать профессоров и исследователей собрались в условиях строгой секретности: они подписали соглашение о неразглашении (NDA), а для связи использовали мессенджер Signal, чтобы исключить любую утечку данных [05:26]. Целью встречи было испытать возможности новой модели искусственного интеллекта в решении задач, которые традиционно считались недоступными для машин.

Математик Кен Оно из Вирджинского университета, выступавший судьёй на мероприятии, признался, что его коллеги были буквально потрясены [03:14]. По его словам, некоторые участники заявили, что модель вплотную приблизилась к уровню «математического гения» [03:28].

Особое впечатление на присутствующих произвёл случай, когда Кен Оно предложил модели задачу из своей области:

*   Это был вопрос уровня PhD (докторской степени) по теории чисел [05:51].
*   Модель o4-mini потратила первые две минуты на изучение и «освоение» соответствующей литературы в реальном времени [06:04].
*   Затем ИИ сообщил, что сначала решит упрощённую («игрушечную») версию задачи, чтобы выработать метод [06:17].
*   Спустя 10 минут модель представила верное решение, добавив в конце дерзкое замечание: «Цитаты не требуются, так как загадочное число было вычислено мной» [06:30].

Кен Оно назвал такую способность к рассуждению «пугающей» и отметил, что никогда раньше не видел ничего подобного у алгоритмов [06:56].

## 📊 Frontier Math: новый эталон сложности
[[JUMP:01:05]]

Причиной проведения таких испытаний стало то, что существующие бенчмарки (тесты) для ИИ начали «насыщаться». Модели приближаются к 100% результативности на стандартных задачах, что делает тесты бесполезными для оценки прогресса [01:05]. В ответ на это был создан Frontier Math — набор экстремально сложных задач, который спонсировала OpenAI, а разрабатывала некоммерческая организация Epic AI [03:40].

Особенности этого тестирования:

1.  **Сложность:** В прошлом языковые модели решали менее 2% подобных задач [03:54].
2.  **Денежное вознаграждение:** Каждому математику, чью задачу модель не могла решить, полагалась награда в размере $7500 [05:39].
3.  **Контрольная выборка:** Из 300 вопросов 50 были выделены в «скрытый набор» (holdout set), который гарантированно не попадал в обучающие данные модели [04:48].

Несмотря на сложность, модель o4-mini справилась с большинством предложенных проблем, что, по мнению Оно, указывает на скорое пришествие сильного ИИ (AGI) [08:15].

## 🤨 Скептицизм и работа над ошибками
[[JUMP:08:40]]

Однако не все участники симпозиума разделяют однозначный восторг. Математик по имени Джаспер (Jasper), также присутствовавший на встрече, внес важные уточнения в общую картину [00:38]. По его мнению, некоторые заголовки в прессе были преувеличены [00:53].

Критику Джаспера и других экспертов можно свести к нескольким пунктам:

*   **Ошибочная логика при верном ответе:** Джаспер отметил, что модель иногда приходила к правильному численному результату, используя неверные рассуждения [09:20]. Это происходит из-за особенностей обучения с подкреплением (RL), где ИИ получает «пятерку» за правильный ответ, даже если путь к нему был логически ошибочным [09:33].
*   **Проблемы с синтезом:** Когда Джаспер усложнил задачу, потребовав объединить промежуточные теоремы из свежей научной статьи в новый метод, ИИ потерпел неудачу [10:24]. Модель не смогла эффективно выстроить длинную логическую цепь для синтеза новых знаний [10:38].
*   **Гэри Маркус и вопрос данных:** Известный критик ИИ Гэри Маркус выразил сомнение в чистоте эксперимента. По его мнению, OpenAI могла обучать модель на данных, специфически связанных с математическими бенчмарками, что создает иллюзию понимания там, где есть только «совпадение паттернов» [17:15].

## 🧬 AlphaEvolve и «эволюционный поиск» решений
[[JUMP:11:55]]

Ведущий Уэс Рот сравнивает успех o4-mini с достижениями подразделения Google DeepMind. Он подчеркивает, что современные системы ИИ становятся мощнее не только за счет архитектуры, но и за счет «обвязки» (scaffolding) [12:48].

Пример AlphaEvolve от Google показывает, как это работает на практике:

1.  Модель генерирует сотни или тысячи вариантов решения [13:27].
2.  Специальный код оценивает каждое решение на пригодность.
3.  Лучшие варианты становятся основой для следующего поколения «мутаций» [13:39].
4.  В итоге система выдает результат, превосходящий человеческий код, пройдя через десятки итераций (например, 80 циклов в системе Darwin) [14:17].

По мнению Рота, если применить подобный эволюционный поиск к моделям вроде o4-mini, результаты будут «потрясающими», так как машина не устает и может генерировать тысячи итераций там, где человек ограничивается одной [16:23].

## 🔮 Практическая польза и «религия просто-изма»
[[JUMP:18:23]]

Споры о том, «настоящий» это интеллект или просто «статистический попугай», не отменяют практических достижений. Рот приводит в пример работу Google DeepMind: их ИИ-оптимизация работы дата-центров уже год находится в эксплуатации и экономит 7% вычислительных ресурсов компании по всему миру [18:23]. В масштабах Google это означает экономию десятков миллионов долларов и значительное снижение энергопотребления [18:49].

В завершение Скотт Ааронсон, эксперт по квантовым вычислениям, высмеивает скептиков, придерживающихся того, что он называет «религией просто-изма» (the religion of justism) [19:41].

Суть этой позиции, по словам Ааронсона:

*   «Это *просто* предсказание следующего токена» [19:54].
*   «Это *просто* аппроксиматор функций» [20:01].
*   «Это *просто* гигантский автозаполнитель» [20:01].

Ааронсон парирует этот аргумент вопросом: «А что такое вы, если не просто пучок нейронов и синапсов?» [20:08]. По мнению исследователя, если ИИ успешно меняет цивилизацию, то утверждение «он не меняет её, а лишь кажется, что меняет» теряет всякий практический смысл [20:45].