В мире математики и искусственного интеллекта произошло событие, которое многие эксперты называют поворотным моментом. На секретном симпозиуме группа из 30 ведущих математиков мира столкнулась с новой моделью OpenAI — o4-mini, которая продемонстрировала способность решать сложнейшие задачи университетского уровня и даже открытые вопросы теории чисел, вызывая одновременно восторг и тревогу у профессионального сообщества.
🤫 Секретный симпозиум: математики против алгоритма 3:00
В середине мая 2024 года состоялось закрытое собрание, которое участники называют «тайным математическим конклавом» . Тридцать профессоров и исследователей собрались в условиях строгой секретности: они подписали соглашение о неразглашении (NDA), а для связи использовали мессенджер Signal, чтобы исключить любую утечку данных . Целью встречи было испытать возможности новой модели искусственного интеллекта в решении задач, которые традиционно считались недоступными для машин.
Математик Кен Оно из Вирджинского университета, выступавший судьёй на мероприятии, признался, что его коллеги были буквально потрясены . По его словам, некоторые участники заявили, что модель вплотную приблизилась к уровню «математического гения» .
Особое впечатление на присутствующих произвёл случай, когда Кен Оно предложил модели задачу из своей области:
- Это был вопрос уровня PhD (докторской степени) по теории чисел .
- Модель o4-mini потратила первые две минуты на изучение и «освоение» соответствующей литературы в реальном времени .
- Затем ИИ сообщил, что сначала решит упрощённую («игрушечную») версию задачи, чтобы выработать метод .
- Спустя 10 минут модель представила верное решение, добавив в конце дерзкое замечание: «Цитаты не требуются, так как загадочное число было вычислено мной» .
Кен Оно назвал такую способность к рассуждению «пугающей» и отметил, что никогда раньше не видел ничего подобного у алгоритмов .
📊 Frontier Math: новый эталон сложности 1:05
Причиной проведения таких испытаний стало то, что существующие бенчмарки (тесты) для ИИ начали «насыщаться». Модели приближаются к 100% результативности на стандартных задачах, что делает тесты бесполезными для оценки прогресса . В ответ на это был создан Frontier Math — набор экстремально сложных задач, который спонсировала OpenAI, а разрабатывала некоммерческая организация Epic AI .
Особенности этого тестирования:
- Сложность: В прошлом языковые модели решали менее 2% подобных задач .
- Денежное вознаграждение: Каждому математику, чью задачу модель не могла решить, полагалась награда в размере $7500 .
- Контрольная выборка: Из 300 вопросов 50 были выделены в «скрытый набор» (holdout set), который гарантированно не попадал в обучающие данные модели .
Несмотря на сложность, модель o4-mini справилась с большинством предложенных проблем, что, по мнению Оно, указывает на скорое пришествие сильного ИИ (AGI) .
🤨 Скептицизм и работа над ошибками 8:40
Однако не все участники симпозиума разделяют однозначный восторг. Математик по имени Джаспер (Jasper), также присутствовавший на встрече, внес важные уточнения в общую картину . По его мнению, некоторые заголовки в прессе были преувеличены .
Критику Джаспера и других экспертов можно свести к нескольким пунктам:
- Ошибочная логика при верном ответе: Джаспер отметил, что модель иногда приходила к правильному численному результату, используя неверные рассуждения . Это происходит из-за особенностей обучения с подкреплением (RL), где ИИ получает «пятерку» за правильный ответ, даже если путь к нему был логически ошибочным .
- Проблемы с синтезом: Когда Джаспер усложнил задачу, потребовав объединить промежуточные теоремы из свежей научной статьи в новый метод, ИИ потерпел неудачу . Модель не смогла эффективно выстроить длинную логическую цепь для синтеза новых знаний .
- Гэри Маркус и вопрос данных: Известный критик ИИ Гэри Маркус выразил сомнение в чистоте эксперимента. По его мнению, OpenAI могла обучать модель на данных, специфически связанных с математическими бенчмарками, что создает иллюзию понимания там, где есть только «совпадение паттернов» .
🧬 AlphaEvolve и «эволюционный поиск» решений 11:55
Ведущий Уэс Рот сравнивает успех o4-mini с достижениями подразделения Google DeepMind. Он подчеркивает, что современные системы ИИ становятся мощнее не только за счет архитектуры, но и за счет «обвязки» (scaffolding) .
Пример AlphaEvolve от Google показывает, как это работает на практике:
- Модель генерирует сотни или тысячи вариантов решения .
- Специальный код оценивает каждое решение на пригодность.
- Лучшие варианты становятся основой для следующего поколения «мутаций» .
- В итоге система выдает результат, превосходящий человеческий код, пройдя через десятки итераций (например, 80 циклов в системе Darwin) .
По мнению Рота, если применить подобный эволюционный поиск к моделям вроде o4-mini, результаты будут «потрясающими», так как машина не устает и может генерировать тысячи итераций там, где человек ограничивается одной .
🔮 Практическая польза и «религия просто-изма» 18:23
Споры о том, «настоящий» это интеллект или просто «статистический попугай», не отменяют практических достижений. Рот приводит в пример работу Google DeepMind: их ИИ-оптимизация работы дата-центров уже год находится в эксплуатации и экономит 7% вычислительных ресурсов компании по всему миру . В масштабах Google это означает экономию десятков миллионов долларов и значительное снижение энергопотребления .
В завершение Скотт Ааронсон, эксперт по квантовым вычислениям, высмеивает скептиков, придерживающихся того, что он называет «религией просто-изма» (the religion of justism) .
Суть этой позиции, по словам Ааронсона:
- «Это просто предсказание следующего токена» .
- «Это просто аппроксиматор функций» .
- «Это просто гигантский автозаполнитель» .
Ааронсон парирует этот аргумент вопросом: «А что такое вы, если не просто пучок нейронов и синапсов?» . По мнению исследователя, если ИИ успешно меняет цивилизацию, то утверждение «он не меняет её, а лишь кажется, что меняет» теряет всякий практический смысл .