Математический триумф ИИ: детали победы Gemini DeepThink и OpenAI на IMO

В мире искусственного интеллекта произошло знаковое событие: сразу два технологических гиганта, Google и OpenAI, объявили о достижении «золотого стандарта» на Международной математической олимпиаде (IMO). Это достижение не только демонстрирует прогресс в области рассуждений ИИ, но и сопровождается кулуарными спорами о профессиональной этике и методах оценки результатов.

🥇 Золотая лихорадка на математическом олимпе 0:00

Google DeepMind официально подтвердила, что их модель Gemini с технологией DeepThink завоевала условную золотую медаль на IMO . Ранее о похожем результате заявила компания OpenAI. Оба ИИ-агента набрали одинаковое количество баллов — 35 из 42 возможных, решив пять из шести сложнейших задач .

Интересные факты о соревновании:

Результативность: Модели от Google и OpenAI споткнулись на одной и той же шестой задаче, которая, судя по всему, стала непреодолимым барьером для текущих алгоритмов .
Превосходство человека: Несмотря на триумф машин, пять участников-людей (Иван, Цзян, Дэн, Уоррен и Сатоши) набрали идеальные 42 балла, решив все задачи . Ведущий Уэс Рот иронично замечает: «Мы всё еще в игре, человечество пока не списано в утиль» .
Формат: В отличие от прошлых лет, в 2025 году модели использовали «чистый» LLM-подход. Им не требовался перевод условий на формальные языки программирования (вроде Lean); нейросети читали и решали задачи на естественном языке, как это делают люди .

⚔️ Скандал вокруг анонса: OpenAI против этики IMO? 1:21

Ситуация вокруг объявления результатов OpenAI вызвала волну критики в индустрии. Появились слухи, что оргкомитет IMO просил технологические компании подождать неделю после церемонии закрытия, чтобы не отвлекать внимание от достижений детей-участников . OpenAI, однако, опубликовала новость раньше.

Позиции сторон:

Аргументы критиков: OpenAI якобы проигнорировала просьбу организаторов ради «хайпа» и возможности перехватить информационную повестку у Google.
Позиция OpenAI: Ноам Браун, авторитетный исследователь компании, решительно отверг обвинения. Он утверждает, что пост был опубликован уже после завершения прямой трансляции церемонии закрытия . По его словам, OpenAI вообще не вела официальных переговоров с IMO, а Браун лишь лично предупредил одного из организаторов перед публикацией .
Позиция Google DeepMind: Демис Хассабис, глава DeepMind, пояснил, что его компания не делала анонсов в пятницу именно из уважения к просьбе совета IMO дождаться верификации результатов экспертами и официального награждения студентов .

Сам Уэс Рот признает, что ситуация неоднозначная: оба спикера (Браун и Хассабис) пользуются огромным уважением, и это может быть как «проделкой» отдела маркетинга OpenAI, так и простым недопониманием .

🧠 Технологический стек: DeepThink и параллельные миры 4:15

Модель Gemini с приставкой «DeepThink» не является просто стандартным чат-ботом. Это специализированная версия, прошедшая дополнительное обучение.

Ключевые технические особенности Gemini DeepThink:

Reinforcement Learning (RL): Модель обучали с использованием новых методов обучения с подкреплением, ориентированных на многошаговые рассуждения и доказательство теорем .
Подсказки и база знаний: Google предоставила модели доступ к курируемому корпусу высококачественных математических решений и добавила общие советы по подходу к олимпиадным задачам в системные инструкции .
Параллельное мышление: В отличие от линейной цепочки мыслей, Gemini DeepThink способна одновременно исследовать несколько возможных путей решения задачи и объединять их для финального ответа .

Уэс Рот отмечает, что Google обещает сделать эту модель доступной для подписчиков плана Google AI Ultra после завершения тестирования «красными командами» (red teamers) .

🏋️ «Тренажерный зал» для ИИ: новая парадигма AGI 11:34

Одной из самых глубоких идей видео является мысль исследователя Вула Брауна, которую поддерживает и автор канала: «Настоящим AGI является не конкретная модель (чекпоинт), а RL-система внутри компании, которая её создает» .

Андрей Карпати предложил аналогию «спортивного зала» или «буткемпа» для нейросетей . Процесс выглядит так:

Пре-тренинг: Модель поглощает интернет, приобретая общие знания.
RL-тренировка: Модель отправляется в «зал» (Reinforcement Learning Gym), где на огромных вычислительных мощностях учится решать специфические задачи — математику или код .

Этот подход подтверждается примером Илона Маска, который использовал суперкомпьютер Colossus для обучения Grok 3. По данным Рота, Маск задействовал в 10 раз больше мощностей для обучения с подкреплением (RL), чем в предыдущей версии . По мнению Рота, это позволило превратить «среднюю» модель в одну из лучших на рынке .

📉 Уроки AlphaZero и синтетические данные 12:49

Будущее ИИ, по мнению многих экспертов, заключается в отказе от человеческих данных. Это так называемый «урок AlphaZero» — алгоритма, который научился играть в шахматы и го лучше людей, играя сам с собой, а не изучая человеческие партии .

Путь к прогрессу включает:

Генерацию синтетических данных и теорем .
Самостоятельную проверку (self-verification) .
Создание ИИ обучающих программ для самого себя.

Интересно, что эксперты недооценили скорость прогресса. Рынки ставок оценивали вероятность победы ИИ на IMO в этом году всего в 10-15% . Даже Элиезер Юдковский прогнозировал лишь 16% шансов на «золото» к 2025 году . ИИ в очередной раз опередил самые смелые прогнозы скептиков и оптимистов.