В мире искусственного интеллекта произошло знаковое событие: сразу два технологических гиганта, Google и OpenAI, объявили о достижении «золотого стандарта» на Международной математической олимпиаде (IMO). Это достижение не только демонстрирует прогресс в области рассуждений ИИ, но и сопровождается кулуарными спорами о профессиональной этике и методах оценки результатов.
🥇 Золотая лихорадка на математическом олимпе 0:00
Google DeepMind официально подтвердила, что их модель Gemini с технологией DeepThink завоевала условную золотую медаль на IMO . Ранее о похожем результате заявила компания OpenAI. Оба ИИ-агента набрали одинаковое количество баллов — 35 из 42 возможных, решив пять из шести сложнейших задач .
Интересные факты о соревновании:
- Результативность: Модели от Google и OpenAI споткнулись на одной и той же шестой задаче, которая, судя по всему, стала непреодолимым барьером для текущих алгоритмов .
- Превосходство человека: Несмотря на триумф машин, пять участников-людей (Иван, Цзян, Дэн, Уоррен и Сатоши) набрали идеальные 42 балла, решив все задачи . Ведущий Уэс Рот иронично замечает: «Мы всё еще в игре, человечество пока не списано в утиль» .
- Формат: В отличие от прошлых лет, в 2025 году модели использовали «чистый» LLM-подход. Им не требовался перевод условий на формальные языки программирования (вроде Lean); нейросети читали и решали задачи на естественном языке, как это делают люди .
⚔️ Скандал вокруг анонса: OpenAI против этики IMO? 1:21
Ситуация вокруг объявления результатов OpenAI вызвала волну критики в индустрии. Появились слухи, что оргкомитет IMO просил технологические компании подождать неделю после церемонии закрытия, чтобы не отвлекать внимание от достижений детей-участников . OpenAI, однако, опубликовала новость раньше.
Позиции сторон:
- Аргументы критиков: OpenAI якобы проигнорировала просьбу организаторов ради «хайпа» и возможности перехватить информационную повестку у Google.
- Позиция OpenAI: Ноам Браун, авторитетный исследователь компании, решительно отверг обвинения. Он утверждает, что пост был опубликован уже после завершения прямой трансляции церемонии закрытия . По его словам, OpenAI вообще не вела официальных переговоров с IMO, а Браун лишь лично предупредил одного из организаторов перед публикацией .
- Позиция Google DeepMind: Демис Хассабис, глава DeepMind, пояснил, что его компания не делала анонсов в пятницу именно из уважения к просьбе совета IMO дождаться верификации результатов экспертами и официального награждения студентов .
Сам Уэс Рот признает, что ситуация неоднозначная: оба спикера (Браун и Хассабис) пользуются огромным уважением, и это может быть как «проделкой» отдела маркетинга OpenAI, так и простым недопониманием .
🧠 Технологический стек: DeepThink и параллельные миры 4:15
Модель Gemini с приставкой «DeepThink» не является просто стандартным чат-ботом. Это специализированная версия, прошедшая дополнительное обучение.
Ключевые технические особенности Gemini DeepThink:
- Reinforcement Learning (RL): Модель обучали с использованием новых методов обучения с подкреплением, ориентированных на многошаговые рассуждения и доказательство теорем .
- Подсказки и база знаний: Google предоставила модели доступ к курируемому корпусу высококачественных математических решений и добавила общие советы по подходу к олимпиадным задачам в системные инструкции .
- Параллельное мышление: В отличие от линейной цепочки мыслей, Gemini DeepThink способна одновременно исследовать несколько возможных путей решения задачи и объединять их для финального ответа .
Уэс Рот отмечает, что Google обещает сделать эту модель доступной для подписчиков плана Google AI Ultra после завершения тестирования «красными командами» (red teamers) .
🏋️ «Тренажерный зал» для ИИ: новая парадигма AGI 11:34
Одной из самых глубоких идей видео является мысль исследователя Вула Брауна, которую поддерживает и автор канала: «Настоящим AGI является не конкретная модель (чекпоинт), а RL-система внутри компании, которая её создает» .
Андрей Карпати предложил аналогию «спортивного зала» или «буткемпа» для нейросетей . Процесс выглядит так:
- Пре-тренинг: Модель поглощает интернет, приобретая общие знания.
- RL-тренировка: Модель отправляется в «зал» (Reinforcement Learning Gym), где на огромных вычислительных мощностях учится решать специфические задачи — математику или код .
Этот подход подтверждается примером Илона Маска, который использовал суперкомпьютер Colossus для обучения Grok 3. По данным Рота, Маск задействовал в 10 раз больше мощностей для обучения с подкреплением (RL), чем в предыдущей версии . По мнению Рота, это позволило превратить «среднюю» модель в одну из лучших на рынке .
📉 Уроки AlphaZero и синтетические данные 12:49
Будущее ИИ, по мнению многих экспертов, заключается в отказе от человеческих данных. Это так называемый «урок AlphaZero» — алгоритма, который научился играть в шахматы и го лучше людей, играя сам с собой, а не изучая человеческие партии .
Путь к прогрессу включает:
- Генерацию синтетических данных и теорем .
- Самостоятельную проверку (self-verification) .
- Создание ИИ обучающих программ для самого себя.
Интересно, что эксперты недооценили скорость прогресса. Рынки ставок оценивали вероятность победы ИИ на IMO в этом году всего в 10-15% . Даже Элиезер Юдковский прогнозировал лишь 16% шансов на «золото» к 2025 году . ИИ в очередной раз опередил самые смелые прогнозы скептиков и оптимистов.