Уэс Рот об AlphaProof: как ИИ научился решать задачи уровня лучших математиков мира

Google DeepMind совершила значительный прорыв в области искусственного интеллекта, представив гибридную систему, способную решать задачи Международной математической олимпиады (IMO) на уровне серебряного медалиста. Ведущий канала Уэс Рот анализирует, как модели AlphaProof и AlphaGeometry 2 справляются с задачами, которые раньше считались непосильными для ИИ, и что это означает для будущего науки.

🧠 Математический триумф: один шаг до золота 0:00

В индустрии ИИ наступил момент, который многие эксперты считали отдаленным будущим. Исследовательская лаборатория Google DeepMind представила систему, которая набрала 28 баллов из 42 возможных на задачах IMO 2024 года . Этот результат соответствует уровню серебряного медалиста, при этом системе не хватило всего одного балла до золотой медали .

Особенности участия ИИ в олимпиаде:

Система решала шесть сложнейших задач, предоставленных организаторами IMO.
Решения оценивались по официальным правилам начисления баллов .
Одну из задач система решила за считанные минуты, в то время как на другие у неё ушло до трёх дней .
Для сравнения: порог золотой медали в этом году начинался с 29 баллов .

Уэс Рот отмечает, что решение математических задач долгое время считалось «святым граалем» ИИ, так как математика лежит в основе структуры Вселенной и требует продвинутого логического мышления .

🛠 Механика AlphaProof и роль языка Lean 0:26

Успех стал возможен благодаря комбинации двух систем: совершенно новой AlphaProof и улучшенной AlphaGeometry 2. AlphaProof представляет собой систему для формально-логических рассуждений, которая обучается самостоятельно .

Ключевые технические аспекты AlphaProof:

Язык Lean: Модель обучается доказывать математические утверждения на формальном языке программирования Lean . Это позволяет автоматически и безошибочно проверять правильность доказательств.
Перевод с естественного языка: Поскольку задачи IMO пишутся на обычном языке (английском), Google DeepMind использовала тонко настроенную модель Gemini для перевода условий задач в формальный код Lean .
Reinforcement Learning (RL): В основе системы лежит алгоритм AlphaZero, который ранее научился мастерски играть в шахматы и го. AlphaProof применяет метод «самообучения» (self-play) для поиска доказательств .

По словам Рота, использование кода вместо классических формул делает математику более структурированной для ИИ, что позволяет обходить ограничения обычных больших языковых моделей (LLM), которые часто «галлюцинируют» при попытке решить простые примеры .

👾 «Инопланетные» решения и неявные конструкции 3:42

Одной из самых интригующих деталей стал отзыв профессора сэра Тимоти Гауэрса, лауреата Филдсовской премии. Он отметил, что ИИ смог создать «неочевидную конструкцию», которая выходит далеко за рамки того, что считалось современным уровнем технологий .

Уэс Рот проводит аналогию с историческими моментами развития ИИ:

Ход №37 в AlphaGo: Во время игры с Ли Седолем ИИ сделал ход, который эксперты сначала посчитали ошибкой, но который в итоге оказался гениальным и привел к победе .
Робототехника Nvidia: При обучении роботов кручению ручки в пальцах, ИИ находил инновационные методы движения, которые не были свойственны человеку .

Рот подчеркивает, что по мере усложнения задач решения ИИ становятся все более «чуждыми» (alien) человеческому разуму. ИИ не просто копирует человеческие методы, он находит новые, более эффективные пути, которые мы не можем предсказать .

📈 Синтетические данные и самосовершенствование 11:22

Важным трендом, который подтверждает этот прорыв, является использование ИИ для обучения ИИ. AlphaProof обучалась на миллионах задач, созданных синтетически .

Процесс обучения выглядел следующим образом:

Сеть Gemini перевела около 1 миллиона неформальных математических задач в формальный язык .
Затем система искала доказательства или опровержения, постепенно переходя к более сложным темам.
AlphaGeometry 2 была обучена на объеме данных, который на порядок (в 10 раз) превышает объем данных ее предшественницы .

Ведущий упоминает, что аналогичный подход использует Марк Цукерберг в Llama 3.1, называя её «моделью-учителем», способной генерировать данные для обучения более специализированных и эффективных моделей .

🌍 Контекст рынка и конкуренция с OpenAI 0:38

Выпуск AlphaProof совпал с другими важными новостями в индустрии. OpenAI анонсировала SearchGPT — поисковую систему на базе ИИ, что вызвало временное падение акций Alphabet . Также Рот упоминает слухи о проекте «Strawberry» (ранее известном как Q*) от OpenAI, который, по сообщениям инсайдеров, также нацелен на прорывы в области математического мышления .

Инсайдер Jimmy Apples еще в июле 2024 года намекал на то, что математические бенчмарки будут «разгромлены» до конца года одной из лабораторий . Уэс Рот предполагает, что эти слухи могли относиться именно к сегодняшнему релизу Google DeepMind.

В завершение Рот задается вопросом: если ИИ уже вплотную приблизился к золотой медали IMO, куда скептики будут «двигать ворота» (moving goalposts) в следующий раз? . Он считает работу Демиса Хассабиса и его команды революционной, так как способность ИИ к самосовершенствованию через решение математических задач открывает путь к научным открытиям в биологии (как AlphaFold) и разработке новых лекарств .