Как ИИ от OpenAI научился решать олимпиадные задачи по математике через самообучение

Yannic Kilcher 8,2 тыс. 58 мин 4 мин 06.03.2022
Главное

Янник Кильчер беседует со Стэном Полу (Stan Polu), исследователем из OpenAI и первым автором работы «Formal Mathematics Statement Curriculum Learning». В центре обсуждения — создание системы ИИ, способной решать задачи Международной математической олимпиады (IMO) через объединение языковых моделей и формальных методов верификации.

🧠 Математика как фронтир искусственного интеллекта 1:22

Математика долгое время оставалась одной из сложнейших областей для нейросетевых моделей. По словам Стэна Полу, прогресс в этом направлении вызывает ажиотаж в сообществе, так как математика воспринимается как «последний рубеж» на пути к созданию систем с полноценным логическим мышлением . Исследователь отмечает, что работа является прямым продолжением предыдущих изысканий OpenAI в области GPT-f (использование языковых моделей для поиска доказательств).

Стэн Полу поделился личной историей: он не имеет степени PhD в области машинного обучения и до прихода в OpenAI работал программным инженером в компании Stripe . Однако его глубокий интерес к формальной математике и ИИ совпал с миссией лаборатории. По его мнению, текущая система уже способна доказывать утверждения, которые были бы не под силу многим выпускникам инженерных вузов, хотя ИИ всё ещё пасует перед задачами, кажущимися людям элементарными .

💻 Что такое формальная математика и зачем она нужна 6:54

Формальная математика возникла как ответ на проблему человеческих ошибок в сложных доказательствах. Полу объясняет суть дисциплины:

Основная трудность здесь заключается в трудоемкости процесса. Полу приводит в пример работу математика Питера Шольце (Peter Scholze), чье доказательство объемом в десятки страниц заняло у группы экспертов шесть месяцев интенсивной работы по формализации в системе Lean . На сегодняшний день ИИ фокусируется не на создании новых теорий, а на решении упражнений в рамках уже существующих формальных библиотек, таких как mathlib .

🪜 Проблема самообучения и концепция «учебного плана» 13:13

В обучении ИИ для игр (как в AlphaZero) используется механизм self-play (самоигра), где агент соревнуется сам с собой, постоянно повышая сложность. В математике этот подход не работает напрямую, так как здесь нет очевидного противника.

Стэн Полу выдвигает гипотезу: ключевая роль self-play в играх заключается в создании неявного «неконтролируемого учебного плана» (unsupervised curriculum) . В математике же, если дать модели слишком сложную задачу, она просто не найдет решения, и вы не получите никаких данных для дальнейшего обучения.

Для решения этой проблемы команда OpenAI использовала следующие подходы:

  1. Ручное кураторство: Исследователи взяли учебники, по которым люди готовятся к олимпиадам, и формализовали задачи из них .
  2. Постепенное усложнение: Модель начинает с легких примеров, и по мере их решения база данных успешных доказательств пополняется, что позволяет модели обучаться на собственных результатах и переходить к более сложным задачам.
  3. Перенос распределения: Обучение на таком учебном плане смещает распределение модели от общих теорем библиотеки mathlib в сторону специфических олимпиадных задач (бенчмарк miniF2F) .

⚙️ Механика системы: тактики и бесконечное пространство действий 21:07

Процесс доказательства в системе Lean выглядит как взаимодействие человека (или ИИ) с машиной. Цель разбивается на подцели, к которым применяются «тактики» — метапрограммы, преобразующие текущее состояние доказательства .

Стэн Полу выделяет две основные технические сложности:

Интересной деталью является то, что при каждой итерации (Expert Iteration) модель обучается «с нуля», а не дообучается . По словам Полу, это делается для научного контроля над переобучением и для агрессивной дедупликации данных .

📈 Результаты и удивительные открытия масштабирования 46:58

Системе удалось успешно решить две задачи Международной математической олимпиады (IMO). Однако в ходе экспериментов авторы столкнулись с неожиданным эффектом масштабирования:

🚀 Будущее: симбиоз человека и машины 54:47

Стэн Полу считает, что формальная математика — это идеальная «лаборатория» для изучения рассуждений (reasoning). В отличие от обычных чат-ботов, здесь у ИИ нет возможности «галлюцинировать» или обманывать — любая ошибка будет мгновенно отвергнута верификатором .

Перспективы технологии по мнению гостя:

Стэн Полу заключает, что работа над формальной математикой позволяет объединить мощь языковых моделей (интуиция, генерация идей) с надежностью формальных систем (логическая строгость), создавая систему, обладающую подобием «внутреннего монолога» при решении задач .

💬 Цитаты

«Математика кажется фронтиром, который мы еще не достигли, поэтому любой прогресс в этом направлении воодушевляет сообщество.»

Стэн Полу 03:49

«Формальная математика — это лучший из миров: у вас есть языковая модель, которая умеет генерировать идеи, и формальный верификатор, который не дает ей ошибаться.»

Стэн Полу 55:41
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Lean
Интерактивный инструмент доказательства теорем и язык программирования, используемый для формализации математики.
Экспертная итерация (Expert Iteration)
Метод обучения, при котором модель генерирует решения, лучшие из которых добавляются в обучающую выборку для следующей версии модели.
Тактики (Tactics)
Команды в формальных системах доказательства, которые автоматизируют низкоуровневые логические шаги.
Библиотека mathlib
Огромное хранилище формализованных математических знаний, поддерживаемое сообществом Lean.
📊 Цифры
🗓 Хронология
  1. 2020 Стэн Полу присоединяется к OpenAI, чтобы заниматься формальной математикой.
  2. 2021 Выпуск первой версии GPT-f, показавшей возможность использования языковых моделей в доказательстве теорем.
  3. 2022 Публикация работы Formal Mathematics Statement Curriculum Learning и решение олимпиадных задач.
⚖️ Другая сторона
Искусственный интеллект OpenAI Lean Expert Iteration GPT-f формальная математика