OpenAI o3 и «рваный фронтир»: почему мы не можем договориться о достижении AGI

В мире технологий продолжаются бурные дискуссии вокруг новой модели o3 от OpenAI и того, приблизились ли мы вплотную к созданию сильного искусственного интеллекта (AGI). Популярный ИИ-аналитик Уэс Рот в своём новом видео разбирает концепцию «рваного фронтира» (Jagged Frontier), объясняет, почему провалы нейросетей в простых задачах не означают их слабость, и анализирует последние достижения в области математического мышления машин.

🌌 От созвездия Ориона к модели o3 0:00

В сообществе любителей ИИ долгое время обсуждали загадочные намёки Сэма Альтмана на модель под кодовым названием Orion . Альтман публиковал сообщения о своей любви к зимним созвездиям, что многие интерпретировали как анонс новой мощной модели этой зимой. Технически выпуск o3 состоялся именно в этот период, однако, как отмечает Уэс Рот, o3 и Orion — это не одно и то же .

Вопрос о том, является ли o3 полноценным AGI, вызывает ожесточённые споры:

По мнению Адама Д’Анджело (основатель Quora и член совета директоров OpenAI), рынок до сих пор не заложил в цены грядущее появление AGI, хотя результаты o3 уже публичны .
Илон Маск, комментируя это мнение, утверждает, что ИИ в конечном итоге сделает деньги бессмысленными, хотя он по-прежнему настроен скептически к руководству OpenAI .
Сам Уэс Рот провел опрос среди своей аудитории, пытаясь выяснить, считается ли ИИ сегодня «умнее среднего человека» в обычных офисных задачах: планировании, письме и базовом решении проблем .

🧩 Тест Arc-AGI: мерило истинного интеллекта 2:37

Одним из самых авторитетных критиков текущего прогресса является Франсуа Шолле, создатель бенчмарка Arc-AGI . Его тест направлен на то, чтобы отличить простую тренированность (запоминание данных) от способности к обобщению (generalization) — того самого компонента «G» в аббревиатуре AGI .

Основные тезисы Шолле и его сторонников:

У нас уже есть «узкий» сверхинтеллект, способный побеждать людей в шахматы или го, но нам не хватает универсальности .
Шолле утверждает, что o3 — это огромная веха, но всё же не AGI .
По мнению Шолле, необходимо постоянно усложнять тесты, создавая Arc-AGI 2.0, 3.0 и так далее, чтобы отслеживать реальный прогресс .

Уэс Рот считает, что отсутствие единого определения AGI мешает консенсусу: пока один человек видит в o3 прорыв, другой указывает на неспособность модели решить визуальную головоломку и отрицает её интеллект .

📉 Концепция «рваного фронтира» ИИ 6:17

Ключевая идея выпуска, заимствованная у профессора Итана Моллика, заключается в существовании «рваного фронтира» (Jagged Frontier) возможностей ИИ . В отличие от человека, чьи навыки обычно развиваются равномерно (если вы понимаете высшую математику, вы наверняка умеете завязывать шнурки), способности ИИ крайне диспропорциональны.

Уэс Рот наглядно описывает эту аномалию:

Человеческая кривая: задачи одинаковой сложности даются нам примерно одинаково. Мы ожидаем от выпускника вуза определённого уровня во всех базовых сферах .
Кривая ИИ: модель может написать сложнейший код для симуляции чёрных дыр за минуты, но при этом запнуться на вопросе «сколько букв 'r' в слове strawberry» .

По мнению Рота, критики часто используют эти «рваные края» (ошибки в простых вещах), чтобы объявить ИИ бесполезным или «тупым» . Однако автор ставит перед зрителями философский вопрос: «Если ИИ вылечит все формы рака, но не сможет написать слово „рак“ задом наперёд, будем ли мы называть его умным или глупым?» .

🧱 Стена масштабирования или новый путь? 15:34

В последнее время в таких изданиях, как Wall Street Journal, появились статьи о том, что масштабирование ИИ «уперлось в стену» из-за нехватки данных и огромных затрат . Уэс Рот и Итан Моллик не согласны с этим утверждением, указывая на смену парадигмы .

Новый подход называется «вычисления во время логического вывода» (test-time compute) :

Суть: вместо того чтобы просто увеличивать базу данных для обучения, модели дают больше времени и вычислительных ресурсов на «обдумывание» конкретного ответа.
Цепочка мыслей (Chain of Thought): модель прописывает шаги решения в скрытом черновике перед выдачей окончательного ответа .
Результат o3: модель достигла 88% точности в Arc-AGI, но для этого ей потребовалось использовать 5,7 миллиарда токенов .
Стоимость: такой запуск для обычного пользователя стоил бы около $300 000 в розничных ценах за одно решение .

Джейсон Вэй, исследователь из OpenAI, подчеркивает, что прогресс от o1 до o3 занял всего три месяца . Это доказывает, что новая парадигма обучения с подкреплением (reinforcement learning) позволяет ИИ развиваться гораздо быстрее, чем старая модель выпуска обновлений раз в 1–2 года .

🧮 Прорыв в высшей математике: Frontier Math 20:54

Для тестирования o3 был использован новый сверхсложный бенчмарк Frontier Math . Эти задачи настолько трудны, что ведущие математики, включая лауреата Филдсовской премии Теренса Тао, считали, что ИИ не сможет их решить еще несколько лет .

Поразительные цифры из транскрипта:

Предыдущие лучшие модели (Claude 3.5 Sonnet, Gemini 1.5 Pro) имели точность менее 2% на этом тесте .
Модель o3 сразу показала результат в 25,2% .
На тесте AIME (математический уровень для одаренных школьников) o3 набрала 96,7%, практически достигнув максимума .

Несмотря на эти успехи, o3 всё еще не может решить некоторые визуальные задачи из Arc-AGI . Уэс Рот объясняет это тем, что ИИ «видит» задачу не как картинку, а как матрицу чисел в формате JSON, что усложняет пространственное восприятие . Тем не менее, он призывает не обесценивать прогресс из-за точечных неудач и признать, что масштабирование не остановилось, а просто нашло новый вектор развития .