# OpenAI o3 и «рваный фронтир»: почему мы не можем договориться о достижении AGI

Источник: https://www.youtube.com/watch?v=Rh1ejzNyCso
Канал: Wes Roth
Опубликовано: 24.12.2024

---

В мире технологий продолжаются бурные дискуссии вокруг новой модели o3 от OpenAI и того, приблизились ли мы вплотную к созданию сильного искусственного интеллекта (AGI). Популярный ИИ-аналитик Уэс Рот в своём новом видео разбирает концепцию «рваного фронтира» (Jagged Frontier), объясняет, почему провалы нейросетей в простых задачах не означают их слабость, и анализирует последние достижения в области математического мышления машин.

## 🌌 От созвездия Ориона к модели o3
[[JUMP:00:00]]

В сообществе любителей ИИ долгое время обсуждали загадочные намёки Сэма Альтмана на модель под кодовым названием Orion [0:14]. Альтман публиковал сообщения о своей любви к зимним созвездиям, что многие интерпретировали как анонс новой мощной модели этой зимой. Технически выпуск o3 состоялся именно в этот период, однако, как отмечает Уэс Рот, o3 и Orion — это не одно и то же [0:39].

Вопрос о том, является ли o3 полноценным AGI, вызывает ожесточённые споры:

*   По мнению Адама Д’Анджело (основатель Quora и член совета директоров OpenAI), рынок до сих пор не заложил в цены грядущее появление AGI, хотя результаты o3 уже публичны [1:57].
*   Илон Маск, комментируя это мнение, утверждает, что ИИ в конечном итоге сделает деньги бессмысленными, хотя он по-прежнему настроен скептически к руководству OpenAI [2:11].
*   Сам Уэс Рот провел опрос среди своей аудитории, пытаясь выяснить, считается ли ИИ сегодня «умнее среднего человека» в обычных офисных задачах: планировании, письме и базовом решении проблем [1:19].

## 🧩 Тест Arc-AGI: мерило истинного интеллекта
[[JUMP:02:37]]

Одним из самых авторитетных критиков текущего прогресса является Франсуа Шолле, создатель бенчмарка Arc-AGI [2:25]. Его тест направлен на то, чтобы отличить простую тренированность (запоминание данных) от способности к обобщению (generalization) — того самого компонента «G» в аббревиатуре AGI [3:04].

Основные тезисы Шолле и его сторонников:

1.  У нас уже есть «узкий» сверхинтеллект, способный побеждать людей в шахматы или го, но нам не хватает универсальности [3:16].
2.  Шолле утверждает, что o3 — это огромная веха, но всё же не AGI [4:44].
3.  По мнению Шолле, необходимо постоянно усложнять тесты, создавая Arc-AGI 2.0, 3.0 и так далее, чтобы отслеживать реальный прогресс [5:37].

Уэс Рот считает, что отсутствие единого определения AGI мешает консенсусу: пока один человек видит в o3 прорыв, другой указывает на неспособность модели решить визуальную головоломку и отрицает её интеллект [4:56].

## 📉 Концепция «рваного фронтира» ИИ
[[JUMP:06:17]]

Ключевая идея выпуска, заимствованная у профессора Итана Моллика, заключается в существовании «рваного фронтира» (Jagged Frontier) возможностей ИИ [6:17]. В отличие от человека, чьи навыки обычно развиваются равномерно (если вы понимаете высшую математику, вы наверняка умеете завязывать шнурки), способности ИИ крайне диспропорциональны.

Уэс Рот наглядно описывает эту аномалию:

*   **Человеческая кривая:** задачи одинаковой сложности даются нам примерно одинаково. Мы ожидаем от выпускника вуза определённого уровня во всех базовых сферах [7:08].
*   **Кривая ИИ:** модель может написать сложнейший код для симуляции чёрных дыр за минуты, но при этом запнуться на вопросе «сколько букв 'r' в слове strawberry» [8:01].

По мнению Рота, критики часто используют эти «рваные края» (ошибки в простых вещах), чтобы объявить ИИ бесполезным или «тупым» [11:47]. Однако автор ставит перед зрителями философский вопрос: «Если ИИ вылечит все формы рака, но не сможет написать слово „рак“ задом наперёд, будем ли мы называть его умным или глупым?» [14:03].

## 🧱 Стена масштабирования или новый путь?
[[JUMP:15:34]]

В последнее время в таких изданиях, как Wall Street Journal, появились статьи о том, что масштабирование ИИ «уперлось в стену» из-за нехватки данных и огромных затрат [16:14]. Уэс Рот и Итан Моллик не согласны с этим утверждением, указывая на смену парадигмы [15:46].

Новый подход называется «вычисления во время логического вывода» (test-time compute) [16:52]:

*   **Суть:** вместо того чтобы просто увеличивать базу данных для обучения, модели дают больше времени и вычислительных ресурсов на «обдумывание» конкретного ответа.
*   **Цепочка мыслей (Chain of Thought):** модель прописывает шаги решения в скрытом черновике перед выдачей окончательного ответа [17:17].
*   **Результат o3:** модель достигла 88% точности в Arc-AGI, но для этого ей потребовалось использовать 5,7 миллиарда токенов [18:10].
*   **Стоимость:** такой запуск для обычного пользователя стоил бы около $300 000 в розничных ценах за одно решение [18:24].

Джейсон Вэй, исследователь из OpenAI, подчеркивает, что прогресс от o1 до o3 занял всего три месяца [16:26]. Это доказывает, что новая парадигма обучения с подкреплением (reinforcement learning) позволяет ИИ развиваться гораздо быстрее, чем старая модель выпуска обновлений раз в 1–2 года [16:38].

## 🧮 Прорыв в высшей математике: Frontier Math
[[JUMP:20:54]]

Для тестирования o3 был использован новый сверхсложный бенчмарк Frontier Math [20:54]. Эти задачи настолько трудны, что ведущие математики, включая лауреата Филдсовской премии Теренса Тао, считали, что ИИ не сможет их решить еще несколько лет [21:33].

Поразительные цифры из транскрипта:

*   Предыдущие лучшие модели (Claude 3.5 Sonnet, Gemini 1.5 Pro) имели точность менее 2% на этом тесте [22:39].
*   Модель o3 сразу показала результат в 25,2% [22:53].
*   На тесте AIME (математический уровень для одаренных школьников) o3 набрала 96,7%, практически достигнув максимума [23:08].

Несмотря на эти успехи, o3 всё еще не может решить некоторые визуальные задачи из Arc-AGI [23:47]. Уэс Рот объясняет это тем, что ИИ «видит» задачу не как картинку, а как матрицу чисел в формате JSON, что усложняет пространственное восприятие [25:55]. Тем не менее, он призывает не обесценивать прогресс из-за точечных неудач и признать, что масштабирование не остановилось, а просто нашло новый вектор развития [27:15].