# Модель o3 от OpenAI побила человеческий рекорд в тесте ARC-AGI: Наступила ли эра AGI?

Источник: https://www.youtube.com/watch?v=T7Kx1jLspfc
Канал: Wes Roth
Опубликовано: 21.12.2024

---

20 декабря 2024 года может войти в историю как день, когда границы между человеческим и искусственным интеллектом окончательно размылись. Компания OpenAI представила результаты своей новой модели o3, которая не просто улучшила показатели предшественников, а буквально сокрушила считавшийся «непроходимым» для нейросетей тест ARC-AGI. Ведущий канала Wes Roth анализирует, можно ли считать этот прорыв официальным моментом достижения сильного искусственного интеллекта (AGI) и какую цену человечеству придется заплатить за «мыслительные процессы» машин.

## 🚀 Прорыв o3: Конец человеческого доминирования в тестах
[[JUMP:0:00]]

На прямой трансляции 20 декабря 2024 года OpenAI представила модель o3, результаты которой заставили индустрию пересмотреть сами критерии оценки интеллекта [0:12]. До этого момента считалось, что если модель преодолеет порог в 85% в тесте ARC-AGI (уровень человеческих способностей), это будет означать достижение AGI [0:25]. Модель o3 показала ошеломляющие результаты:

*   В соревновательном программировании на платформе Codeforces она набрала 2727 баллов [0:39]. Для сравнения: главный научный сотрудник OpenAI Якуб Пахоки набирает в аналогичных тестах меньше.
*   В математическом тесте AIME 2024 результат составил 96,7% [0:52].
*   В тесте на знание наук уровня PhD (GPQA Diamond) средний эксперт в своей области набирает около 70%, в то время как o3 получила 87,7% [1:06].

По мнению Уэса Рота, большинство существующих бенчмарков, которые сравнивали ИИ с человеческими способностями, теперь «насыщены» или достигли своего предела [1:19]. Президент Arc Foundation Грег Камрадт утверждает, что нам всем необходимо обновить свою интуицию относительно того, что такое ИИ и на что он способен, поскольку технологический барьер был сломлен [1:31].

## 🧠 Новая парадигма: Интеллект через время на раздумья
[[JUMP:2:50]]

Ключевым отличием новых моделей OpenAI (семейства o1 и o3) является использование агрессивных вычислений во время вывода (test-time compute) [2:50]. Вместо того чтобы просто вливать ресурсы в стадию обучения, исследователи дают модели больше времени на «размышления» перед выдачей ответа [3:03]. 

У моделей o-серии есть своего рода «внутренний монолог» или цепочка рассуждений (Chain of Thought), которую исследователи OpenAI могут отслеживать [3:15]. Уэс Рот объясняет это так: каждый «токен мысли» стоит денег, и точность ответа теперь напрямую коррелирует с объемом затраченных вычислительных мощностей.

В рамках официального теста ARC-AGI действуют строгие правила: решение не должно использовать ресурсы стоимостью более 10 000 долларов [4:08]. В этих рамках o3 заняла первое место среди всех ИИ-моделей в истории с результатом 76% [3:41]. Однако при использовании неограниченных ресурсов и времени на раздумья модель показала еще более впечатляющий результат, который OpenAI предпочла официально не публиковать во всех деталях, чтобы избежать обвинений в «грубой силе» [4:45].

## 💰 Цена «гениальности»: Сколько стоит один тест?
[[JUMP:5:37]]

Важным аспектом оценки ИИ становится не только точность, но и эффективность. OpenAI вводит метрику «бюджета логического вывода» (inference budget) [6:04]. 

Сравнение двух режимов работы o3 в тесте ARC-AGI:

1.  **Высокая эффективность (High efficiency):** результат 75,7%, использовано 33 миллиона токенов, время на одну задачу — чуть более минуты [6:28].
2.  **Высокая вычислительная мощность (High compute):** результат 87,5%, использовано 5,7 миллиарда токенов, время на одну задачу — 13,8 минут [6:42].

Уэс Рот провел расчеты (используя ChatGPT в режиме «Бората» для забавы), чтобы выяснить розничную стоимость прогона теста в режиме высокой мощности [7:21]. По его оценкам, получение результата 87,5% стоило примерно 347 000 долларов в эквиваленте вычислительных ресурсов [7:35]. Это подчеркивает, что хотя модель и превзошла человеческий порог в 85%, она сделала это ценой огромных затрат, которые на порядки превышают человеческие энергозатраты.

## 🧐 Мнение создателя теста: Спор о природе AGI
[[JUMP:8:02]]

Франсуа Шолле, создатель бенчмарка ARC-AGI и бывший сотрудник Google, считает результаты o3 значительным прорывом в способности ИИ адаптироваться к новым задачам [9:23]. Его тест был специально разработан так, чтобы его нельзя было пройти за счет простой зубрежки или огромного набора данных — он требует истинного логического вывода для решения задач, которые ИИ никогда раньше не видел [10:43].

Тем не менее Шолле сохраняет определенный скептицизм:

*   Он не считает, что o3 — это уже полноценный AGI [12:26].
*   По словам Шолле, существуют «очень простые» задачи в ARC-AGI 1, которые o3 все еще не может решить [12:40].
*   Он утверждает, что AGI будет достигнут только тогда, когда станет невозможно создавать тесты, которые легки для человека, но невыполнимы для машины без специальных знаний [12:53].

Шолле называет текущую ситуацию «новой территорией», требующей серьезного научного внимания [11:48].

## 📉 Разрушение мифа о «тупике» в развитии ИИ
[[JUMP:13:06]]

В последнее время многие СМИ сообщали о том, что прогресс в области ИИ замедлился и разработчики «уперлись в стену» из-за нехватки данных для обучения [13:31]. Однако результаты o3 говорят об обратном. Исследователь OpenAI Джейсон отмечает, что путь от o1 до o3 занял всего 3 месяца [13:06].

Это свидетельствует о переходе к новой парадигме:

*   Вместо выпуска новой модели раз в 1–2 года (как в эпоху предварительного обучения), прогресс ускоряется за счет обучения с подкреплением (Reinforcement Learning) на цепочках рассуждений [13:19].
*   Исследователь OpenAI Ноам Браун полагает, что эта траектория роста будет продолжаться, и не советует ставить против дальнейшего прогресса [14:21].

## 🛠️ Практическое применение и «быстрота соображения»
[[JUMP:15:03]]

Уэс Рот делится личной историей, чтобы проиллюстрировать текущий уровень ИИ. Во время обеда со знакомыми, планировавшими стартап в сфере биотехнологий, он ввел описание их навыков и ограничений в ChatGPT [15:15]. Группа состояла из эксперта по FDA, инженера топ-уровня и других специалистов. Ответ нейросети с идеей продукта буквально «поразил» участников обсуждения своей точностью и актуальностью — это было то решение, до которого они сами не могли додуматься долгое время [15:41].

По мнению Рота, ИИ становится «быстрее на подъем», чем значительная часть населения [16:34]. Он не утверждает, что ИИ однозначно умнее каждого человека, но он определенно лучше справляется со сложными когнитивными задачами, чем средний обыватель [16:47].

Сэм Альтман, генеральный директор OpenAI, полагает, что достижение AGI не будет разовым порогом, а станет постепенным процессом [14:36]. В то же время он предупреждает о странности будущего, где за «чуть большую производительность» придется платить «экспоненциально больше денег» [17:01].