Модель o3 от OpenAI побила человеческий рекорд в тесте ARC-AGI: Наступила ли эра AGI?

20 декабря 2024 года может войти в историю как день, когда границы между человеческим и искусственным интеллектом окончательно размылись. Компания OpenAI представила результаты своей новой модели o3, которая не просто улучшила показатели предшественников, а буквально сокрушила считавшийся «непроходимым» для нейросетей тест ARC-AGI. Ведущий канала Wes Roth анализирует, можно ли считать этот прорыв официальным моментом достижения сильного искусственного интеллекта (AGI) и какую цену человечеству придется заплатить за «мыслительные процессы» машин.

🚀 Прорыв o3: Конец человеческого доминирования в тестах 0:00

На прямой трансляции 20 декабря 2024 года OpenAI представила модель o3, результаты которой заставили индустрию пересмотреть сами критерии оценки интеллекта . До этого момента считалось, что если модель преодолеет порог в 85% в тесте ARC-AGI (уровень человеческих способностей), это будет означать достижение AGI . Модель o3 показала ошеломляющие результаты:

В соревновательном программировании на платформе Codeforces она набрала 2727 баллов . Для сравнения: главный научный сотрудник OpenAI Якуб Пахоки набирает в аналогичных тестах меньше.
В математическом тесте AIME 2024 результат составил 96,7% .
В тесте на знание наук уровня PhD (GPQA Diamond) средний эксперт в своей области набирает около 70%, в то время как o3 получила 87,7% .

По мнению Уэса Рота, большинство существующих бенчмарков, которые сравнивали ИИ с человеческими способностями, теперь «насыщены» или достигли своего предела . Президент Arc Foundation Грег Камрадт утверждает, что нам всем необходимо обновить свою интуицию относительно того, что такое ИИ и на что он способен, поскольку технологический барьер был сломлен .

🧠 Новая парадигма: Интеллект через время на раздумья 2:50

Ключевым отличием новых моделей OpenAI (семейства o1 и o3) является использование агрессивных вычислений во время вывода (test-time compute) . Вместо того чтобы просто вливать ресурсы в стадию обучения, исследователи дают модели больше времени на «размышления» перед выдачей ответа .

У моделей o-серии есть своего рода «внутренний монолог» или цепочка рассуждений (Chain of Thought), которую исследователи OpenAI могут отслеживать . Уэс Рот объясняет это так: каждый «токен мысли» стоит денег, и точность ответа теперь напрямую коррелирует с объемом затраченных вычислительных мощностей.

В рамках официального теста ARC-AGI действуют строгие правила: решение не должно использовать ресурсы стоимостью более 10 000 долларов . В этих рамках o3 заняла первое место среди всех ИИ-моделей в истории с результатом 76% . Однако при использовании неограниченных ресурсов и времени на раздумья модель показала еще более впечатляющий результат, который OpenAI предпочла официально не публиковать во всех деталях, чтобы избежать обвинений в «грубой силе» .

💰 Цена «гениальности»: Сколько стоит один тест? 5:37

Важным аспектом оценки ИИ становится не только точность, но и эффективность. OpenAI вводит метрику «бюджета логического вывода» (inference budget) .

Сравнение двух режимов работы o3 в тесте ARC-AGI:

Высокая эффективность (High efficiency): результат 75,7%, использовано 33 миллиона токенов, время на одну задачу — чуть более минуты .
Высокая вычислительная мощность (High compute): результат 87,5%, использовано 5,7 миллиарда токенов, время на одну задачу — 13,8 минут .

Уэс Рот провел расчеты (используя ChatGPT в режиме «Бората» для забавы), чтобы выяснить розничную стоимость прогона теста в режиме высокой мощности . По его оценкам, получение результата 87,5% стоило примерно 347 000 долларов в эквиваленте вычислительных ресурсов . Это подчеркивает, что хотя модель и превзошла человеческий порог в 85%, она сделала это ценой огромных затрат, которые на порядки превышают человеческие энергозатраты.

🧐 Мнение создателя теста: Спор о природе AGI 8:02

Франсуа Шолле, создатель бенчмарка ARC-AGI и бывший сотрудник Google, считает результаты o3 значительным прорывом в способности ИИ адаптироваться к новым задачам . Его тест был специально разработан так, чтобы его нельзя было пройти за счет простой зубрежки или огромного набора данных — он требует истинного логического вывода для решения задач, которые ИИ никогда раньше не видел .

Тем не менее Шолле сохраняет определенный скептицизм:

Он не считает, что o3 — это уже полноценный AGI .
По словам Шолле, существуют «очень простые» задачи в ARC-AGI 1, которые o3 все еще не может решить .
Он утверждает, что AGI будет достигнут только тогда, когда станет невозможно создавать тесты, которые легки для человека, но невыполнимы для машины без специальных знаний .

Шолле называет текущую ситуацию «новой территорией», требующей серьезного научного внимания .

📉 Разрушение мифа о «тупике» в развитии ИИ 13:06

В последнее время многие СМИ сообщали о том, что прогресс в области ИИ замедлился и разработчики «уперлись в стену» из-за нехватки данных для обучения . Однако результаты o3 говорят об обратном. Исследователь OpenAI Джейсон отмечает, что путь от o1 до o3 занял всего 3 месяца .

Это свидетельствует о переходе к новой парадигме:

Вместо выпуска новой модели раз в 1–2 года (как в эпоху предварительного обучения), прогресс ускоряется за счет обучения с подкреплением (Reinforcement Learning) на цепочках рассуждений .
Исследователь OpenAI Ноам Браун полагает, что эта траектория роста будет продолжаться, и не советует ставить против дальнейшего прогресса .

🛠️ Практическое применение и «быстрота соображения» 15:03

Уэс Рот делится личной историей, чтобы проиллюстрировать текущий уровень ИИ. Во время обеда со знакомыми, планировавшими стартап в сфере биотехнологий, он ввел описание их навыков и ограничений в ChatGPT . Группа состояла из эксперта по FDA, инженера топ-уровня и других специалистов. Ответ нейросети с идеей продукта буквально «поразил» участников обсуждения своей точностью и актуальностью — это было то решение, до которого они сами не могли додуматься долгое время .

По мнению Рота, ИИ становится «быстрее на подъем», чем значительная часть населения . Он не утверждает, что ИИ однозначно умнее каждого человека, но он определенно лучше справляется со сложными когнитивными задачами, чем средний обыватель .

Сэм Альтман, генеральный директор OpenAI, полагает, что достижение AGI не будет разовым порогом, а станет постепенным процессом . В то же время он предупреждает о странности будущего, где за «чуть большую производительность» придется платить «экспоненциально больше денег» .