Франсуа Шолле: «ARC-AGI 2 бросает вызов современным ИИ-рассуждениям»

ARC Prize 2025: Новый вызов для искусственного интеллекта 0:00

Создатели ARC Prize Франсуа Шолле и Майк Кнуп объявили о выходе ARC-AGI 2 — обновленной версии бенчмарка, предназначенного для проверки уровня «жидкого интеллекта» (fluid intelligence) у современных ИИ-систем. В отличие от первой версии, которая была ориентирована на тестирование возможностей глубокого обучения (deep learning) на основе предварительного обучения (pre-training), версия 2 сфокусирована на проверке навыков адаптации к новизне, присущих новым системам ИИ-рассуждений (reasoning systems).

По словам Шолле, ARC-AGI 2 представляет собой практически единственный на сегодняшний день «ненасыщенный» (unsaturated) бенчмарк, который остается сложным для передовых моделей и одновременно доступным для решения обычными людьми. Сооснователи проекта подчеркивают, что главная цель ARC Prize — сократить разрыв между человеческими способностями и возможностями компьютеров, стремясь к созданию настоящего искусственного общего интеллекта (AGI).

🛠 Философия бенчмарка: почему важны человеческие пробелы 6:43

Майк Кнуп объясняет, что ARC Prize был запущен для того, чтобы привлечь внимание к фундаментальной проблеме: современные бенчмарки в большинстве своем нацелены на проверку сверхчеловеческих навыков — так называемых «PhD+» способностей, требующих узкоспециализированного образования и огромного опыта. Однако ARC выбирает иной путь.

Фокус на простоте: Задачи в ARC-AGI 2 специально подобраны так, чтобы они были интуитивно понятны и легки для человека.
Датчик интеллекта: Если задача проста для человека, но трудна для ИИ, это обнажает фундаментальный разрыв в способности системы к абстрактному мышлению.
Эффективность как мерило: Интеллект — это не только достижение результата, но и эффективность (энергозатраты, количество операций), с которой этот результат достигается.

Шолле добавляет, что целью является создание систем, способных не просто «отражать» накопленные человечеством знания, а производить новые технологии и научные открытия, сжимая временные рамки исследований.

📉 Уроки первой версии и технические новшества ARC-AGI 2 11:29

При создании второй версии авторы учли недостатки предшественника. Оказалось, что многие задачи ARC-AGI 1 были уязвимы для метода «грубой силы» (Brute Force search) — перебора программ, который, по мнению Шолле, не имеет отношения к настоящему интеллекту.

Основные изменения в V2:

Калибровка людьми: Было протестировано около 400 человек. Каждая задача в новом датасете решается как минимум двумя людьми, что подтверждает её доступность для человека.
Защита от перебора: Задачи стали более композиционными. Теперь они требуют цепочки взаимодействующих правил, а не выполнения одного действия (например, переворота объекта).
Изменение сложности: V2 сложнее для ИИ, но лучше сбалансирована для сравнения с людьми, избегая быстрого насыщения (когда модель просто угадывает ответ).

🤖 Феномен O3 и будущее «жидкого интеллекта» 12:45

Обсуждая недавние результаты модели O3 от OpenAI, Шолле отмечает, что её способность адаптироваться к новизне на ARC-AGI 1 стала «сюрпризом, возникшим из ниоткуда». Он квалифицирует такие системы как «прото-AGI».

Ключевые выводы по текущим моделям:

Разрыв в подходе: Модели, которые просто используют авторегрессивное предсказание, практически бесполезны на ARC.
Search vs Auto-regression: Современные модели типа O1 и O3 используют своего рода «тестовый поиск» (test-time search), что позволяет им рекомбинировать знания на лету.
Цена интеллекта: Эти процессы требуют гораздо больше времени (до 10 минут на запрос) и вычислительных ресурсов, что само по себе подтверждает использование «активного поиска», а не простого перебора.

Шолле подчеркивает, что 4%, которые модель O3 демонстрирует на ARC-AGI 2, — это не просто число, а «доказательство существования» (existence proof) некоего уровня жидкого интеллекта, которого раньше не было в истории компьютерных наук.

🔭 Взгляд в будущее: к ARC-AGI 3 22:30

Работа над ARC-AGI 3 уже ведется. По словам разработчиков, третья версия будет нацелена на проверку систем AGI, которые еще даже не существуют в текущем мире. Кнуп призывает всё сообщество участвовать в конкурсе ARC Prize 2025: поскольку мы находимся в мире, ограниченном «дефицитом идей», любой исследователь, даже работающий в одиночку, может внести значимый вклад в развитие AGI.