# Франсуа Шолле: «ARC-AGI 2 бросает вызов современным ИИ-рассуждениям»

Источник: https://www.youtube.com/watch?v=M3b59lZYBW8
Канал: Machine Learning Street Talk
Опубликовано: 24.03.2025

---

## ARC Prize 2025: Новый вызов для искусственного интеллекта

[[JUMP:0:00]]

Создатели ARC Prize Франсуа Шолле и Майк Кнуп объявили о выходе ARC-AGI 2 — обновленной версии бенчмарка, предназначенного для проверки уровня «жидкого интеллекта» (fluid intelligence) у современных ИИ-систем. В отличие от первой версии, которая была ориентирована на тестирование возможностей глубокого обучения (deep learning) на основе предварительного обучения (pre-training), версия 2 сфокусирована на проверке навыков адаптации к новизне, присущих новым системам ИИ-рассуждений (reasoning systems).

По словам Шолле, ARC-AGI 2 представляет собой практически единственный на сегодняшний день «ненасыщенный» (unsaturated) бенчмарк, который остается сложным для передовых моделей и одновременно доступным для решения обычными людьми. Сооснователи проекта подчеркивают, что главная цель ARC Prize — сократить разрыв между человеческими способностями и возможностями компьютеров, стремясь к созданию настоящего искусственного общего интеллекта (AGI).

### 🛠 Философия бенчмарка: почему важны человеческие пробелы

[[JUMP:6:43]]

Майк Кнуп объясняет, что ARC Prize был запущен для того, чтобы привлечь внимание к фундаментальной проблеме: современные бенчмарки в большинстве своем нацелены на проверку сверхчеловеческих навыков — так называемых «PhD+» способностей, требующих узкоспециализированного образования и огромного опыта. Однако ARC выбирает иной путь.

*   **Фокус на простоте:** Задачи в ARC-AGI 2 специально подобраны так, чтобы они были интуитивно понятны и легки для человека.
*   **Датчик интеллекта:** Если задача проста для человека, но трудна для ИИ, это обнажает фундаментальный разрыв в способности системы к абстрактному мышлению.
*   **Эффективность как мерило:** Интеллект — это не только достижение результата, но и эффективность (энергозатраты, количество операций), с которой этот результат достигается.

Шолле добавляет, что целью является создание систем, способных не просто «отражать» накопленные человечеством знания, а производить новые технологии и научные открытия, сжимая временные рамки исследований.

### 📉 Уроки первой версии и технические новшества ARC-AGI 2

[[JUMP:11:29]]

При создании второй версии авторы учли недостатки предшественника. Оказалось, что многие задачи ARC-AGI 1 были уязвимы для метода «грубой силы» (Brute Force search) — перебора программ, который, по мнению Шолле, не имеет отношения к настоящему интеллекту.

Основные изменения в V2:

1.  **Калибровка людьми:** Было протестировано около 400 человек. Каждая задача в новом датасете решается как минимум двумя людьми, что подтверждает её доступность для человека.
2.  **Защита от перебора:** Задачи стали более композиционными. Теперь они требуют цепочки взаимодействующих правил, а не выполнения одного действия (например, переворота объекта).
3.  **Изменение сложности:** V2 сложнее для ИИ, но лучше сбалансирована для сравнения с людьми, избегая быстрого насыщения (когда модель просто угадывает ответ).

### 🤖 Феномен O3 и будущее «жидкого интеллекта»

[[JUMP:12:45]]

Обсуждая недавние результаты модели O3 от OpenAI, Шолле отмечает, что её способность адаптироваться к новизне на ARC-AGI 1 стала «сюрпризом, возникшим из ниоткуда». Он квалифицирует такие системы как «прото-AGI».

Ключевые выводы по текущим моделям:

*   **Разрыв в подходе:** Модели, которые просто используют авторегрессивное предсказание, практически бесполезны на ARC.
*   **Search vs Auto-regression:** Современные модели типа O1 и O3 используют своего рода «тестовый поиск» (test-time search), что позволяет им рекомбинировать знания на лету.
*   **Цена интеллекта:** Эти процессы требуют гораздо больше времени (до 10 минут на запрос) и вычислительных ресурсов, что само по себе подтверждает использование «активного поиска», а не простого перебора.

Шолле подчеркивает, что 4%, которые модель O3 демонстрирует на ARC-AGI 2, — это не просто число, а «доказательство существования» (existence proof) некоего уровня жидкого интеллекта, которого раньше не было в истории компьютерных наук.

### 🔭 Взгляд в будущее: к ARC-AGI 3

[[JUMP:22:30]]

Работа над ARC-AGI 3 уже ведется. По словам разработчиков, третья версия будет нацелена на проверку систем AGI, которые еще даже не существуют в текущем мире. Кнуп призывает всё сообщество участвовать в конкурсе ARC Prize 2025: поскольку мы находимся в мире, ограниченном «дефицитом идей», любой исследователь, даже работающий в одиночку, может внести значимый вклад в развитие AGI.