ARC Prize 2025: Новый вызов для искусственного интеллекта 0:00
Создатели ARC Prize Франсуа Шолле и Майк Кнуп объявили о выходе ARC-AGI 2 — обновленной версии бенчмарка, предназначенного для проверки уровня «жидкого интеллекта» (fluid intelligence) у современных ИИ-систем. В отличие от первой версии, которая была ориентирована на тестирование возможностей глубокого обучения (deep learning) на основе предварительного обучения (pre-training), версия 2 сфокусирована на проверке навыков адаптации к новизне, присущих новым системам ИИ-рассуждений (reasoning systems).
По словам Шолле, ARC-AGI 2 представляет собой практически единственный на сегодняшний день «ненасыщенный» (unsaturated) бенчмарк, который остается сложным для передовых моделей и одновременно доступным для решения обычными людьми. Сооснователи проекта подчеркивают, что главная цель ARC Prize — сократить разрыв между человеческими способностями и возможностями компьютеров, стремясь к созданию настоящего искусственного общего интеллекта (AGI).
🛠 Философия бенчмарка: почему важны человеческие пробелы 6:43
Майк Кнуп объясняет, что ARC Prize был запущен для того, чтобы привлечь внимание к фундаментальной проблеме: современные бенчмарки в большинстве своем нацелены на проверку сверхчеловеческих навыков — так называемых «PhD+» способностей, требующих узкоспециализированного образования и огромного опыта. Однако ARC выбирает иной путь.
- Фокус на простоте: Задачи в ARC-AGI 2 специально подобраны так, чтобы они были интуитивно понятны и легки для человека.
- Датчик интеллекта: Если задача проста для человека, но трудна для ИИ, это обнажает фундаментальный разрыв в способности системы к абстрактному мышлению.
- Эффективность как мерило: Интеллект — это не только достижение результата, но и эффективность (энергозатраты, количество операций), с которой этот результат достигается.
Шолле добавляет, что целью является создание систем, способных не просто «отражать» накопленные человечеством знания, а производить новые технологии и научные открытия, сжимая временные рамки исследований.
📉 Уроки первой версии и технические новшества ARC-AGI 2 11:29
При создании второй версии авторы учли недостатки предшественника. Оказалось, что многие задачи ARC-AGI 1 были уязвимы для метода «грубой силы» (Brute Force search) — перебора программ, который, по мнению Шолле, не имеет отношения к настоящему интеллекту.
Основные изменения в V2:
- Калибровка людьми: Было протестировано около 400 человек. Каждая задача в новом датасете решается как минимум двумя людьми, что подтверждает её доступность для человека.
- Защита от перебора: Задачи стали более композиционными. Теперь они требуют цепочки взаимодействующих правил, а не выполнения одного действия (например, переворота объекта).
- Изменение сложности: V2 сложнее для ИИ, но лучше сбалансирована для сравнения с людьми, избегая быстрого насыщения (когда модель просто угадывает ответ).
🤖 Феномен O3 и будущее «жидкого интеллекта» 12:45
Обсуждая недавние результаты модели O3 от OpenAI, Шолле отмечает, что её способность адаптироваться к новизне на ARC-AGI 1 стала «сюрпризом, возникшим из ниоткуда». Он квалифицирует такие системы как «прото-AGI».
Ключевые выводы по текущим моделям:
- Разрыв в подходе: Модели, которые просто используют авторегрессивное предсказание, практически бесполезны на ARC.
- Search vs Auto-regression: Современные модели типа O1 и O3 используют своего рода «тестовый поиск» (test-time search), что позволяет им рекомбинировать знания на лету.
- Цена интеллекта: Эти процессы требуют гораздо больше времени (до 10 минут на запрос) и вычислительных ресурсов, что само по себе подтверждает использование «активного поиска», а не простого перебора.
Шолле подчеркивает, что 4%, которые модель O3 демонстрирует на ARC-AGI 2, — это не просто число, а «доказательство существования» (existence proof) некоего уровня жидкого интеллекта, которого раньше не было в истории компьютерных наук.
🔭 Взгляд в будущее: к ARC-AGI 3 22:30
Работа над ARC-AGI 3 уже ведется. По словам разработчиков, третья версия будет нацелена на проверку систем AGI, которые еще даже не существуют в текущем мире. Кнуп призывает всё сообщество участвовать в конкурсе ARC Prize 2025: поскольку мы находимся в мире, ограниченном «дефицитом идей», любой исследователь, даже работающий в одиночку, может внести значимый вклад в развитие AGI.