Миллион за интеллект: почему OpenAI и DeepSeek пасуют перед тестом ARC-AGI 2

Бенчмарк ARC-AGI, созданный Франсуа Шолле, возвращается с обновлённым призовым фондом в 1 000 000 долларов и новыми правилами, которые делают невозможным прохождение теста за счёт «грубой силы» вычислительных мощностей. Ведущий канала Wes Roth анализирует текущее состояние лидерборда, где лучшие модели OpenAI и DeepSeek показывают результаты ниже 5%, в то время как обычные люди с легкостью решают те же задачи.

🧠 ARC-AGI 2: Новый рубеж для искусственного интеллекта 0:00

Тест ARC-AGI (Abstraction and Reasoning Corpus) возвращается в 2025 году с обновлённым набором задач, которые призваны выявить «недостающее звено» в современном ИИ — способность к эффективному приобретению новых навыков . В отличие от традиционных бенчмарков, ARC-AGI 2 защищён от простого запоминания данных или распознавания паттернов. По словам Уэса Рота, это «ненасыщенный фронтир», где даже самые продвинутые системы рассуждений показывают крайне низкие результаты .

Основные принципы нового бенчмарка:

Символическая интерпретация: способность понимать, что фигуры на сетке могут означать нечто большее, чем просто набор пикселей .
Композиционное рассуждение: умение применять несколько правил одновременно или понимать, как они взаимодействуют друг с другом .
Контекстуальное применение правил: изменение логики действий в зависимости от контекста задачи .

💰 Миллион долларов за «настоящий» интеллект 7:58

Организаторы ARC Prize изменили структуру вознаграждений, чтобы стимулировать не просто погоню за процентами, а качественные прорывы в архитектуре ИИ. Общий призовой фонд распределяется следующим образом :

Гранд-приз ($700,000): достанется тому, кто сможет достичь 85% точности при соблюдении жестких ограничений по стоимости вычислений.
За концептуальный прорыв ($75,000): премия за наиболее значимый теоретический вклад в решение проблемы.
За лучший результат ($50,000): награда за первое место в текущем рейтинге.

Уэс Рот отмечает, что все решения участников должны быть открытыми (Open Source), чтобы сообщество могло учиться на этих инновациях .

📉 Эффективность против «грубой силы» 0:27

Важнейшим нововведением ARC-AGI 2 стало введение метрики эффективности. Ранее модели могли улучшать свои показатели, просто увеличивая количество вычислений во время работы (test-time compute) . Например, модель o3-low от OpenAI тратит около $200 на одну задачу, но всё равно набирает менее 5% .

Новые правила устанавливают жесткий порог:

Для получения гранд-приза модель должна тратить не более 42 центов на задачу .
Бенчмарк теперь устойчив к масштабированию только за счёт денег — просто «завалить» задачу вычислительными ресурсами больше не получится .
Уэс Рот задается вопросом, насколько справедливо ограничивать время на «раздумья» ИИ, но признаёт, что это стимулирует поиск более эффективных алгоритмов .

🧩 Человек против ИИ: практический эксперимент 2:24

Чтобы доказать доступность задач для человеческого разума, Уэс Рот в прямом эфире решает несколько головоломок из набора ARC-AGI 2. Он демонстрирует решение ежедневного пазла, который требует понимания смещения объектов на сетке 13x14 . Несмотря на небольшую ошибку в начале (неверное направление сдвига), Рот быстро корректирует свою логику и успешно проходит тест .

Факты о человеческих результатах:

Каждая задача в ARC-AGI 2 была решена как минимум двумя людьми из контрольной группы .
В тестировании участвовало 400 человек .
На текущем лидерборде панель людей-тестировщиков имеет результат 100% .

Рот подчеркивает, что задачи не требуют огромной вычислительной мощности, а лишь внимательности к правилам и паттернам .

🏆 Лидерборд и перспективы 8:35

Текущая ситуация на лидерборде ARC-AGI 2 демонстрирует огромный разрыв между человеческими способностями и возможностями ИИ:

Люди: 100% точность .
OpenAI o3-low (Chain of Thought): ~4% при стоимости $200 за задачу .
DeepSeek R1: 1.3% при крайне низкой стоимости всего в 8 центов за задачу .
Архитектуры-победители 2024 года: показывают результат около 2.5%, вписываясь в бюджет по стоимости .

Существуют слухи о новой модели DeepSeek (условно называемой R2), которая якобы показывает выдающиеся результаты в ARC-AGI, но Уэс Рот подчеркивает, что пока это не подтверждено фактами .

🎲 Прогнозы и альтернативные подходы 10:06

Рынки предсказаний (например, Manifold Markets) скептически оценивают шансы на скорое взятие гранд-приза. Вероятность того, что кто-то заберет главный приз до конца 2025 года, оценивается всего в 27% . Шанс на достижение 70% точности в течение трех месяцев после релиза — около 8% .

Однако появляются новые научные подходы. Уэс Рот упоминает работу Исаака Ляо (Isaac Leo), PhD в области машинного обучения из MIT. Ляо представил метод решения ARC-AGI без предварительного обучения (pre-training) . Используя только градиентный спуск во время вывода (inference time gradient descent) непосредственно на самой задаче, его подход позволил решить 20% оценочного набора . По мнению Рота, именно такие инновации в методах рассуждения, а не простое масштабирование данных, являются целью конкурса .