Бенчмарк ARC-AGI, созданный Франсуа Шолле, возвращается с обновлённым призовым фондом в 1 000 000 долларов и новыми правилами, которые делают невозможным прохождение теста за счёт «грубой силы» вычислительных мощностей. Ведущий канала Wes Roth анализирует текущее состояние лидерборда, где лучшие модели OpenAI и DeepSeek показывают результаты ниже 5%, в то время как обычные люди с легкостью решают те же задачи.
🧠 ARC-AGI 2: Новый рубеж для искусственного интеллекта 0:00
Тест ARC-AGI (Abstraction and Reasoning Corpus) возвращается в 2025 году с обновлённым набором задач, которые призваны выявить «недостающее звено» в современном ИИ — способность к эффективному приобретению новых навыков . В отличие от традиционных бенчмарков, ARC-AGI 2 защищён от простого запоминания данных или распознавания паттернов. По словам Уэса Рота, это «ненасыщенный фронтир», где даже самые продвинутые системы рассуждений показывают крайне низкие результаты .
Основные принципы нового бенчмарка:
- Символическая интерпретация: способность понимать, что фигуры на сетке могут означать нечто большее, чем просто набор пикселей .
- Композиционное рассуждение: умение применять несколько правил одновременно или понимать, как они взаимодействуют друг с другом .
- Контекстуальное применение правил: изменение логики действий в зависимости от контекста задачи .
💰 Миллион долларов за «настоящий» интеллект 7:58
Организаторы ARC Prize изменили структуру вознаграждений, чтобы стимулировать не просто погоню за процентами, а качественные прорывы в архитектуре ИИ. Общий призовой фонд распределяется следующим образом :
- Гранд-приз ($700,000): достанется тому, кто сможет достичь 85% точности при соблюдении жестких ограничений по стоимости вычислений.
- За концептуальный прорыв ($75,000): премия за наиболее значимый теоретический вклад в решение проблемы.
- За лучший результат ($50,000): награда за первое место в текущем рейтинге.
Уэс Рот отмечает, что все решения участников должны быть открытыми (Open Source), чтобы сообщество могло учиться на этих инновациях .
📉 Эффективность против «грубой силы» 0:27
Важнейшим нововведением ARC-AGI 2 стало введение метрики эффективности. Ранее модели могли улучшать свои показатели, просто увеличивая количество вычислений во время работы (test-time compute) . Например, модель o3-low от OpenAI тратит около $200 на одну задачу, но всё равно набирает менее 5% .
Новые правила устанавливают жесткий порог:
- Для получения гранд-приза модель должна тратить не более 42 центов на задачу .
- Бенчмарк теперь устойчив к масштабированию только за счёт денег — просто «завалить» задачу вычислительными ресурсами больше не получится .
- Уэс Рот задается вопросом, насколько справедливо ограничивать время на «раздумья» ИИ, но признаёт, что это стимулирует поиск более эффективных алгоритмов .
🧩 Человек против ИИ: практический эксперимент 2:24
Чтобы доказать доступность задач для человеческого разума, Уэс Рот в прямом эфире решает несколько головоломок из набора ARC-AGI 2. Он демонстрирует решение ежедневного пазла, который требует понимания смещения объектов на сетке 13x14 . Несмотря на небольшую ошибку в начале (неверное направление сдвига), Рот быстро корректирует свою логику и успешно проходит тест .
Факты о человеческих результатах:
- Каждая задача в ARC-AGI 2 была решена как минимум двумя людьми из контрольной группы .
- В тестировании участвовало 400 человек .
- На текущем лидерборде панель людей-тестировщиков имеет результат 100% .
Рот подчеркивает, что задачи не требуют огромной вычислительной мощности, а лишь внимательности к правилам и паттернам .
🏆 Лидерборд и перспективы 8:35
Текущая ситуация на лидерборде ARC-AGI 2 демонстрирует огромный разрыв между человеческими способностями и возможностями ИИ:
- Люди: 100% точность .
- OpenAI o3-low (Chain of Thought): ~4% при стоимости $200 за задачу .
- DeepSeek R1: 1.3% при крайне низкой стоимости всего в 8 центов за задачу .
- Архитектуры-победители 2024 года: показывают результат около 2.5%, вписываясь в бюджет по стоимости .
Существуют слухи о новой модели DeepSeek (условно называемой R2), которая якобы показывает выдающиеся результаты в ARC-AGI, но Уэс Рот подчеркивает, что пока это не подтверждено фактами .
🎲 Прогнозы и альтернативные подходы 10:06
Рынки предсказаний (например, Manifold Markets) скептически оценивают шансы на скорое взятие гранд-приза. Вероятность того, что кто-то заберет главный приз до конца 2025 года, оценивается всего в 27% . Шанс на достижение 70% точности в течение трех месяцев после релиза — около 8% .
Однако появляются новые научные подходы. Уэс Рот упоминает работу Исаака Ляо (Isaac Leo), PhD в области машинного обучения из MIT. Ляо представил метод решения ARC-AGI без предварительного обучения (pre-training) . Используя только градиентный спуск во время вывода (inference time gradient descent) непосредственно на самой задаче, его подход позволил решить 20% оценочного набора . По мнению Рота, именно такие инновации в методах рассуждения, а не простое масштабирование данных, являются целью конкурса .