# Миллион за интеллект: почему OpenAI и DeepSeek пасуют перед тестом ARC-AGI 2

Источник: https://www.youtube.com/watch?v=xvqv10NDGS8
Канал: Wes Roth
Опубликовано: 24.03.2025

---

Бенчмарк ARC-AGI, созданный Франсуа Шолле, возвращается с обновлённым призовым фондом в 1 000 000 долларов и новыми правилами, которые делают невозможным прохождение теста за счёт «грубой силы» вычислительных мощностей. Ведущий канала Wes Roth анализирует текущее состояние лидерборда, где лучшие модели OpenAI и DeepSeek показывают результаты ниже 5%, в то время как обычные люди с легкостью решают те же задачи.

## 🧠 ARC-AGI 2: Новый рубеж для искусственного интеллекта
[[JUMP:0:00]]

Тест ARC-AGI (Abstraction and Reasoning Corpus) возвращается в 2025 году с обновлённым набором задач, которые призваны выявить «недостающее звено» в современном ИИ — способность к эффективному приобретению новых навыков [0:00]. В отличие от традиционных бенчмарков, ARC-AGI 2 защищён от простого запоминания данных или распознавания паттернов. По словам Уэса Рота, это «ненасыщенный фронтир», где даже самые продвинутые системы рассуждений показывают крайне низкие результаты [1:06].

Основные принципы нового бенчмарка:

*   **Символическая интерпретация:** способность понимать, что фигуры на сетке могут означать нечто большее, чем просто набор пикселей [1:44].
*   **Композиционное рассуждение:** умение применять несколько правил одновременно или понимать, как они взаимодействуют друг с другом [2:00].
*   **Контекстуальное применение правил:** изменение логики действий в зависимости от контекста задачи [2:12].

## 💰 Миллион долларов за «настоящий» интеллект
[[JUMP:7:58]]

Организаторы ARC Prize изменили структуру вознаграждений, чтобы стимулировать не просто погоню за процентами, а качественные прорывы в архитектуре ИИ. Общий призовой фонд распределяется следующим образом [8:05]:

1.  **Гранд-приз ($700,000):** достанется тому, кто сможет достичь 85% точности при соблюдении жестких ограничений по стоимости вычислений.
2.  **За концептуальный прорыв ($75,000):** премия за наиболее значимый теоретический вклад в решение проблемы.
3.  **За лучший результат ($50,000):** награда за первое место в текущем рейтинге.

Уэс Рот отмечает, что все решения участников должны быть открытыми (Open Source), чтобы сообщество могло учиться на этих инновациях [11:13].

## 📉 Эффективность против «грубой силы»
[[JUMP:0:27]]

Важнейшим нововведением ARC-AGI 2 стало введение метрики эффективности. Ранее модели могли улучшать свои показатели, просто увеличивая количество вычислений во время работы (test-time compute) [0:27]. Например, модель o3-low от OpenAI тратит около $200 на одну задачу, но всё равно набирает менее 5% [0:13].

Новые правила устанавливают жесткий порог:

*   Для получения гранд-приза модель должна тратить не более **42 центов на задачу** [0:50].
*   Бенчмарк теперь устойчив к масштабированию только за счёт денег — просто «завалить» задачу вычислительными ресурсами больше не получится [0:40].
*   Уэс Рот задается вопросом, насколько справедливо ограничивать время на «раздумья» ИИ, но признаёт, что это стимулирует поиск более эффективных алгоритмов [7:45].

## 🧩 Человек против ИИ: практический эксперимент
[[JUMP:2:24]]

Чтобы доказать доступность задач для человеческого разума, Уэс Рот в прямом эфире решает несколько головоломок из набора ARC-AGI 2. Он демонстрирует решение ежедневного пазла, который требует понимания смещения объектов на сетке 13x14 [2:37]. Несмотря на небольшую ошибку в начале (неверное направление сдвига), Рот быстро корректирует свою логику и успешно проходит тест [3:17].

Факты о человеческих результатах:

*   Каждая задача в ARC-AGI 2 была решена как минимум двумя людьми из контрольной группы [1:18].
*   В тестировании участвовало 400 человек [1:18].
*   На текущем лидерборде панель людей-тестировщиков имеет результат 100% [8:35].

Рот подчеркивает, что задачи не требуют огромной вычислительной мощности, а лишь внимательности к правилам и паттернам [8:22].

## 🏆 Лидерборд и перспективы
[[JUMP:8:35]]

Текущая ситуация на лидерборде ARC-AGI 2 демонстрирует огромный разрыв между человеческими способностями и возможностями ИИ:

*   **Люди:** 100% точность [8:35].
*   **OpenAI o3-low (Chain of Thought):** ~4% при стоимости $200 за задачу [8:48].
*   **DeepSeek R1:** 1.3% при крайне низкой стоимости всего в 8 центов за задачу [9:13].
*   **Архитектуры-победители 2024 года:** показывают результат около 2.5%, вписываясь в бюджет по стоимости [9:01].

Существуют слухи о новой модели DeepSeek (условно называемой R2), которая якобы показывает выдающиеся результаты в ARC-AGI, но Уэс Рот подчеркивает, что пока это не подтверждено фактами [9:26].

## 🎲 Прогнозы и альтернативные подходы
[[JUMP:10:06]]

Рынки предсказаний (например, Manifold Markets) скептически оценивают шансы на скорое взятие гранд-приза. Вероятность того, что кто-то заберет главный приз до конца 2025 года, оценивается всего в 27% [10:06]. Шанс на достижение 70% точности в течение трех месяцев после релиза — около 8% [10:19].

Однако появляются новые научные подходы. Уэс Рот упоминает работу Исаака Ляо (Isaac Leo), PhD в области машинного обучения из MIT. Ляо представил метод решения ARC-AGI **без предварительного обучения** (pre-training) [10:47]. Используя только градиентный спуск во время вывода (inference time gradient descent) непосредственно на самой задаче, его подход позволил решить 20% оценочного набора [10:47]. По мнению Рота, именно такие инновации в методах рассуждения, а не простое масштабирование данных, являются целью конкурса [11:13].