Миллион за интеллект: почему OpenAI и DeepSeek пасуют перед тестом ARC-AGI 2

Wes Roth 26,3 тыс. 12 мин 4 мин 24.03.2025
Главное

Бенчмарк ARC-AGI, созданный Франсуа Шолле, возвращается с обновлённым призовым фондом в 1 000 000 долларов и новыми правилами, которые делают невозможным прохождение теста за счёт «грубой силы» вычислительных мощностей. Ведущий канала Wes Roth анализирует текущее состояние лидерборда, где лучшие модели OpenAI и DeepSeek показывают результаты ниже 5%, в то время как обычные люди с легкостью решают те же задачи.

🧠 ARC-AGI 2: Новый рубеж для искусственного интеллекта 0:00

Тест ARC-AGI (Abstraction and Reasoning Corpus) возвращается в 2025 году с обновлённым набором задач, которые призваны выявить «недостающее звено» в современном ИИ — способность к эффективному приобретению новых навыков . В отличие от традиционных бенчмарков, ARC-AGI 2 защищён от простого запоминания данных или распознавания паттернов. По словам Уэса Рота, это «ненасыщенный фронтир», где даже самые продвинутые системы рассуждений показывают крайне низкие результаты .

Основные принципы нового бенчмарка:

💰 Миллион долларов за «настоящий» интеллект 7:58

Организаторы ARC Prize изменили структуру вознаграждений, чтобы стимулировать не просто погоню за процентами, а качественные прорывы в архитектуре ИИ. Общий призовой фонд распределяется следующим образом :

  1. Гранд-приз ($700,000): достанется тому, кто сможет достичь 85% точности при соблюдении жестких ограничений по стоимости вычислений.
  2. За концептуальный прорыв ($75,000): премия за наиболее значимый теоретический вклад в решение проблемы.
  3. За лучший результат ($50,000): награда за первое место в текущем рейтинге.

Уэс Рот отмечает, что все решения участников должны быть открытыми (Open Source), чтобы сообщество могло учиться на этих инновациях .

📉 Эффективность против «грубой силы» 0:27

Важнейшим нововведением ARC-AGI 2 стало введение метрики эффективности. Ранее модели могли улучшать свои показатели, просто увеличивая количество вычислений во время работы (test-time compute) . Например, модель o3-low от OpenAI тратит около $200 на одну задачу, но всё равно набирает менее 5% .

Новые правила устанавливают жесткий порог:

🧩 Человек против ИИ: практический эксперимент 2:24

Чтобы доказать доступность задач для человеческого разума, Уэс Рот в прямом эфире решает несколько головоломок из набора ARC-AGI 2. Он демонстрирует решение ежедневного пазла, который требует понимания смещения объектов на сетке 13x14 . Несмотря на небольшую ошибку в начале (неверное направление сдвига), Рот быстро корректирует свою логику и успешно проходит тест .

Факты о человеческих результатах:

Рот подчеркивает, что задачи не требуют огромной вычислительной мощности, а лишь внимательности к правилам и паттернам .

🏆 Лидерборд и перспективы 8:35

Текущая ситуация на лидерборде ARC-AGI 2 демонстрирует огромный разрыв между человеческими способностями и возможностями ИИ:

Существуют слухи о новой модели DeepSeek (условно называемой R2), которая якобы показывает выдающиеся результаты в ARC-AGI, но Уэс Рот подчеркивает, что пока это не подтверждено фактами .

🎲 Прогнозы и альтернативные подходы 10:06

Рынки предсказаний (например, Manifold Markets) скептически оценивают шансы на скорое взятие гранд-приза. Вероятность того, что кто-то заберет главный приз до конца 2025 года, оценивается всего в 27% . Шанс на достижение 70% точности в течение трех месяцев после релиза — около 8% .

Однако появляются новые научные подходы. Уэс Рот упоминает работу Исаака Ляо (Isaac Leo), PhD в области машинного обучения из MIT. Ляо представил метод решения ARC-AGI без предварительного обучения (pre-training) . Используя только градиентный спуск во время вывода (inference time gradient descent) непосредственно на самой задаче, его подход позволил решить 20% оценочного набора . По мнению Рота, именно такие инновации в методах рассуждения, а не простое масштабирование данных, являются целью конкурса .

💬 Цитаты

«Суть ARC-AGI 2 не в том, чтобы ИИ показал сверхчеловеческие навыки, а в том, чтобы обнажить то, чего ИИ не хватает: эффективного приобретения новых навыков.»

Уэс Рот 1:31

«Вы больше не можете просто тратить кучу денег на вычисления, чтобы пройти этот тест.»

Уэс Рот 0:40

«Я всё ещё более интеллектуален в общем смысле, чем ИИ, и у меня есть сертификат, чтобы это доказать.»

Уэс Рот 8:22
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
ARC-AGI
Abstraction and Reasoning Corpus — бенчмарк для оценки способности ИИ к абстрактному мышлению и быстрому обучению на малом количестве примеров.
Test-time compute
Использование дополнительных вычислительных ресурсов во время генерации ответа моделью для улучшения качества рассуждений.
Chain of Thought
Метод «цепочки мыслей», позволяющий модели разбивать сложную задачу на последовательные логические шаги.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект ARC-AGI 2 OpenAI DeepSeek Франсуа Шолле AGI