ARC Prize 2025: Новый этап в гонке за ИИ-рассуждениями
Индустрия искусственного интеллекта столкнулась с реальностью, которую долгое время игнорировала: масштаб сам по себе не гарантирует появления истинного интеллекта. С выходом ARC Prize 2025 и новой версии бенчмарка ARC AGI 2, исследователь Франсуа Шолле и сооснователь фонда ARC Prize Майк Кнуп стремятся переориентировать внимание сообщества с простого наращивания вычислительных мощностей на развитие способности систем к адаптации и абстрактному мышлению,.
🧠 Почему ARC 2 — это вызов для современных систем 5:38
Оригинальный бенчмарк ARC (ARC AGI 1), запущенный в 2019 году, был разработан для проверки глубокого обучения. По словам Майка Кнупа, новая версия, ARC AGI 2, создана специально для оценки современных ИИ-систем рассуждения (reasoning systems), которые сейчас разрабатывают ведущие лаборатории.
Ключевые отличия и цели новой версии:
- Преодоление «перенасыщения»: В ARC 1 многие задачи были предсказуемыми и поддавались методам «грубой силы» (Brute Force search). В ARC 2 такие методы практически неэффективны — результативность с их помощью не превышает 1–2%,.
- Калибровка по человеку: Для ARC 2 команда привлекла около 400 участников. Каждая задача в новом наборе была решена минимум двумя людьми за две попытки. Это подтверждает, что задачи остаются доступными для человеческого интеллекта, но экстремально сложны для ИИ,.
- Композиционность: Задачи стали более сложными и многоуровневыми. Если раньше требовалось применить одно простое правило (например, поворот объекта), то теперь правила должны взаимодействовать, цепочки действий стали длиннее, а структура — композиционной,.
🤖 Феномен «жидкого» интеллекта и модель O3 12:59
Обсуждая недавние результаты модели O3 от OpenAI, Франсуа Шолле отметил, что она демонстрирует «существенное доказательство» того, что компьютеры способны на принципиально новые действия,.
По мнению Шолле, O3 качественно отличается от моделей предыдущего поколения:
- Тестовая адаптация: В отличие от моделей, полагающихся исключительно на авторегрессионное обучение (как, например, DeepSeek R1), O3 использует механизмы поиска и многократной выборки (test-time search) для адаптации к новизне «на лету»,.
- Эффективность как мерило: Интеллект — это не только способность решить задачу, но и эффективность её решения. Человек тратит ничтожное количество энергии на задачу ARC, тогда как модель с высокой вычислительной нагрузкой может расходовать тысячи долларов,.
- Борьба с «грубой силой»: Шолле утверждает, что если бы ИИ сводился только к экономике (деньги/compute), ARC можно было бы решить «грубой силой» ещё в 2020 году. Однако истинный интеллект — это поиск решения в условиях ограниченных ресурсов,.
🏁 Будущее и философия ARC Prize 23:12
Майк Кнуп и Франсуа Шолле подчеркивают, что их цель — достижение AGI (искусственного общего интеллекта), и они готовы поддерживать это стремление до тех пор, пока разрыв в способностях между человеком и машиной не будет устранён,.
- Опенсорс-философия: Фонд настаивает на открытости и доступности идей. По мнению Шолле, мы живем в мире, ограниченном идеями, а не только вычислительными мощностями, поэтому для прогресса необходима здоровая и разнообразная инновационная экосистема, а не закрытые и догматичные закрытые лаборатории,.
- ARC AGI 3: Команда уже работает над третьей версией, которая будет призвана бросить вызов системам, существующих в реальности которых мы пока даже не видим.
Несмотря на скепсис некоторых критиков, указывающих на недостатки текущих ИИ, участники диалога остаются оптимистами. Они считают, что по мере развития каждый новый этап бенчмарка ARC будет делать ИИ всё более совершенным, пока он не станет «подавляюще сверхчеловеческим» во всех измерениях,.