Франсуа Шолле: «ARC-AGI 2 бросает вызов современным ИИ-рассуждениям»

Machine Learning Street Talk 21,5 тыс. 54 мин 3 мин 24.03.2025
Главное

ARC Prize 2025: Новый вызов для искусственного интеллекта 0:00

Создатели ARC Prize Франсуа Шолле и Майк Кнуп объявили о выходе ARC-AGI 2 — обновленной версии бенчмарка, предназначенного для проверки уровня «жидкого интеллекта» (fluid intelligence) у современных ИИ-систем. В отличие от первой версии, которая была ориентирована на тестирование возможностей глубокого обучения (deep learning) на основе предварительного обучения (pre-training), версия 2 сфокусирована на проверке навыков адаптации к новизне, присущих новым системам ИИ-рассуждений (reasoning systems).

По словам Шолле, ARC-AGI 2 представляет собой практически единственный на сегодняшний день «ненасыщенный» (unsaturated) бенчмарк, который остается сложным для передовых моделей и одновременно доступным для решения обычными людьми. Сооснователи проекта подчеркивают, что главная цель ARC Prize — сократить разрыв между человеческими способностями и возможностями компьютеров, стремясь к созданию настоящего искусственного общего интеллекта (AGI).

🛠 Философия бенчмарка: почему важны человеческие пробелы 6:43

Майк Кнуп объясняет, что ARC Prize был запущен для того, чтобы привлечь внимание к фундаментальной проблеме: современные бенчмарки в большинстве своем нацелены на проверку сверхчеловеческих навыков — так называемых «PhD+» способностей, требующих узкоспециализированного образования и огромного опыта. Однако ARC выбирает иной путь.

Шолле добавляет, что целью является создание систем, способных не просто «отражать» накопленные человечеством знания, а производить новые технологии и научные открытия, сжимая временные рамки исследований.

📉 Уроки первой версии и технические новшества ARC-AGI 2 11:29

При создании второй версии авторы учли недостатки предшественника. Оказалось, что многие задачи ARC-AGI 1 были уязвимы для метода «грубой силы» (Brute Force search) — перебора программ, который, по мнению Шолле, не имеет отношения к настоящему интеллекту.

Основные изменения в V2:

  1. Калибровка людьми: Было протестировано около 400 человек. Каждая задача в новом датасете решается как минимум двумя людьми, что подтверждает её доступность для человека.
  2. Защита от перебора: Задачи стали более композиционными. Теперь они требуют цепочки взаимодействующих правил, а не выполнения одного действия (например, переворота объекта).
  3. Изменение сложности: V2 сложнее для ИИ, но лучше сбалансирована для сравнения с людьми, избегая быстрого насыщения (когда модель просто угадывает ответ).

🤖 Феномен O3 и будущее «жидкого интеллекта» 12:45

Обсуждая недавние результаты модели O3 от OpenAI, Шолле отмечает, что её способность адаптироваться к новизне на ARC-AGI 1 стала «сюрпризом, возникшим из ниоткуда». Он квалифицирует такие системы как «прото-AGI».

Ключевые выводы по текущим моделям:

Шолле подчеркивает, что 4%, которые модель O3 демонстрирует на ARC-AGI 2, — это не просто число, а «доказательство существования» (existence proof) некоего уровня жидкого интеллекта, которого раньше не было в истории компьютерных наук.

🔭 Взгляд в будущее: к ARC-AGI 3 22:30

Работа над ARC-AGI 3 уже ведется. По словам разработчиков, третья версия будет нацелена на проверку систем AGI, которые еще даже не существуют в текущем мире. Кнуп призывает всё сообщество участвовать в конкурсе ARC Prize 2025: поскольку мы находимся в мире, ограниченном «дефицитом идей», любой исследователь, даже работающий в одиночку, может внести значимый вклад в развитие AGI.

💬 Цитаты

«Intelligence is not just about capabilities it's also about the efficiency with which you acquire and deploy these capabilities.»

Франсуа Шолле 1:54

«If we're kind of in an innovation constrained World an idea constrained World, that means you out there could actually make a significant contribution to the frontier of AGI.»

Майк Кнуп 3:36
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Жидкий интеллект
Способность адаптироваться к новым ситуациям, решать задачи и находить закономерности без использования ранее накопленных статических знаний.
Brute Force search
Метод «грубой силы», заключающийся в простом переборе всех возможных вариантов для нахождения ответа.
Chain of Thought
Техника, при которой модель рассуждает пошагово, формируя цепочку логических выводов перед выдачей финального ответа.
Unsaturated Benchmark
Бенчмарк, результаты которого еще далеки от идеальных, что позволяет продолжать измерять прогресс новых моделей.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект ARC Prize Francois Chollet Mike Knoop AGI Benchmark