Миллион за AGI: почему сооснователь Zapier против брутфорса LLM

Запуск публичного конкурса ARC Prize с призовым фондом в $1 млн заставил ИИ-сообщество заново взглянуть на фундаментальные метрики прогресса в индустрии. Сооснователь компании Zapier Майк Кнуп объединил усилия с создателем легендарного бенчмарка ARC Франсуа Шолле, чтобы бросить вызов доминирующей парадигме «масштабирования языковых моделей». В детальной дискуссии с ведущим подкаста Натаном Лабенцем они разбирают, почему современные LLM по-прежнему пасуют перед простейшими пространственными задачами и где скрывается подлинный ключ к сильному искусственному интеллекту (AGI).

🏆 Возвращение к истокам: зачем сооснователь Zapier перезапустил ARC Prize 7:09

В середине 2022 года сооснователь автоматизационного гиганта Zapier Майк Кнуп принял решение отойти от операционного руководства инженерной разработкой и продуктом. Его глубоко потрясла научная работа, посвященная методу «цепочки рассуждений» (Chain of Thought), вышедшая в январе того же года. Кнупа охватило непреодолимое любопытство относительно того, действительно ли индустрия движется по прямой траектории к созданию сильного искусственного интеллекта (AGI). Это понимание было критически важным как для долгосрочной стратегии Zapier, так и для него самого как инженера.

Полноценное знакомство Кнупа с концепцией измерения интеллекта Франсуа Шолле произошло еще во время пандемии через подкаст Лекса Фридмана. Впоследствии, углубившись в практическую разработку ИИ-агентов, Кнуп осознал фундаментальную проблему: практически все современные общепринятые бенчмарки демонстрируют стремительное насыщение, при котором новые модели мгновенно превосходят человека. Единственным масштабным исключением оказался бенчмарк ARC (Abstraction and Reasoning Corpus), созданный Шолле в 2019 году. Прогресс в нем не ускорялся, а планомерно замедлялся последние четыре года. Это и побудило Кнупа связаться с автором, чтобы радикально увеличить призовой фонд соревнования и привлечь к поиску новых ИИ-архитектур внимание мирового сообщества.

🎯 Философия общего интеллекта: почему масштабирование LLM зашло в тупик 11:05

В современном публичном дискурсе Кнуп выделяет две основные школы мысли касательно определения природы AGI. Первую можно охарактеризовать как «узнаю, когда увижу» — её сторонники считают интеллект принципиально неопределяемым и верят, что индустрия уже находится на правильном пути. Второе определение, популяризированное компанией OpenAI, носит сугубо экономический характер: сильным искусственным интеллектом признается система, способная превзойти человека в выполнении большинства экономически полезных задач. Примечательно, что этот критерий юридически зафиксирован в официальном инвестиционном соглашении между OpenAI и Microsoft.

По мнению Майка Кнупа, данная формулировка является ошибочной, поскольку с экономическими задачами вполне способен справиться и узкоспециализированный ИИ (Narrow AI). Вместо этого гость полностью разделяет математически строгое определение Франсуа Шолле: интеллект — это эффективность, с которой система приобретает новые навыки и применяет их в незнакомых условиях. Именно эффективность освоения (skill acquisition efficiency) служит главным признаком общего интеллекта.

В качестве иллюстрации Кнуп приводит аналогию с играми. Узкие ИИ-системы уже много лет превосходят чемпионов мира в покер, го, шахматы и даже сложную стратегическую языковую игру Diplomacy. Однако для достижения каждого такого триумфа команде исследователей приходится начинать работу практически с нуля: изобретать новые алгоритмы поиска, собирать колоссальные целевые датасеты и наращивать масштаб вычислений. В противовес этому алгоритмическому брутфорсу, обычного человека можно обучить правилам совершенно новой настольной или карточной игры до уровня уверенного владения всего за несколько часов, просто предоставив минимальный личный опыт. Неспособность современных ИИ-моделей демонстрировать подобную человеческую эффективность при столкновении с незнакомыми доменами указывает, по мнению Кнупа, на стагнацию в области достижения подлинной универсальности алгоритмов.

📝 Анатомия и жесткие правила конкурса ARC Prize 14:37

Конкурсные задания ARC Prize визуально напоминают классические IQ-тесты на пространственное и логическое мышление. Технически каждый пазл представляет собой Json-файл, содержащий двумерные матрицы, заполненные цифрами от 0 до 9, где цифры выступают в роли символов, кодирующих цвета на экране. Задача ИИ-системы — проанализировать несколько демонстрационных пар «вход-выход», уловить скрытое правило трансформации сетки и безошибочно применить его к тестовой матрице. Кнуп подчеркивает, что цветовая палитра абсолютно произвольна и не несет смысловой нагрузки. Все задания базируются на встроенных априорных знаниях (core knowledge priors), которые человеческий ребенок развивает в самом раннем детстве:

Понятие об объектах, их целостности и границах (objectness)
Целеполагание и направленность действий (goal directedness)
Симметрия, отражение и вращение фигур (symmetry and rotation)
Применение масок и наложение объектов (masking)

Для предотвращения банального зазубривания решений, организаторы разделили ARC на публичную и приватную части. В рамках официально запущенного конкурса ARC Prize с общим фондом $1 млн, участникам необходимо преодолеть планку в 85% правильных ответов на полностью скрытом от людей приватном тестовом наборе Kaggle до 10 ноября. Победитель получит гран-при в размере $500 000 при условии обязательного открытия исходного кода своей системы под лицензией public domain. Приватный датасет не менялся с 2019 года и прошел ручную верификацию взрослыми людьми на предмет отсутствия ошибок.

Самым жестким ограничивающим фактором соревнования выступает лимит вычислений: система должна обработать 100 приватных задач за 12 часов на одной старой видеокарте Nvidia P100. Исходя из рыночной амортизации оборудования и затрат на электричество, Натан Лабенц оценивает общую стоимость вычислений на весь тест примерно в $1, что эквивалентно всего 1 центу или 7.2 минутам времени на одну задачу. С учетом 16 ГБ видеопамяти графического процессора, в такие рамки способна протиснуться лишь оптимизированная модель класса 8B (например, Llama 3 8B), а использование внешних коммерческих API полностью исключено отсутствием доступа к интернету.

💻 Противостояние подходов: эмпирический прорыв на лидербордах 26:22

Параллельно с основным конкурсом организаторы запустили публичный лидерборд, где исследователям разрешено использовать интернет, Frontier-модели и до $10 000 на оплату API. На данный момент вершину этого рейтинга удерживает разработчик Райан Гринблатт с результатом 42%. Его метод опирается на генерацию тысяч traces рассуждений и Python-программ с помощью модели GPT-4o, которые затем жестко отбираются через детерминистическую проверку на демонстрационных примерах. Майк Кнуп не согласен с популярным мнением, что успех Гринблатта обусловлен утечкой данных ARC в обучение GPT-4o. По мнению гостя, модель извлекает выгоду из того, что за четыре года люди опубликовали массу кода и специализированных языков DSL для решения ARC на GitHub, и GPT-4o использует эти паттерны как эффективный «движок восприятия» (perception engine) для генерации кода.

Настоящим сюрпризом для организаторов стало то, что результаты публичного лидерборда (где затраты составляют около $100 вычислений на задачу) и приватного лидерборда Kaggle ($0.01 на задачу) идут практически вровень. Лучший результат на приватном треке принадлежит Джеку Коулу и составляет 39%. Коул использует поразительно малую модель Salesforce CodeT5 объемом всего 220 миллионов параметров. Его секрет заключается в технике test-time fine-tuning: во время инференса система на лету генерирует новые аналогичные задачи, дообучает на них нейросеть и только потом запрашивает ответ. Майк Кнуп делает прогноз, что финальное полноценное решение ARC будет уложено в модель размером около 7B параметров и потребует не более 10 000 строк кода.

📉 Кризис коммерциализации: почему индустрия ИИ перестала искать новые идеи 42:48

Майк Кнуп выражает серьезную обеспокоенность текущим перекосом в финансировании науки об искусственном интеллекте. По его личным оценкам, в 2023 году около $20 миллиардов венчурных инвестиций было направлено в коммерческие стартапы, эксплуатирующие готовую архитектуру LLM, в то время как проекты, сфокусированные на поиске принципиально новых архитектур или алгоритмов обучения для AGI, получили лишь пару сотен миллионов долларов. Этот гигантский диспропорциональный разрыв (примерно 20 к 1) усугубляется закрытием коммерческих лабораторий. OpenAI предпочла скрыть технические детали устройства GPT-4, а Google последовала их примеру, не раскрыв архитектурные секреты обработки миллионного контекста в моделях Gemini.

Кнуп напоминает, что весь текущий бум генеративного ИИ стал возможен исключительно благодаря многолетней культуре открытой науки. Эволюция идеи Трансформера представляла собой непрерывную эстафету между открытыми публикациями конкурирующих институтов:

В 2014 году Илья Суцкевер в Google опубликовал фундаментальную статью по архитектуре sequence-to-sequence.
Дмитрий Богданов из Якобс-Университета развил эту мысль, создав открытый механизм внимания (attention mechanism).
Команда Ашиша Васвани и Ноама Шазира в Google объединила эти наработки в историческом документе «Attention Is All You Need» в 2017 году.
Алек Рэдфорд из OpenAI осознал потенциал этой технологии, что привело к последовательному созданию семейства GPT.

Сегодня эта цепочка открытого обмена практически разрушена коммерческими интересами корпораций. По мнению Кнупа, ARC Prize должен вернуть исследователям мотивацию публиковать прорывные идеи в открытом доступе, создавая эффект «четырехминутной мили», когда один подтвержденный прецедент успеха порождает лавинообразный прогресс независимых команд по всему миру.

🧠 Моделирование мышления человека: четыре шага к Eureka-моменту 54:39

Разбирая личный опыт прохождения пространственных тестов ARC, ведущий Натан Лабенц предлагает разделить процесс человеческого мышления на четыре стадии:

Перцептивное пространственное выделение ключевых элементов (Saliency detection) — мгновенное неосознанное вычленение паттернов или фигур.
Угадывание правила трансформации — тот самый «момент эврики», когда решение спонтанно всплывает из подсознания.
Мысленное написание и проверка внутренней программы на демонстрационных примерах.
Коррекция гипотезы в случае первоначальной неудачи.

Майк Кнуп соглашается, что первый шаг относится к чистому восприятию, в котором глубокое обучение традиционно сильно. Однако Натан замечает, что современные мультимодальные модели (даже уровня Claude 3.5 Sonnet) демонстрируют в ARC странное «размытое зрение», постоянно совершая глупые геометрические ошибки. Самым же сложным барьером остается угадывание правил. В то время как алгоритмы Гринблатта вынуждены брутфорсить пространство, перебирая тысячи вариантов кода, человеческий мозг мгновенно отсекает бесконечное дерево ложных путей благодаря базовым эволюционным приоритетам.

Кнуп развивает эту мысль, выдвигая гипотезу, что биологический интеллект возник в ходе эволюции под давлением жесточайшего дефицита ресурсов. Древние организмы были вынуждены принимать точные локальные решения (куда плыть за едой или как избежать хищника), расходуя минимум энергии. Случайный брутфорс привел бы к немедленной гибели особи от истощения или зубов хищника. Таким образом, эффективность инференса изначально являлась главным вектором эволюционного отбора, сформировавшим архитектуру нашего мозга. Еще одним важнейшим аспектом человеческого мышления Кнуп называет способность разрешать двусмысленность (ambiguity resolution). Сталкиваясь со случайными ошибками в тестах, люди способны удерживать в фокусе несколько альтернативных гипотез одновременно и гибко обновлять свои убеждения при взаимодействии с реальностью.

⚙️ Технологический арсенал: 8 перспективных инструментов для взлома ARC 1:36:59

В финальном аналитическом обзоре Натан Лабенц представляет дорожную карту научных концепций и фреймворков, которые могут послужить фундаментом для победы в ARC Prize:

DSPy (Dispy) — продвинутый фреймворк для алгоритмической оптимизации промптов и программ на естественном языке. Инструмент доказал свою состоятельность, разгромно победив эксперта-человека Сандера Шульхоффа в очном соревновании по промпт-инжинирингу. Лабенц рекомендует использовать DSPy для автоматической калибровки и усиления кодогенерирующего метода Райана Гринблатта.
State Space Models (SSM) и Mamba — альтернативная трансформерам архитектура, адаптированная под обработку изображений с помощью многонаправленного сканирования (multi-way scans). Натан предполагает, что сканирование матриц ARC в 4 или 6 направлениях на разных уровнях разрешения (multi-resolution patches) может компенсировать «геометрическую слепоту» нейросетей.
Модульные ансамбли малых моделей — концепция разделения труда, имитирующая устройство человеческого мозга (где сосуществуют зрительная кора и гиппокамп). Вместо одной монолитной LLM предлагается использовать связку специализированных сеток, например, обучив сверхмалую модель класса Microsoft Phi исключительно задаче абстрактного угадывания правил.
AlphaGeometry — гибридная система от Google DeepMind, решившая сложнейшие геометрические задачи Международной математической олимпиады. Система построена на синергии «Быстрого и медленного мышления»: нейросеть выступает генератором интуитивных идей (Система 1), а строгий символьный движок дедукции проверяет их на логическую валидность (Система 2). Минусом подхода является колоссальная неэффективность обучения — для тренировки AlphaGeometry потребовалось сгенерировать 100 миллионов синтетических примеров.
Transformers Meet Neural Algorithmic Reasoners — еще одна работа DeepMind, объединяющая архитектуру Трансформера со специализированными графовыми моделями (NAR). Нейронные алгоритмические вычислители способны идеально экстраполировать изученные алгоритмы (например, сортировку) на объекты любого масштаба, выходящие далеко за пределы обучающей выборки. Связующим звеном выступает механизм кросс-внимания.
FunSearch — эволюционный метод DeepMind, использующий LLM для непрерывной генерации и итеративного улучшения математического кода. Система сохраняет наиболее эффективные программы в базу данных, защищая поиск от застревания в локальных минимумах, и планомерно выводит алгоритм на новый уровень точности.
Kolmogorov-Arnold Networks (KAN) — революционная архитектура, разработанная исследовательской группой Цзиньмина Лю. В отличие от классического многослойного перцептрона (MLP), где веса статичны, а функции активации фиксированы в узлах, в сетях KAN функции активации перенесены на ребра и являются полностью обучаемыми. Архитектура создана для фундаментальной науки ("AI for Science"), поскольку она способна выявлять скрытые математические формулы и законы в данных. Лабенц видит в KAN потенциал для динамической композиции матричных трансформаций, необходимых для прохождения тестов ARC.
Эффект Гроккинга (Grokking) — феномен долгого обучения, при котором нейросеть после сотен тысяч пустых циклов зазубривания внезапно резко переходит к абсолютной генерализации (как это было зафиксировано в задачах модульного сложения). Натан Лабенц считает, что этот механизм может стать неожиданным ключом к преодолению жесткого барьера обобщения в ARC.

Майк Кнуп подытоживает, что создание бенчмарка, который не поддается взлому лучшими умами планеты на протяжении более чем пяти лет, является выдающимся достижением компьютерных наук. Независимо от того, будет ли ARC Prize взломан в ближайшие полгода или нет, этот вызов определит контуры новой технологической ветви, которая придет на смену эпохе чистого масштабирования.