Известный исследователь искусственного интеллекта Франсуа Шолле в интервью каналу Machine Learning Street Talk подвел итоги соревнований ARC Prize 2024 года и поделился своим мнением о будущем индустрии. Создатель бенчмарка ARC рассказал о смене парадигмы от простого масштабирования моделей к вычислениям во время вывода (test-time compute) и анонсировал запуск собственного независимого исследовательского центра. Центральной темой беседы стал глубокий анализ механизмов человеческого мышления, природы сознания и архитектурных ограничений современных больших языковых моделей.
🔄 Смена парадигмы ИИ: Итоги ARC Prize 2024 12:46
Завершение соревнований ARC Prize 2024 года совпало с публикацией подробного технического отчета, отражающего глубокие изменения в ландшафте ИИ. По мнению Франсуа Шолле, в 2024 году произошел фундаментальный сдвиг в доминирующем нарративе вокруг искусственного интеллекта. Если раньше мейнстримом было убеждение, что для достижения сильного ИИ (AGI) достаточно обучить модель в 100 раз большего размера на в 100 раз большем объеме данных, то за последний год пришло осознание необходимости систем, способных к аналогу мышления Системы 2 (System 2 reasoning). По словам исследователя, такое свойство не может просто эмерджентно возникнуть из предобучения на гигантских датасетах, его необходимо закладывать в систему.
Бенчмарк ARC (Abstraction and Reasoning Corpus), как утверждает его создатель, разрабатывался не как бинарный индикатор достижения AGI, а как инструмент для перенаправления внимания разработчиков на правильные задачи. Успех и популярность ARC Prize гость объясняет латентным спросом рынка на подобные метрики, поскольку у многих инженеров существовало интуитивное понимание тупиковости стандартных LLM.
В рамках соревнований сосуществовали два трека с колоссальной разницей в доступных вычислительных ресурсах:
- Основной трек на платформе Kaggle: участники отправляли изолированные ноутбуки, которые должны были выполниться на виртуальной машине менее чем за 12 часов с использованием одного графического процессора P100. Это эквивалентно примерно 10 долларам затрат на вычисления на одну отправку.
- Публичный лидерборд для передовых моделей (frontier models): оценка проводилась на «полуприватном» наборе задач. Каждое решение могло расходовать до 10 000 долларов в виде API-кредитов, что в расчете на одну задачу означает примерно двухсоткратное увеличение вычислительного бюджета.
По признанию Франсуа Шолле, самым шокирующим результатом стало то, что оценки на обоих лидербордах оказались практически идентичными — около 55% точности. По мнению исследователя, это доказывает, что вычислительная мощность является лишь множителем для идей, и более качественные алгоритмические подходы дают несопоставимо больше преимуществ, чем слепое масштабирование. При бесконечном бюджете бенчмарк можно взломать неэффективным перебором, однако решения стоимостью 10 долларов показывают ту же эффективность, что и системы, потребляющие десятки киловатт энергии.
🛠️ Индукция против трансдукции: два пути решения ARC 18:07
Анализ результатов соревнований выявил две основные категории успешных подходов, которые, как оказалось, справляются с принципиально разными типами задач:
Индуктивный синтез программ с глубоким обучением
Этот подход Франсуа Шолле считает наиболее перспективным лично для себя и развивает его на протяжении многих лет. В современном исполнении разработчики используют LLM для генерации кода и его итеративной отладки. Менее популярным, но потенциально эффективным направлением Шолле считает синтез программ с использованием строительных блоков из специализированных предметно-ориентированных языков (DSL). При индукции ИИ пытается вывести общую программу (функцию), которая математически сопоставляет входные сетки примеров с выходными.
Трансдуктивное обучение во время вывода (Test-Time Training, TTT)
В рамках этого метода ИИ напрямую предсказывает выходную сетку для тестового задания на основе паттернов из демонстрационных пар. Франсуа Шолле подчеркивает, что в рамках классической парадигмы глубокого обучения, где предобученная статичная модель делает один прямой проход (forward pass) во время инференса, адаптация к подлинной новизне невозможна — система способна лишь извлекать и применять заученные шаблоны. Чтобы преодолеть это ограничение, разработчики внедряли дообучение модели (fine-tuning) непосредственно в процессе тестирования на конкретной задаче, заставляя алгоритм градиентного спуска комбинировать латентные знания. Без такой TTT-адаптации трансдуктивные модели не могут преодолеть барьер в 10% точности, но с ее помощью выходят на уровень 50–60%.
Хотя критики указывают на то, что подобные методы требуют участия человека для специализации под задачи, Франсуа Шолле считает этот подход полностью легитимным. Процесс дообучения на демонстрационных парах происходит автономно, хотя формат и задается инженером, что справедливо и для индуктивного синтеза.
Тем не менее, исследователь видит ключевые различия между TTT и тем, как мыслят люди:
- При TTT-подходе рекомбинация знаний ложится на процесс градиентного спуска, изменяющего веса самой модели.
- Человеческое мышление при решении головоломок ARC оперирует абстрактными и символическими сущностями, а объединение знаний ближе к функциональной композиции, чем к градиентному спуску. По этой причине Франсуа Шолле скептически относится к идее замены процесса программирования градиентным спускам.
📉 Проблема переобучения и анонс ARC V2 28:00
Проверка решений на «полуприватном» наборе данных вскрыла уязвимость многих TTT-систем к переобучению (overfitting). Так, одна из ведущих трансдуктивных моделей показала падение эффективности на 10 процентных пунктов при переходе от открытых задач к полуприватным. В то же время решения, основанные на чистом синтезе программ, продемонстрировали абсолютно одинаковый результат на обоих наборах данных, доказав свою устойчивость к шуму.
Франсуа Шолле напоминает, что еще в первом конкурсе ARC на Kaggle в 2020 году лучший одиночный алгоритм набрал всего 20%, используя простой перебор. Однако ансамбль всех представленных на конкурс решений выдал результат в 49%. В 2024 году ансамблирование всех отправленных кодов в совокупности позволило достичь 81% точности при рекорде одиночной модели в 55%. По мнению исследователя, это свидетельствует о концептуальном недостатке текущей версии бенчмарка: избыточность и недостаточная диверсификация задач позволяют частично взламывать тест за счет грубого масштабирования вычислительных мощностей. При этом обычный человек без труда решает около 97–99% задач из приватного пула.
Для исправления этих изъянов планируется официальный релиз ARC V2. Разработка ведется с 2022 года в партнерстве с организацией Lab 42 в Давосе. В новой версии будут реализованы следующие изменения:
- Существенное расширение разнообразия и сложности заданий на основе краудсорсинга.
- Внедрение человеческой шкалы сложности, сформированной на основе анализа количества попыток и успешности решения задач реальными людьми.
- Трехуровневая система проверки: публичный, полуприватный и полностью приватный наборы данных.
- Защита от утечки данных: в ходе будущих соревнований участники будут видеть только оценки на полуприватном наборе. Финальный лидерборд будет рассчитан в самом конце на полностью закрытом пуле задач, что позволит проводить честное сравнение коммерческих фронтирных моделей и легковесных алгоритмов с Kaggle.
🧠 Гибридное сознание: Разрушая миф о «чистом символизме» 58:06
Франсуа Шолле категорически отвергает ярлык «чистого символиста», который ему нередко приписывают оппоненты. Исследователь подчеркивает, что с момента своих первых публикаций и на протяжении последних восьми лет последовательно отстаивает идею конвергенции глубокого обучения и дискретных вычислений.
По словам Шолле, человеческий когнитивный аппарат устроен как неделимый сплав интуиции и логики. Исследователь считает, что для достижения сильного ИИ необходимы обе составляющие:
- Непрерывные абстракции (векторные пространства): обеспечиваются моделями глубокого обучения и отвечают за распознавание образов, паттернов и интуитивные догадки.
- Дискретные символические абстракции (графы и поиск): позволяют осуществлять пошаговые логические рассуждения и верификацию.
Шолле заявляет, что занимается глубоким обучением с 2013 года, а в 2014 году активно популяризировал его, создав библиотеку Keras, сделавшую эти технологии доступными для миллионов. Его критика нейросетей никогда не была попыткой заменить их чем-то иным — речь шла исключительно об их дополнении символическими элементами.
Развивая эту идею, Шолле предлагает оригинальную теорию сознания. С его точки зрения, базовой когнитивной единицей мозга является «размытое» распознавание паттернов (fuzzy pattern recognition). Когда человек задействует Систему 2 для медленного логического планирования, он фактически итеративно применяет свою интуицию, но в жестко структурированной форме. Например, в шахматах игрок рассчитывает варианты пошагово, но выбор того, какие именно ходы анализировать, диктуется интуитивным распознаванием образов.
Каждая интуитивная догадка по своей сути является предположением и может быть ошибочной. Если применять итеративное распознавание паттернов без контроля, система начинает «галлюцинировать», что и происходит с человеком во время сновидений. Именно поэтому логическая обработка требует участия сознания.
«Сознание — это механизм проверки на самосогласованность. Это процесс, который заставляет следующую итерацию вашей интуиции быть непротиворечивой по отношению ко всему, что было до нее».
Этот процесс реализуется через петли обратной связи, соединяющие прошлое и предсказание будущего в единой точке настоящего (нексусе), которая и формирует то, что мы называем сознанием.
🎯 Природа рассуждений и феномен OpenAI o1 1:06:00
По мнению Франсуа Шолле, термин «рассуждение» (reasoning) слишком перегружен, но в контексте ИИ можно выделить две принципиально разные формы:
- Применение заученного алгоритма: когда человек или нейросеть запоминает шаблон (например, правила умножения чисел в школе) и воспроизводит его во время теста. Большие языковые модели превосходно справляются с этим типом задач, извлекавая паттерны из латентной памяти.
- Адаптация к абсолютной новизне: когда система сталкивается с беспрецедентной ситуацией и вынуждена на лету пересобирать имеющиеся когнитивные кирпичики в принципиально новую модель. По утверждению Шолле, ключевой вопрос для ИИ заключается не в том, умеет ли он рассуждать в первом смысле, а в его способности адаптироваться к новизне. Силу рассуждений Шолле предлагает определять через мощность генерализации — объем новизны, к которому система способна адаптироваться.
В этом контексте Шолле оценивает модель OpenAI o1 как подлинный технологический прорыв, выводящий индустрию далеко за рамки классической парадигмы глубокого обучения. Хотя внутренняя архитектура o1 остается коммерческой тайной, исследователь предполагает, что модель запускает процесс поиска в пространстве возможных цепочек рассуждений (chain of thought).
Алгоритм, напоминающий подход AlphaZero, выстраивает дерево вариантов, оценивает перспективность ветвей и осуществляет возврат (backtracking) с редактированием, если текущая ветвь заходит в тупик. Результатом этого поиска становится длинная, лишенная изящества, но близкая к оптимальной цепочка рассуждений, представляющая собой программу на естественном языке, которой модель затем руководствуется. Шолле считает неправдоподобными предположения о том, что o1 выполняет всю работу за один прямой проход (forward pass) во время инференса — аномально высокое потребление токенов и задержка (latency) однозначно указывают на активные вычисления во время вывода.
Комментируя так называемый «закон масштабирования времени вывода» (test-time scaling law), о котором активно заявляют такие исследователи, как Ноам Браун, Шолле подтверждает логарифмическую зависимость между объемом затраченных вычислений и точностью ответов. Чем больше вычислительный бюджет, тем глубже алгоритм может продвинуться в пространстве поиска программ, что справедливо как для o1, так и для классических систем грубого перебора программ.
🚀 Будущее: Синтез программ и децентрализованный ИИ 1:10:39
Франсуа Шолле объявил о своем уходе из компании Google, где он на протяжении многих лет руководил разработкой экосистемы Keras. Совместно с партнером он основывает независимый исследовательский стартап и лабораторию, которая целиком сфокусируется на задачах индуктивного синтеза программ под управлением глубокого обучения.
По мнению ученого, современная индустрия совершает ошибку, пытаясь генерировать программный код посимвольно (token-by-token), как обычный текст. Гость полагает, что правильный подход состоит в рассмотрении программы как графа операторов, а самого процесса синтеза — как древовидного поиска, где LLM должна выступать не генератором, а проводником (гидом). При итеративном поиске в графе модель получает возможность осуществлять точечные, направленные модификации программной структуры, что невозможно при посимвольном подходе.
Шолле описывает архитектуру ИИ будущего как глобально распределенную систему непрерывного обучения (lifelong distributed learning):
- Множество экземпляров одного и того же ИИ параллельно решают уникальные задачи для разных пользователей по всему миру.
- Система непрерывно анализирует общие черты в проблемах и их решениях.
- При обнаружении устойчивых закономерностей ИИ автоматически абстрагирует их в новые функциональные строительные блоки, которые возвращаются в общую систему, повышая ее базовый интеллект.
В долгосрочной перспективе, как прогнозирует гость, это приведет к полной демократизации программирования через парадигму «ввод-вывод» (input-output programming). Нетехнические пользователи смогут описывать желаемую автоматизацию на естественном языке, через графические интерфейсы или схемы данных. В случае двусмысленности ИИ будет интерактивно запрашивать уточнения, демонстрируя тестовые результаты на конкретных примерах, формируя корректную программу в коллаборации с человеком. Сложность гигантских кодовых баз, которую уже сегодня не способен удержать в голове ни один программист, будет полностью делегирована внешнему ИИ-инструменту.
Делясь личными привычками, Шолле признался, что в повседневной работе программиста использует коммерческие ИИ-инструменты умеренно. Он оплачивает подписку на Gemini Advanced, тестирует легковесную модель Gemini Flash, а для написания кода предпочитает Claude 3.5. Среди ключевых failure-модов (ошибок) современных LLM при написании кода исследователь выделяет генерацию избыточных неиспользуемых переменных и закладывание в код ложных, непроверенных предположений о структуре входящих данных.