Франсуа Шолле о создании ARC V2, уходе из Google и секретах модели OpenAI o1

Machine Learning Street Talk 91,8 тыс. 1 ч 26 мин 9 мин 09.01.2025
Главное

Известный исследователь искусственного интеллекта Франсуа Шолле в интервью каналу Machine Learning Street Talk подвел итоги соревнований ARC Prize 2024 года и поделился своим мнением о будущем индустрии. Создатель бенчмарка ARC рассказал о смене парадигмы от простого масштабирования моделей к вычислениям во время вывода (test-time compute) и анонсировал запуск собственного независимого исследовательского центра. Центральной темой беседы стал глубокий анализ механизмов человеческого мышления, природы сознания и архитектурных ограничений современных больших языковых моделей.

🔄 Смена парадигмы ИИ: Итоги ARC Prize 2024 12:46

Завершение соревнований ARC Prize 2024 года совпало с публикацией подробного технического отчета, отражающего глубокие изменения в ландшафте ИИ. По мнению Франсуа Шолле, в 2024 году произошел фундаментальный сдвиг в доминирующем нарративе вокруг искусственного интеллекта. Если раньше мейнстримом было убеждение, что для достижения сильного ИИ (AGI) достаточно обучить модель в 100 раз большего размера на в 100 раз большем объеме данных, то за последний год пришло осознание необходимости систем, способных к аналогу мышления Системы 2 (System 2 reasoning). По словам исследователя, такое свойство не может просто эмерджентно возникнуть из предобучения на гигантских датасетах, его необходимо закладывать в систему.

Бенчмарк ARC (Abstraction and Reasoning Corpus), как утверждает его создатель, разрабатывался не как бинарный индикатор достижения AGI, а как инструмент для перенаправления внимания разработчиков на правильные задачи. Успех и популярность ARC Prize гость объясняет латентным спросом рынка на подобные метрики, поскольку у многих инженеров существовало интуитивное понимание тупиковости стандартных LLM.

В рамках соревнований сосуществовали два трека с колоссальной разницей в доступных вычислительных ресурсах:

По признанию Франсуа Шолле, самым шокирующим результатом стало то, что оценки на обоих лидербордах оказались практически идентичными — около 55% точности. По мнению исследователя, это доказывает, что вычислительная мощность является лишь множителем для идей, и более качественные алгоритмические подходы дают несопоставимо больше преимуществ, чем слепое масштабирование. При бесконечном бюджете бенчмарк можно взломать неэффективным перебором, однако решения стоимостью 10 долларов показывают ту же эффективность, что и системы, потребляющие десятки киловатт энергии.

🛠️ Индукция против трансдукции: два пути решения ARC 18:07

Анализ результатов соревнований выявил две основные категории успешных подходов, которые, как оказалось, справляются с принципиально разными типами задач:

Индуктивный синтез программ с глубоким обучением

Этот подход Франсуа Шолле считает наиболее перспективным лично для себя и развивает его на протяжении многих лет. В современном исполнении разработчики используют LLM для генерации кода и его итеративной отладки. Менее популярным, но потенциально эффективным направлением Шолле считает синтез программ с использованием строительных блоков из специализированных предметно-ориентированных языков (DSL). При индукции ИИ пытается вывести общую программу (функцию), которая математически сопоставляет входные сетки примеров с выходными.

Трансдуктивное обучение во время вывода (Test-Time Training, TTT)

В рамках этого метода ИИ напрямую предсказывает выходную сетку для тестового задания на основе паттернов из демонстрационных пар. Франсуа Шолле подчеркивает, что в рамках классической парадигмы глубокого обучения, где предобученная статичная модель делает один прямой проход (forward pass) во время инференса, адаптация к подлинной новизне невозможна — система способна лишь извлекать и применять заученные шаблоны. Чтобы преодолеть это ограничение, разработчики внедряли дообучение модели (fine-tuning) непосредственно в процессе тестирования на конкретной задаче, заставляя алгоритм градиентного спуска комбинировать латентные знания. Без такой TTT-адаптации трансдуктивные модели не могут преодолеть барьер в 10% точности, но с ее помощью выходят на уровень 50–60%.

Хотя критики указывают на то, что подобные методы требуют участия человека для специализации под задачи, Франсуа Шолле считает этот подход полностью легитимным. Процесс дообучения на демонстрационных парах происходит автономно, хотя формат и задается инженером, что справедливо и для индуктивного синтеза.

Тем не менее, исследователь видит ключевые различия между TTT и тем, как мыслят люди:

📉 Проблема переобучения и анонс ARC V2 28:00

Проверка решений на «полуприватном» наборе данных вскрыла уязвимость многих TTT-систем к переобучению (overfitting). Так, одна из ведущих трансдуктивных моделей показала падение эффективности на 10 процентных пунктов при переходе от открытых задач к полуприватным. В то же время решения, основанные на чистом синтезе программ, продемонстрировали абсолютно одинаковый результат на обоих наборах данных, доказав свою устойчивость к шуму.

Франсуа Шолле напоминает, что еще в первом конкурсе ARC на Kaggle в 2020 году лучший одиночный алгоритм набрал всего 20%, используя простой перебор. Однако ансамбль всех представленных на конкурс решений выдал результат в 49%. В 2024 году ансамблирование всех отправленных кодов в совокупности позволило достичь 81% точности при рекорде одиночной модели в 55%. По мнению исследователя, это свидетельствует о концептуальном недостатке текущей версии бенчмарка: избыточность и недостаточная диверсификация задач позволяют частично взламывать тест за счет грубого масштабирования вычислительных мощностей. При этом обычный человек без труда решает около 97–99% задач из приватного пула.

Для исправления этих изъянов планируется официальный релиз ARC V2. Разработка ведется с 2022 года в партнерстве с организацией Lab 42 в Давосе. В новой версии будут реализованы следующие изменения:

🧠 Гибридное сознание: Разрушая миф о «чистом символизме» 58:06

Франсуа Шолле категорически отвергает ярлык «чистого символиста», который ему нередко приписывают оппоненты. Исследователь подчеркивает, что с момента своих первых публикаций и на протяжении последних восьми лет последовательно отстаивает идею конвергенции глубокого обучения и дискретных вычислений.

По словам Шолле, человеческий когнитивный аппарат устроен как неделимый сплав интуиции и логики. Исследователь считает, что для достижения сильного ИИ необходимы обе составляющие:

Шолле заявляет, что занимается глубоким обучением с 2013 года, а в 2014 году активно популяризировал его, создав библиотеку Keras, сделавшую эти технологии доступными для миллионов. Его критика нейросетей никогда не была попыткой заменить их чем-то иным — речь шла исключительно об их дополнении символическими элементами.

Развивая эту идею, Шолле предлагает оригинальную теорию сознания. С его точки зрения, базовой когнитивной единицей мозга является «размытое» распознавание паттернов (fuzzy pattern recognition). Когда человек задействует Систему 2 для медленного логического планирования, он фактически итеративно применяет свою интуицию, но в жестко структурированной форме. Например, в шахматах игрок рассчитывает варианты пошагово, но выбор того, какие именно ходы анализировать, диктуется интуитивным распознаванием образов.

Каждая интуитивная догадка по своей сути является предположением и может быть ошибочной. Если применять итеративное распознавание паттернов без контроля, система начинает «галлюцинировать», что и происходит с человеком во время сновидений. Именно поэтому логическая обработка требует участия сознания.

«Сознание — это механизм проверки на самосогласованность. Это процесс, который заставляет следующую итерацию вашей интуиции быть непротиворечивой по отношению ко всему, что было до нее».

Этот процесс реализуется через петли обратной связи, соединяющие прошлое и предсказание будущего в единой точке настоящего (нексусе), которая и формирует то, что мы называем сознанием.

🎯 Природа рассуждений и феномен OpenAI o1 1:06:00

По мнению Франсуа Шолле, термин «рассуждение» (reasoning) слишком перегружен, но в контексте ИИ можно выделить две принципиально разные формы:

  1. Применение заученного алгоритма: когда человек или нейросеть запоминает шаблон (например, правила умножения чисел в школе) и воспроизводит его во время теста. Большие языковые модели превосходно справляются с этим типом задач, извлекавая паттерны из латентной памяти.
  2. Адаптация к абсолютной новизне: когда система сталкивается с беспрецедентной ситуацией и вынуждена на лету пересобирать имеющиеся когнитивные кирпичики в принципиально новую модель. По утверждению Шолле, ключевой вопрос для ИИ заключается не в том, умеет ли он рассуждать в первом смысле, а в его способности адаптироваться к новизне. Силу рассуждений Шолле предлагает определять через мощность генерализации — объем новизны, к которому система способна адаптироваться.

В этом контексте Шолле оценивает модель OpenAI o1 как подлинный технологический прорыв, выводящий индустрию далеко за рамки классической парадигмы глубокого обучения. Хотя внутренняя архитектура o1 остается коммерческой тайной, исследователь предполагает, что модель запускает процесс поиска в пространстве возможных цепочек рассуждений (chain of thought).

Алгоритм, напоминающий подход AlphaZero, выстраивает дерево вариантов, оценивает перспективность ветвей и осуществляет возврат (backtracking) с редактированием, если текущая ветвь заходит в тупик. Результатом этого поиска становится длинная, лишенная изящества, но близкая к оптимальной цепочка рассуждений, представляющая собой программу на естественном языке, которой модель затем руководствуется. Шолле считает неправдоподобными предположения о том, что o1 выполняет всю работу за один прямой проход (forward pass) во время инференса — аномально высокое потребление токенов и задержка (latency) однозначно указывают на активные вычисления во время вывода.

Комментируя так называемый «закон масштабирования времени вывода» (test-time scaling law), о котором активно заявляют такие исследователи, как Ноам Браун, Шолле подтверждает логарифмическую зависимость между объемом затраченных вычислений и точностью ответов. Чем больше вычислительный бюджет, тем глубже алгоритм может продвинуться в пространстве поиска программ, что справедливо как для o1, так и для классических систем грубого перебора программ.

🚀 Будущее: Синтез программ и децентрализованный ИИ 1:10:39

Франсуа Шолле объявил о своем уходе из компании Google, где он на протяжении многих лет руководил разработкой экосистемы Keras. Совместно с партнером он основывает независимый исследовательский стартап и лабораторию, которая целиком сфокусируется на задачах индуктивного синтеза программ под управлением глубокого обучения.

По мнению ученого, современная индустрия совершает ошибку, пытаясь генерировать программный код посимвольно (token-by-token), как обычный текст. Гость полагает, что правильный подход состоит в рассмотрении программы как графа операторов, а самого процесса синтеза — как древовидного поиска, где LLM должна выступать не генератором, а проводником (гидом). При итеративном поиске в графе модель получает возможность осуществлять точечные, направленные модификации программной структуры, что невозможно при посимвольном подходе.

Шолле описывает архитектуру ИИ будущего как глобально распределенную систему непрерывного обучения (lifelong distributed learning):

В долгосрочной перспективе, как прогнозирует гость, это приведет к полной демократизации программирования через парадигму «ввод-вывод» (input-output programming). Нетехнические пользователи смогут описывать желаемую автоматизацию на естественном языке, через графические интерфейсы или схемы данных. В случае двусмысленности ИИ будет интерактивно запрашивать уточнения, демонстрируя тестовые результаты на конкретных примерах, формируя корректную программу в коллаборации с человеком. Сложность гигантских кодовых баз, которую уже сегодня не способен удержать в голове ни один программист, будет полностью делегирована внешнему ИИ-инструменту.

Делясь личными привычками, Шолле признался, что в повседневной работе программиста использует коммерческие ИИ-инструменты умеренно. Он оплачивает подписку на Gemini Advanced, тестирует легковесную модель Gemini Flash, а для написания кода предпочитает Claude 3.5. Среди ключевых failure-модов (ошибок) современных LLM при написании кода исследователь выделяет генерацию избыточных неиспользуемых переменных и закладывание в код ложных, непроверенных предположений о структуре входящих данных.

💬 Цитаты

«Сознание — это механизм проверки на самосогласованность. Это процесс, который заставляет следующую итерацию вашей интуиции быть непротиворечивой по отношению ко всему, что было до нее.»

Франсуа Шолле 1:02:26

«Имея бесконечные вычисления, вы можете решить бенчмарк крайне глупым способом, например, полным перебором. Но лучшие идеи дают колоссальный рычаг для оптимизации вычислений.»

Франсуа Шолле 17:41
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Синтез программ (Program synthesis)
Автоматическая генерация исполняемого исходного кода или алгоритма ИИ-системой на основе заданных спецификаций или примеров ввода-вывода.
Трансдукция (Transduction)
Метод предсказания конкретных выходных значений для тестовых примеров напрямую на основе обучающих паттернов без вывода общего правила или формулы.
Индукция (Induction)
Процесс вывода общего логического правила, алгоритма или функции на основе анализа частных примеров.
Вычисления во время вывода (Test-time compute)
Вычислительные ресурсы, затрачиваемые ИИ-моделью непосредственно в процессе формирования ответа на этапе инференса (например, для внутреннего поиска или дообучения).
📊 Цифры
🗓 Хронология
  1. 2013 год Франсуа Шолле начинает активно заниматься исследованиями в области глубокого обучения.
  2. 2014 год Шолле начинает активную популяризацию глубокого обучения и создает фреймворк Keras.
  3. 2017 год Исследователь начинает публично отстаивать концепцию синтеза программ, управляемого глубоким обучением, как гибридного подхода.
  4. 2020 год Проведение первого конкурса ARC на платформе Kaggle, показавшего ограниченность методов прямого перебора.
  5. 2022 год Франсуа Шолле анонсирует разработку ARC V2 и начинает краудсорсинг задач совместно с Lab 42 в Давосе.
  6. 2024 год Завершение соревнований ARC Prize 2024 года и фиксация паритета между легковесными алгоритмами и фронтирными моделями на уровне 55%.
  7. 2025 год Запланированный релиз новой версии бенчмарка ARC V2 с защитой от утечек данных.
⚖️ Другая сторона
Искусственный интеллект Франсуа Шолле OpenAI o1 ARC Prize Keras