Как стартап MindsAI достиг рекордных 58% на бенчмарке ARC

Команда исследователей из MindsAI совершила прорыв в области абстрактного мышления искусственного интеллекта, достигнув рекордного результата в 58% на знаменитом тесте ARC (Abstraction and Reasoning Corpus). В интервью для канала Machine Learning Street Talk сооснователь стартапа Мухаммад (Mo) рассказал о том, как применение динамического дообучения нейросетей во время инференса (test-time fine-tuning) позволяет обойти фундаментальные ограничения современных языковых моделей. Этот подход, подкрепленный недавним поглощением команды швейцарской лабораторией Twofer AI Labs, открывает новые горизонты для создания ИИ, способного на лету адаптироваться к полностью незнакомым задачам.

🧠 Новый взгляд на инференс: Test-Time Fine-Tuning как смена парадигмы 7:00

По словам Мухаммада, концепцию изменения параметров модели непосредственно во время тестирования можно рассматривать как совершенно новую парадигму в глубоком обучении. Команда MindsAI видит в задачах Abstraction and Reasoning Corpus (ARC) в первую очередь перцептивную проблему, то есть проблему интерпретации и восприятия. При анализе незнакомой головоломки человек сталкивается с бесконечным множеством потенциальных правил трансформации входных данных в выходные.

Мухаммад проводит аналогию с распознаванием образов: прежде чем посчитать яблоки на картинке, человеческое зрение должно идентифицировать объект «яблоко» при любом уровне освещения и под любым углом. Как только мозг находит верный уровень абстракции, дальнейший поиск решения становится тривиальным. Именно поэтому для решения перцептивных задач MindsAI задействовала классический подход глубокого обучения, перенеся его на этап инференса (test-time).

💻 Пространство решений против пространства программ 10:37

В отличие от многих исследователей, таких как Кевин Эллис (Kevin Ellis) или создатель ARC Франсуа Шолле (François Chollet), команда MindsAI сделала ставку на прямое предсказание ответа в пространстве решений, отказавшись от генерации промежуточного кода на Python. Франсуа Шолле традиционно подчеркивает важность композициональности — способности программ собираться из мелких переиспользуемых блоков. По мнению ведущего Тима Скарфа, современные нейросети по умолчанию лишены этого свойства.

Мухаммад соглашается с этим тезисом, подчеркивая:

«По умолчанию нейросети просто учат статистику, и это не выглядит элегантно из-за отсутствия композициональности».

Однако гость утверждает, что если заложить правильные индуктивные смещения (biases) достаточно глубоко в архитектуру, модель обретает способность гибко настраивать логику рассуждений на этапе инференса. Тим Скарф упомянул недавнее исследование Лауры Руис (Laura Ruis) из Cohere, показавшее, что нейросети, обученные на программном коде, демонстрируют диффузную активацию при выполнении логических задач, фактически имитируя композициональное мышление, даже если не генерируют код напрямую. Мухаммад подтвердил, что обучение на коде заставляет модель быть контекстуально точной, так как в программировании, в отличие от естественного языка, нельзя «срезать углы».

🛠️ Анатомия метамодели: T5 из 2020 года и синтетический претрейн 20:33

Техническая сторона подхода MindsAI удивляет своей нестандартностью. Вместо гигантских современных авторегрессионных моделей команда использовала относительно старую архитектуру типа «энкодер-декодер» — модель T5 (а именно вариант Long T5), выпущенную около 2020 года.

Ключевые особенности базовой конфигурации системы:

Малый масштаб: модель насчитывает всего около 340 миллионов параметров.
Высокая динамичность: архитектура оптимизирована для управления через контекст (steerability).
Специфический претрейн: базовую модель дополнительно обучали на коде и массиве синтетических задач ARC, сгенерированных участником команды Джеком Коулом (Jack Cole).

Главное новшество MindsAI заключается в том, что они подают абсолютно все примеры головоломки (входные и выходные данные обучающих пар, а также тестовый вход) в один форвард-пасс одновременно. По мнению Мухаммада, это позволяет обучить слабую «метамодель», которая осваивает не конкретные паттерны трансформаций, а сам мета-процесс обобщения на основе контекста. Настроить такую метамодель на этапе инференса оказывается значительно проще, чем классические подходы. При этом кодирование условий происходит максимально просто — в виде обычного текста с числами, без применения специализированных токенизаторов, чтобы избежать уязвимости перед пограничными случаями (adversarial attacks).

🏹 Две технологические стрелы: активное дообучение и реверсивное голосование 2:12

Методология MindsAI базируется на двух ключевых техниках, которые позволили им набрать рекордные 58% на скрытом тестовом наборе ARC:

Активное дообучение на этапе инференса (Test-Time Active Fine-Tuning) — модель генерирует синтетические данные на основе примеров конкретной головоломки и дообучается на них прямо в процессе решения.
Реверсивное голосование при аугментации инференса (Augment Inference Reverse Vote) — к исходной головоломке применяются различные геометрические трансформации, генерируются предсказания, затем трансформации разворачиваются обратно, и система проводит мажоритарное голосование для выбора стабильного решения.

По данным исследователей, механизм голосования улучшил базовую производительность модели на 260%, а добавление активного дообучения принесло еще 300% прироста эффективности. Вместо случайного сэмплинга (temperature-based sampling) команда использует вариации лучевого поиска (beam search). Мухаммад поясняет, что в пространстве пикселей ARC любая ошибка уводит модель в сторону, из-за чего вероятности последующих токенов рассеиваются. Если же модель принимает верные решения, уверенность луча (beam) последовательно растет. При этом мажоритарное голосование идеально подходит для ARC, поскольку, по мнению гостя, существует бесчисленное множество способов ошибиться в загадке, но только один путь ведет к правильному ответу, соответствующему человеческим априорным знаниям (core knowledge priors).

💰 Финансовые стимулы и причины закрытости исходного кода 48:31

Несмотря на лидерство в таблице участников, MindsAI формально не разделили главный приз соревнований, так как приняли осознанное решение не открывать код своей системы. Мухаммад объяснил это жесткими требованиями организаторов ARC Prize: от участников требовали предоставить не только веса модели, но и весь код для генерации обучающих данных, а также специализированный DSL (язык спецификации предметной области), разработанный Майклом Ходдлом (Michael Hoddle).

С точки зрения гостя, предложенная структура вознаграждения была нерациональной:

Размер приза: сумма составляла $25 000 до вычета налогов.
Объем интеллектуальной собственности: требования затрагивали уникальные наработки команды, которые легли в основу топовых решений других участников.
Экономическая целесообразность: передача столь глубоких коммерческих технологий за указанную сумму не имела смысла для стартапа, нацеленного на долгосрочные исследования.

Впрочем, ситуация разрешилась для команды успешно: MindsAI была полностью поглощена швейцарской исследовательской лабораторией Twofer AI Labs (Цюрих). Теперь Мухаммад, Джек и Майкл обеспечены значительным финансированием и вычислительными мощностями, что позволяет им продолжить штурм ARC.

🧩 Проклятие трансформеров: почему ИИ не умеет считать 59:38

Говоря о слабых местах нейросетевого подхода, Мухаммад сослался на бенчмарк ConceptARC профессора Мелани Митчелл (Melanie Mitchell). Оказалось, что наиболее слабые результаты глубокое обучение демонстрирует в задачах, связанных с банальным подсчетом объектов (counting).

Тим Скарф поделился инсайдами из недавнего интервью с исследователями из Google DeepMind. По их мнению, фундаментальная неспособность трансформеров копировать строки и считать связана с эффектом «сжатия представлений» (representational squashing) и математическими особенностями функции softmax. В пределе при масштабировании трансформеров softmax заставляет модель фокусировать почти все внимание на самом первом токене, что лишает ее необходимой диффузности для творческого поиска.

Мухаммад считает, что решение этой проблемы лежит в изменении архитектуры слоев. Современные модели пытаются выполнить всю алгоритмическую обработку внутри одного слоя (через эвристические MLP-блоки), вместо того чтобы последовательно развивать алгоритм по мере продвижения вверх по слоям нейросети. В рамках Twofer AI Labs команда планирует сфокусироваться на преодолении этого барьера, поскольку решение проблемы композициональности и точного копирования, по мнению собеседников, станет «золотым билетом» к созданию полноценного ИИ уровня System 2.