Как стартап MindsAI достиг рекордных 58% на бенчмарке ARC

Machine Learning Street Talk 13,1 тыс. 1 ч 3 мин 5 мин 22.03.2025
Главное

Команда исследователей из MindsAI совершила прорыв в области абстрактного мышления искусственного интеллекта, достигнув рекордного результата в 58% на знаменитом тесте ARC (Abstraction and Reasoning Corpus). В интервью для канала Machine Learning Street Talk сооснователь стартапа Мухаммад (Mo) рассказал о том, как применение динамического дообучения нейросетей во время инференса (test-time fine-tuning) позволяет обойти фундаментальные ограничения современных языковых моделей. Этот подход, подкрепленный недавним поглощением команды швейцарской лабораторией Twofer AI Labs, открывает новые горизонты для создания ИИ, способного на лету адаптироваться к полностью незнакомым задачам.

🧠 Новый взгляд на инференс: Test-Time Fine-Tuning как смена парадигмы 7:00

По словам Мухаммада, концепцию изменения параметров модели непосредственно во время тестирования можно рассматривать как совершенно новую парадигму в глубоком обучении. Команда MindsAI видит в задачах Abstraction and Reasoning Corpus (ARC) в первую очередь перцептивную проблему, то есть проблему интерпретации и восприятия. При анализе незнакомой головоломки человек сталкивается с бесконечным множеством потенциальных правил трансформации входных данных в выходные.

Мухаммад проводит аналогию с распознаванием образов: прежде чем посчитать яблоки на картинке, человеческое зрение должно идентифицировать объект «яблоко» при любом уровне освещения и под любым углом. Как только мозг находит верный уровень абстракции, дальнейший поиск решения становится тривиальным. Именно поэтому для решения перцептивных задач MindsAI задействовала классический подход глубокого обучения, перенеся его на этап инференса (test-time).

💻 Пространство решений против пространства программ 10:37

В отличие от многих исследователей, таких как Кевин Эллис (Kevin Ellis) или создатель ARC Франсуа Шолле (François Chollet), команда MindsAI сделала ставку на прямое предсказание ответа в пространстве решений, отказавшись от генерации промежуточного кода на Python. Франсуа Шолле традиционно подчеркивает важность композициональности — способности программ собираться из мелких переиспользуемых блоков. По мнению ведущего Тима Скарфа, современные нейросети по умолчанию лишены этого свойства.

Мухаммад соглашается с этим тезисом, подчеркивая:

«По умолчанию нейросети просто учат статистику, и это не выглядит элегантно из-за отсутствия композициональности».

Однако гость утверждает, что если заложить правильные индуктивные смещения (biases) достаточно глубоко в архитектуру, модель обретает способность гибко настраивать логику рассуждений на этапе инференса. Тим Скарф упомянул недавнее исследование Лауры Руис (Laura Ruis) из Cohere, показавшее, что нейросети, обученные на программном коде, демонстрируют диффузную активацию при выполнении логических задач, фактически имитируя композициональное мышление, даже если не генерируют код напрямую. Мухаммад подтвердил, что обучение на коде заставляет модель быть контекстуально точной, так как в программировании, в отличие от естественного языка, нельзя «срезать углы».

🛠️ Анатомия метамодели: T5 из 2020 года и синтетический претрейн 20:33

Техническая сторона подхода MindsAI удивляет своей нестандартностью. Вместо гигантских современных авторегрессионных моделей команда использовала относительно старую архитектуру типа «энкодер-декодер» — модель T5 (а именно вариант Long T5), выпущенную около 2020 года.

Ключевые особенности базовой конфигурации системы:

Главное новшество MindsAI заключается в том, что они подают абсолютно все примеры головоломки (входные и выходные данные обучающих пар, а также тестовый вход) в один форвард-пасс одновременно. По мнению Мухаммада, это позволяет обучить слабую «метамодель», которая осваивает не конкретные паттерны трансформаций, а сам мета-процесс обобщения на основе контекста. Настроить такую метамодель на этапе инференса оказывается значительно проще, чем классические подходы. При этом кодирование условий происходит максимально просто — в виде обычного текста с числами, без применения специализированных токенизаторов, чтобы избежать уязвимости перед пограничными случаями (adversarial attacks).

🏹 Две технологические стрелы: активное дообучение и реверсивное голосование 2:12

Методология MindsAI базируется на двух ключевых техниках, которые позволили им набрать рекордные 58% на скрытом тестовом наборе ARC:

  1. Активное дообучение на этапе инференса (Test-Time Active Fine-Tuning) — модель генерирует синтетические данные на основе примеров конкретной головоломки и дообучается на них прямо в процессе решения.
  2. Реверсивное голосование при аугментации инференса (Augment Inference Reverse Vote) — к исходной головоломке применяются различные геометрические трансформации, генерируются предсказания, затем трансформации разворачиваются обратно, и система проводит мажоритарное голосование для выбора стабильного решения.

По данным исследователей, механизм голосования улучшил базовую производительность модели на 260%, а добавление активного дообучения принесло еще 300% прироста эффективности. Вместо случайного сэмплинга (temperature-based sampling) команда использует вариации лучевого поиска (beam search). Мухаммад поясняет, что в пространстве пикселей ARC любая ошибка уводит модель в сторону, из-за чего вероятности последующих токенов рассеиваются. Если же модель принимает верные решения, уверенность луча (beam) последовательно растет. При этом мажоритарное голосование идеально подходит для ARC, поскольку, по мнению гостя, существует бесчисленное множество способов ошибиться в загадке, но только один путь ведет к правильному ответу, соответствующему человеческим априорным знаниям (core knowledge priors).

💰 Финансовые стимулы и причины закрытости исходного кода 48:31

Несмотря на лидерство в таблице участников, MindsAI формально не разделили главный приз соревнований, так как приняли осознанное решение не открывать код своей системы. Мухаммад объяснил это жесткими требованиями организаторов ARC Prize: от участников требовали предоставить не только веса модели, но и весь код для генерации обучающих данных, а также специализированный DSL (язык спецификации предметной области), разработанный Майклом Ходдлом (Michael Hoddle).

С точки зрения гостя, предложенная структура вознаграждения была нерациональной:

Впрочем, ситуация разрешилась для команды успешно: MindsAI была полностью поглощена швейцарской исследовательской лабораторией Twofer AI Labs (Цюрих). Теперь Мухаммад, Джек и Майкл обеспечены значительным финансированием и вычислительными мощностями, что позволяет им продолжить штурм ARC.

🧩 Проклятие трансформеров: почему ИИ не умеет считать 59:38

Говоря о слабых местах нейросетевого подхода, Мухаммад сослался на бенчмарк ConceptARC профессора Мелани Митчелл (Melanie Mitchell). Оказалось, что наиболее слабые результаты глубокое обучение демонстрирует в задачах, связанных с банальным подсчетом объектов (counting).

Тим Скарф поделился инсайдами из недавнего интервью с исследователями из Google DeepMind. По их мнению, фундаментальная неспособность трансформеров копировать строки и считать связана с эффектом «сжатия представлений» (representational squashing) и математическими особенностями функции softmax. В пределе при масштабировании трансформеров softmax заставляет модель фокусировать почти все внимание на самом первом токене, что лишает ее необходимой диффузности для творческого поиска.

Мухаммад считает, что решение этой проблемы лежит в изменении архитектуры слоев. Современные модели пытаются выполнить всю алгоритмическую обработку внутри одного слоя (через эвристические MLP-блоки), вместо того чтобы последовательно развивать алгоритм по мере продвижения вверх по слоям нейросети. В рамках Twofer AI Labs команда планирует сфокусироваться на преодолении этого барьера, поскольку решение проблемы композициональности и точного копирования, по мнению собеседников, станет «золотым билетом» к созданию полноценного ИИ уровня System 2.

💬 Цитаты

«По умолчанию нейросети просто учат статистику, и это не выглядит элегантно из-за отсутствия композициональности»

«Вы меняете параметры прямо во время теста — это то, что полностью выходит за рамки привычной парадигмы глубокого обучения»

Мухаммад 7:21
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Test-Time Fine-Tuning
Процесс дообучения и изменения весов нейросети непосредственно во время тестирования или инференса на конкретной задаче.
Abstraction and Reasoning Corpus (ARC)
Бенчмарк для оценки способности искусственного интеллекта к абстрактному мышлению и быстрому обучению на единичных примерах.
Augment Inference Reverse Vote
Метод аугментации данных, при котором входная задача трансформируется, модель делает предсказания, трансформации отменяются, а финальный ответ выбирается голосованием.
Representational squashing
Эффект в архитектуре трансформеров, приводящий к избыточной концентрации внимания на первом токене и потере точности при подсчете объектов.
📊 Цифры
🗓 Хронология
  1. 2020 год Релиз архитектуры энкодер-декодер Long T5, легшей в основу решения MindsAI.
  2. Прошлый год Первое интервью Мухаммада на канале Machine Learning Street Talk.
  3. Период соревнований Команда MindsAI подняла свой результат на ARC со стартовых 33% до рекордных 58%.
  4. Момент записи интервью Швейцарская лаборатория Twofer AI Labs официально поглотила стартап MindsAI.
⚖️ Другая сторона
Искусственный интеллект MindsAI Twofer AI Labs test-time fine-tuning Abstraction and Reasoning Corpus