Тим Скарфе и Мо о взломе ARC через Test-Time Fine-tuning

Machine Learning Street Talk 13,1 тыс. 1 ч 3 мин 4 мин 22.03.2025
Главное

В новом выпуске Machine Learning Street Talk Тим Скарфе (Tim Scarfe) обсуждает с Мо (Muhammad), участником команд MindsAI и ныне Twofer AI Labs, революционный подход к решению задач ARC (Abstraction and Reasoning Corpus). В то время как передовые модели вроде GPT-4 показывают в этом тесте скромные 10%, команда Мо достигла рекордного результата в 58%, используя методы адаптации во время инференса.

🧩 Загадка ARC: Почему нейросети пасуют перед детскими задачами 1:31

Бенчмарк ARC, созданный Франсуа Шолле, долгое время считался непреодолимым барьером для глубокого обучения. Суть проблемы в том, что задачи требуют вывода сложных правил трансформации из минимального количества примеров. Традиционные большие языковые модели (LLM) крайне плохо справляются с подобной абстракцией.

Команда MindsAI (в состав которой входят Джек Коул и Майкл Ходдл) представила работу под названием «Don’t Throw the Baby Out with the Bathwater: How and Why Deep Learning for ARC», где описывается их путь к результату в 58% на лидерборде. По мнению Мо, задачи ARC — это прежде всего проблемы перцептивного (воспринимаемого) мышления.

Ключевой вывод исследователей заключается в том, что архитектура и масштаб модели имеют большее значение для построения новых абстракций, чем предварительное обучение. Большие модели просто более экспрессивны, что позволяет им лучше адаптироваться в процессе вывода.

🛠 Методология успеха: TTFT и голосование 2:25

Для достижения рекордных показателей команда использовала два основных технических приема:

  1. Test-Time Active Fine-tuning (TTFT): Метод, при котором модель дообучается прямо в процессе решения конкретной задачи. На основе примеров из пазла генерируются синтетические обучающие данные, и веса модели корректируются «на лету».
  2. Augment Inference Reverse Vote: К входным пазлам применяются различные трансформации, генерируются предсказания, затем выполняется обратная трансформация и запускается механизм голосования для поиска наиболее стабильного решения.

Согласно цифрам, приведенным в интервью, механизм голосования улучшил производительность на 260%, а тонкая настройка во время теста (TTFT) добавила еще 300% к эффективности.

🧠 Парадигма восприятия против символьного кода 7:08

Мо утверждает, что TTFT — это новая парадигма глубокого обучения, выходящая за рамки классического подхода с замороженными весами. Он сравнивает решение ARC с распознаванием образов:

Тим Скарфе отмечает, что многие интуитивно тяготеют к генерации кода из-за его композициональности. Однако Мо считает, что нейросети можно «заставить» быть композициональными, если заложить правильные смещения (biases) достаточно глубоко в архитектуру.

🧪 Архитектурные секреты и претрейнинг 20:45

Вопреки моде на гигантские авторегрессионные модели, команда использовала относительно старую архитектуру:

Мо подчеркивает важность «сырого» представления данных. По его мнению, использование визуальных языковых моделей (VLM) для ARC — плохая идея, так как их замороженные энкодеры навязывают фиксированную перспективу. Если VLM видит руку с шестью пальцами, она может упорно утверждать, что их пять, потому что ее визуальный банк перегружен стандартными примерами. Для ARC же нужна максимальная гибкость восприятия.

🏢 Будущее в Twofer AI Labs 51:21

Недавно стало известно, что MindsAI была приобретена новой исследовательской лабораторией Twofer AI Labs в Цюрихе. Теперь вся команда работает там, обладая значительным финансированием и вычислительными мощностями.

Мо поделился подробностями о том, почему они не открыли исходный код своего решения сразу:

Тем не менее, Мо отмечает, что их идеи уже широко разошлись: около 80% участников из топ-10 текущего лидерборда используют схожие методы TTFT и голосования.

📉 Почему трансформеры «не умеют считать» 1:01:11

Одной из самых слабых зон нейросетей в ARC остается простой подсчет объектов. Мо подтверждает, что в задачах на ConceptARC категория «counting» показывает худшие результаты.

Тим Скарфе упоминает недавние исследования DeepMind, согласно которым проблема кроется в архитектуре самовнимания (self-attention) и функции softmax. Из-за «репрезентационного сплющивания» (representational squashing) трансформеры в пределе фокусируют все внимание на первом токене, что мешает им выполнять тривиальные задачи по копированию или подсчету данных. По словам Скарфе, модели могут провалиться даже при попытке досчитать до 100.

Мо резюмирует, что решение этих архитектурных узких мест — ключ к достижению 100% результата в ARC и созданию по-настоящему разумного ИИ.

💬 Цитаты

«Test-time fine-tuning — это новая парадигма глубокого обучения, которая находится полностью за пределами классических подходов.»

«Трансформеры, даже в тривиальном смысле, не могут выполнять подсчет или копирование. Они просто не способны на это.»

Тим Скарфе 00:37
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
ARC (Abstraction and Reasoning Corpus)
Набор визуальных задач-головоломок для проверки способности ИИ к обобщению, созданный Франсуа Шолле.
Test-Time Fine-tuning (TTFT)
Процесс обновления весов нейросети непосредственно в момент обработки тестового примера.
Transduction
Метод обучения, направленный на получение предсказаний для конкретных тестовых случаев, а не на поиск общего правила для всех возможных данных.
VLM (Vision-Language Model)
Мультимодальная модель, способная одновременно обрабатывать текст и изображения.
📊 Цифры
🗓 Хронология
  1. 2020 Запуск первой версии ARC Challenge и использование брутфорс-методов участниками.
  2. 2023 Интервью Мо на MLST, где он впервые анонсировал свои идеи.
  3. 2024 Приобретение MindsAI лабораторией Twofer AI Labs и публикация новых результатов (58%).
⚖️ Другая сторона
Искусственный интеллект ARC Challenge Test-Time Fine-tuning Twofer AI Labs Tim Scarfe