Тим Скарфе и Мо о взломе ARC через Test-Time Fine-tuning

В новом выпуске Machine Learning Street Talk Тим Скарфе (Tim Scarfe) обсуждает с Мо (Muhammad), участником команд MindsAI и ныне Twofer AI Labs, революционный подход к решению задач ARC (Abstraction and Reasoning Corpus). В то время как передовые модели вроде GPT-4 показывают в этом тесте скромные 10%, команда Мо достигла рекордного результата в 58%, используя методы адаптации во время инференса.

🧩 Загадка ARC: Почему нейросети пасуют перед детскими задачами 1:31

Бенчмарк ARC, созданный Франсуа Шолле, долгое время считался непреодолимым барьером для глубокого обучения. Суть проблемы в том, что задачи требуют вывода сложных правил трансформации из минимального количества примеров. Традиционные большие языковые модели (LLM) крайне плохо справляются с подобной абстракцией.

Команда MindsAI (в состав которой входят Джек Коул и Майкл Ходдл) представила работу под названием «Don’t Throw the Baby Out with the Bathwater: How and Why Deep Learning for ARC», где описывается их путь к результату в 58% на лидерборде. По мнению Мо, задачи ARC — это прежде всего проблемы перцептивного (воспринимаемого) мышления.

Ключевой вывод исследователей заключается в том, что архитектура и масштаб модели имеют большее значение для построения новых абстракций, чем предварительное обучение. Большие модели просто более экспрессивны, что позволяет им лучше адаптироваться в процессе вывода.

🛠 Методология успеха: TTFT и голосование 2:25

Для достижения рекордных показателей команда использовала два основных технических приема:

Test-Time Active Fine-tuning (TTFT): Метод, при котором модель дообучается прямо в процессе решения конкретной задачи. На основе примеров из пазла генерируются синтетические обучающие данные, и веса модели корректируются «на лету».
Augment Inference Reverse Vote: К входным пазлам применяются различные трансформации, генерируются предсказания, затем выполняется обратная трансформация и запускается механизм голосования для поиска наиболее стабильного решения.

Согласно цифрам, приведенным в интервью, механизм голосования улучшил производительность на 260%, а тонкая настройка во время теста (TTFT) добавила еще 300% к эффективности.

🧠 Парадигма восприятия против символьного кода 7:08

Мо утверждает, что TTFT — это новая парадигма глубокого обучения, выходящая за рамки классического подхода с замороженными весами. Он сравнивает решение ARC с распознаванием образов:

Проблема интерпретации: Перед тем как начать рассуждать, модель должна найти правильный уровень репрезентации.
Аналогия с яблоками: Чтобы сосчитать четыре яблока, нужно сначала идентифицировать «яблоко» в бесконечном многообразии освещения и ракурсов.
Прямое предсказание: В отличие от многих исследователей, команда Мо не генерирует промежуточный код на Python. Они обучают нейросеть предсказывать решение напрямую в пространстве пикселей.

Тим Скарфе отмечает, что многие интуитивно тяготеют к генерации кода из-за его композициональности. Однако Мо считает, что нейросети можно «заставить» быть композициональными, если заложить правильные смещения (biases) достаточно глубоко в архитектуру.

🧪 Архитектурные секреты и претрейнинг 20:45

Вопреки моде на гигантские авторегрессионные модели, команда использовала относительно старую архитектуру:

Модель: Вариант T5 (Long T5), архитектура «энкодер-декодер».
Размер: Всего около 340 миллионов параметров.
Данные: Модель обучалась на коде и синтетических задачах ARC для усиления способности к контекстуализации.

Мо подчеркивает важность «сырого» представления данных. По его мнению, использование визуальных языковых моделей (VLM) для ARC — плохая идея, так как их замороженные энкодеры навязывают фиксированную перспективу. Если VLM видит руку с шестью пальцами, она может упорно утверждать, что их пять, потому что ее визуальный банк перегружен стандартными примерами. Для ARC же нужна максимальная гибкость восприятия.

🏢 Будущее в Twofer AI Labs 51:21

Недавно стало известно, что MindsAI была приобретена новой исследовательской лабораторией Twofer AI Labs в Цюрихе. Теперь вся команда работает там, обладая значительным финансированием и вычислительными мощностями.

Мо поделился подробностями о том, почему они не открыли исходный код своего решения сразу:

Требования конкурса были слишком обширными (веса, код обучения, примеры).
Призовой фонд в $25 000 (после налогов) не создавал достаточных стимулов для полного раскрытия проприетарных наработок при достижении 58%, учитывая амбиции команды на результат в 85%.

Тем не менее, Мо отмечает, что их идеи уже широко разошлись: около 80% участников из топ-10 текущего лидерборда используют схожие методы TTFT и голосования.

📉 Почему трансформеры «не умеют считать» 1:01:11

Одной из самых слабых зон нейросетей в ARC остается простой подсчет объектов. Мо подтверждает, что в задачах на ConceptARC категория «counting» показывает худшие результаты.

Тим Скарфе упоминает недавние исследования DeepMind, согласно которым проблема кроется в архитектуре самовнимания (self-attention) и функции softmax. Из-за «репрезентационного сплющивания» (representational squashing) трансформеры в пределе фокусируют все внимание на первом токене, что мешает им выполнять тривиальные задачи по копированию или подсчету данных. По словам Скарфе, модели могут провалиться даже при попытке досчитать до 100.

Мо резюмирует, что решение этих архитектурных узких мест — ключ к достижению 100% результата в ARC и созданию по-настоящему разумного ИИ.