Францен и Диссельхофф: «LLM — слишком мощные инструменты для ARC»

Архитекторы победы: как Даниэль Францен и Ян Диссельхофф покорили ARC Prize 2024 0:00

Победители конкурса ARC Prize 2024 Даниэль Францен и Ян Диссельхофф рассказали о своем подходе к решению задач на абстрактное мышление (ARC), который позволил им обойти конкурентов. Их стратегия сочетала использование языковых моделей (LLM) с инновационными методами поиска и самооценки, что позволило достичь высоких результатов в задачах, которые изначально считались невыполнимыми для таких моделей. Исследователи основали новую лабораторию Tufa Labs в Цюрихе, чтобы продолжать работу в области фундаментальных исследований ИИ.

🤖 Гибкость языковых моделей и «тестовое обучение» 0:27

Разработчики начали работу с попыток тонкой настройки (fine-tuning) большой языковой модели, но вскоре поняли, что для достижения успеха необходимы дополнительные вычислительные шаги вне самой модели.

Архитектура: Основой послужила Llama 3.2 3B — авторы выбрали именно эту версию, так как она обладает мощностью, сопоставимой с более крупными моделями, но работает значительно быстрее, что критически важно для экспериментов.
Тестовое обучение (Test Time Training): Ключевой находкой стал процесс дополнительного обучения модели прямо во время выполнения задачи на основе примеров из проверочного набора.
Отказ от лишнего: Исследователи обнаружили, что попытки помочь модели, явно задавая координаты или размеры сетки, почти не улучшают результат. Модель «научилась» неявно понимать 2D-структуру задач, работая исключительно с одномерным текстовым представлением данных.

🌳 Поиск по дереву и эффективность генерации 14:08

Для генерации ответов команда разработала собственный алгоритм поиска в глубину (Depth First Search, DFS), который оказался эффективнее стандартного поиска по лучу (beam search).

Механика: Система рассматривает токены, предсказанные сетью, как дерево поиска.
Преимущества: Алгоритм очень экономен в плане оперативной памяти, так как хранит только один путь, и позволяет задавать порог вероятности (например, 10%), отсекая бесперспективные ветви.
Отличие от языка: По словам Францена и Диссельхоффа, этот метод идеально подходит для ARC, так как пространство решений здесь конечно и дискретно, в отличие от естественного языка, где количество вариантов бесконечно.

🧐 Самопроверка через аугментацию 24:13

Одной из самых сложных задач стал выбор правильного кандидата из множества сгенерированных ответов. Авторы решили использовать саму модель для оценки качества предложенных ею решений.

Процесс: Для каждого задания генерируется до 16 различных аугментаций (вращения, зеркальные отражения, сдвиги).
Логика выбора: Правильный ответ должен выглядеть логично с разных перспектив. Если решение получает крайне низкие оценки (например, 0,01% вероятности) хотя бы в одной из аугментаций, оно признается ошибочным.
Парадокс: Исследователи отмечают, что им на руку играет несовершенство модели в 2D-задачах: если бы LLM была идеально инвариантна к поворотам, такой метод оценки не сработал бы.

🧠 Обучение и будущее ИИ 34:34

В ходе дискуссии спикеры затронули фундаментальные вопросы архитектуры ИИ. Они отметили, что их итоговая модель была «лоботомирована» — у нее удалили все языковые способности, оставив только возможность оперировать числами 0–9 и служебными токенами для ARC, что значительно сэкономило ресурсы.

Обучение на данных: Использование датасета Rearc (проект Майкла Ходдла) дало возможность генерировать практически бесконечный поток обучающих примеров.
Мнение о Frontier-моделях: По мнению гостей, современные крупные модели (вроде ChatGPT) часто справляются с базовыми задачами не потому, что обладают «общим интеллектом», а из-за того, что запомнили огромное количество парных примеров.
Будущее: Францен и Диссельхофф полагают, что в будущем архитектуры будут все чаще учиться «онлайн», адаптируясь к новым задачам прямо в процессе их выполнения, подобно тому, как это делают сейчас системы с активной подстройкой.