# Францен и Диссельхофф: «LLM — слишком мощные инструменты для ARC»

Источник: https://www.youtube.com/watch?v=mTX_sAq--zY
Канал: Machine Learning Street Talk
Опубликовано: 12.02.2025

---

## Архитекторы победы: как Даниэль Францен и Ян Диссельхофф покорили ARC Prize 2024
[[JUMP:0:00]]

Победители конкурса ARC Prize 2024 Даниэль Францен и Ян Диссельхофф рассказали о своем подходе к решению задач на абстрактное мышление (ARC), который позволил им обойти конкурентов. Их стратегия сочетала использование языковых моделей (LLM) с инновационными методами поиска и самооценки, что позволило достичь высоких результатов в задачах, которые изначально считались невыполнимыми для таких моделей. Исследователи основали новую лабораторию Tufa Labs в Цюрихе, чтобы продолжать работу в области фундаментальных исследований ИИ.

### 🤖 Гибкость языковых моделей и «тестовое обучение»
[[JUMP:0:27]]

Разработчики начали работу с попыток тонкой настройки (fine-tuning) большой языковой модели, но вскоре поняли, что для достижения успеха необходимы дополнительные вычислительные шаги вне самой модели.

*   **Архитектура:** Основой послужила Llama 3.2 3B — авторы выбрали именно эту версию, так как она обладает мощностью, сопоставимой с более крупными моделями, но работает значительно быстрее, что критически важно для экспериментов.
*   **Тестовое обучение (Test Time Training):** Ключевой находкой стал процесс дополнительного обучения модели прямо во время выполнения задачи на основе примеров из проверочного набора.
*   **Отказ от лишнего:** Исследователи обнаружили, что попытки помочь модели, явно задавая координаты или размеры сетки, почти не улучшают результат. Модель «научилась» неявно понимать 2D-структуру задач, работая исключительно с одномерным текстовым представлением данных.

### 🌳 Поиск по дереву и эффективность генерации
[[JUMP:14:08]]

Для генерации ответов команда разработала собственный алгоритм поиска в глубину (Depth First Search, DFS), который оказался эффективнее стандартного поиска по лучу (beam search).

*   **Механика:** Система рассматривает токены, предсказанные сетью, как дерево поиска.
*   **Преимущества:** Алгоритм очень экономен в плане оперативной памяти, так как хранит только один путь, и позволяет задавать порог вероятности (например, 10%), отсекая бесперспективные ветви.
*   **Отличие от языка:** По словам Францена и Диссельхоффа, этот метод идеально подходит для ARC, так как пространство решений здесь конечно и дискретно, в отличие от естественного языка, где количество вариантов бесконечно.

### 🧐 Самопроверка через аугментацию
[[JUMP:24:13]]

Одной из самых сложных задач стал выбор правильного кандидата из множества сгенерированных ответов. Авторы решили использовать саму модель для оценки качества предложенных ею решений.

*   **Процесс:** Для каждого задания генерируется до 16 различных аугментаций (вращения, зеркальные отражения, сдвиги).
*   **Логика выбора:** Правильный ответ должен выглядеть логично с разных перспектив. Если решение получает крайне низкие оценки (например, 0,01% вероятности) хотя бы в одной из аугментаций, оно признается ошибочным.
*   **Парадокс:** Исследователи отмечают, что им на руку играет несовершенство модели в 2D-задачах: если бы LLM была идеально инвариантна к поворотам, такой метод оценки не сработал бы.

### 🧠 Обучение и будущее ИИ
[[JUMP:34:34]]

В ходе дискуссии спикеры затронули фундаментальные вопросы архитектуры ИИ. Они отметили, что их итоговая модель была «лоботомирована» — у нее удалили все языковые способности, оставив только возможность оперировать числами 0–9 и служебными токенами для ARC, что значительно сэкономило ресурсы.

*   **Обучение на данных:** Использование датасета Rearc (проект Майкла Ходдла) дало возможность генерировать практически бесконечный поток обучающих примеров.
*   **Мнение о Frontier-моделях:** По мнению гостей, современные крупные модели (вроде ChatGPT) часто справляются с базовыми задачами не потому, что обладают «общим интеллектом», а из-за того, что запомнили огромное количество парных примеров.
*   **Будущее:** Францен и Диссельхофф полагают, что в будущем архитектуры будут все чаще учиться «онлайн», адаптируясь к новым задачам прямо в процессе их выполнения, подобно тому, как это делают сейчас системы с активной подстройкой.