# Йонас Хюботтер: «Локальное обучение ИИ превосходит огромные модели в 30 раз»

Источник: https://www.youtube.com/watch?v=C6sSs6NgANo
Канал: Machine Learning Street Talk
Опубликовано: 30.11.2024

---

С развитием больших языковых моделей искусственный интеллект столкнулся с фундаментальным ограничением статической параметрической памяти, требующей колоссальных затрат на переобучение. В недавнем интервью для канала Machine Learning Street Talk докторант ETH Zurich Йонас Хюботтер (Jonas Hübotter) подробно описал концепцию Test-Time Adaptation (адаптации во время инференса), которая позволяет моделям динамически обновлять свои веса под конкретную задачу. Полноценное развертывание этого подхода, сочетающего локальное обучение и байесовские суррогатные модели, способно радикально изменить то, как современные ИИ-системы распределяют вычислительные ресурсы и справляются с неопределенностью.

## 🧠 Новая парадигма: вычисления во время инференса и бенчмарк The Pile
[[JUMP:2:20]]

Йонас Хюботтер, исследователь из Института машинного обучения ETH Zurich, совместно с профессором Андреасом Краузе сфокусировался на масштабировании локального обучения и последовательного принятия решений для современных LLM. Главная идея их подхода заключается в выделении дополнительного вычислительного бюджета непосредственно в момент инференса (test time). 

В ходе экспериментов исследователям удалось превзойти существующие передовые решения на масштабном академическом бенчмарке The Pile, который объединяет тексты из Stack Exchange, Hacker News, а также математические и кодовые репозитории. Разработанный Хюботтером метод позволил относительно небольшой языковой модели обойти по качеству работы алгоритм, который превосходил её по размеру более чем в 30 раз.

Как отмечает гость, информация в бенчмарке The Pile отражает центральное распределение данных, на которых обучаются современные коммерческие модели. При этом локальная адаптация демонстрирует высокую эффективность даже на старых моделях, таких как GPT-2, которая была выпущена до официального релиза датасета The Pile. По мнению Хюботтера, замечательным фактом является то, что даже если информация уже закодирована в огромной параметрической модели, демонстрация точечного, информативного фрагмента данных в момент выполнения запроса критически улучшает точность предсказания.

## 📊 Ограничения RAG и дилемма: контекст против градиентного спуска
[[JUMP:7:42]]

В контексте развития систем генерации с привлечением поиска (RAG) Хюботтер указывает на фундаментальные архитектурные ограничения стандартных подходов. Большинство современных RAG-систем опираются на поиск ближайших соседей (nearest neighbor search) по плотным векторным эмбеддингам, что часто приводит к извлечению избыточной и дублирующей информации. Гость утверждает, что выбор данных на основе метрики информативности дает гораздо более весомый результат, чем слепое извлечение семантически похожих фрагментов.

В научном сообществе по-прежнему ведется дискуссия о том, как эффективнее передавать данные модели: через контекстное окно (In-Context Learning) или через градиентные шаги (fine-tuning). Эксперименты Хюботтера выявили, что тонкая настройка весов во время инференса имеет колоссальное преимущество перед контекстным обучением на специфических типах данных из Pile:

* Математический датасет DeepMind Math (задачи школьного уровня, вычисление производных, решение уравнений).
* Исходный код программного обеспечения.
* Научные публикации из репозитория arXiv.
* Юридическая база Free Law, содержащая судебные решения.

При этом контекстное обучение (ICL) имеет свои риски. Ведущий заметил, что ICL на практике кажется более точным и реже страдает от галлюцинаций, поскольку данные жестко зафиксированы в оперативной памяти, в то время как интеграция знаний внутрь весов размывает их разрешение. 

Хюботтер парировал это ссылкой на исследования, доказывающие, что при подаче данных в контекст нередко возникает конфликт с информацией, полученной моделью во время предварительного обучения (pre-training), что приводит к непредсказуемому поведению ИИ. В то же время обратное распространение ошибки (backprop) доказало свою предельную эффективность в обучении моделей воспроизведению сложных паттернов и алгоритмов.

## 🐜 От муравейников до абстракций: природа интеллекта и компрессии
[[JUMP:13:34]]

Для объяснения природы эмерджентных свойств ИИ собеседники обратились к биологическим и социальным аналогиям. Ведущий привел пример муравейника, где отдельные особи действуют по простейшим химическим правилам (выделение феромонов при поиске пищи), но вся колония в целом демонстрирует сложнейшее целенаправленное поведение. Хюботтер поддержал эту мысль через метафору симуляторов градостроительства (city builder games), где поведение агентов жестко ограничено внешней средой, дорожной сетью и экономическими транзакциями. 

В процессе обсуждения дискуссии Элиезера Юдковского и Стивена Вольфрама о природе человеческих желаний и инструментальной конвергенции, Хюботтер выразил мнение, что ключевым элементом агентности ИИ является способность к формированию абстракций. Прорывы в сфере ИИ, по словам гостя, происходят тогда, когда система временно отходит от жадного преследования глобальной цели и формирует промежуточные абстрактные подцели, неочевидные для человека. 

Собеседники согласились с классическим тезисом Юргена Шмидхубера о том, что интеллект эквивалентен сжатию (compression) данных. Однако классические ИИ-системы, в отличие от распределенных биологических организмов, обучаются централизованно через стохастический градиентный спуск (SGD) и имеют искусственно навязанные создателями информационные границы. Адепты теории активного вывода (Active Inference) Карла Фристона надеются, что минимизация свободной энергии в вероятностных моделях позволит ИИ самостоятельно генерировать свои цели, подобно тому как ДНК задает жесткие рамки выживания (потребность в воде и пище), но оставляет огромный простор для поведенческой пластичности и культурного разнообразия.

## 📜 Эволюция локального обучения: от Вапника до суррогатных моделей
[[JUMP:28:34]]

Объясняя вычислительную сторону вопроса, Хюботтер раскрыл причины, почему тонкая настройка на пакете примеров во время инференса может стоить дешевле, чем раздувание контекстного окна. При контекстном обучении каждый новый генерируемый токен требует квадратичного внимания (attention) ко всем предыдущим токенам, тогда как fine-tuning сжимает и амортизирует информацию непосредственно в веса модели, сводя последующие затраты к линейным.

История локального обучения, по словам Хюботтера, представляет собой четкую линейную траекторию, берущую начало в середине прошлого века:

1.  **1950-е годы:** Появление метода ближайших соседей (nearest neighbor) на базе функций расстояния.
2.  **1960-е годы:** Разработка ядерной регрессии (kernel regression), где значимость точек взвешивалась на основе их близости через функцию ядра.
3.  **1970-е годы:** Старт локально взвешенной линейной регрессии, когда для каждого отдельного предсказания обучалась своя линейная голова, а данные вокруг точки предсказания получали наивысший вес.

Ведущий напомнил, что основы трансдуктивного обучения (обучения от частного к частному для конкретного входа, в противовес индуктивному поиску общего решающего правила) закладывались советским математиком Владимиром Вапником задолго до революции глубокого обучения. В современную эпоху масштаб задач вырос от распознавания рукописных цифр MNIST до обработки естественного языка, видео и изображений, но индуктивная парадигма осталась неизменной — одна фиксированная функция пытается амортизировать интуицию обо всем многообразии данных сразу.

## 🗺️ Аналогия с Google Earth и метод SIFT: борьба с избыточностью
[[JUMP:37:47]]

Для визуализации концепции переменного вычислительного расхода собеседники использовали аналогию с сервисом Google Earth. На самом верхнем уровне карта состоит из огромных грубых тайлов низкого разрешения, но по мере приближения к Лондону или Цюриху разрешение динамически увеличивается. Локальное обучение работает точно так же: вместо попытки отобразить весь мир в максимальном качестве, оно реаллоцирует вычислительную мощность пикселей на конкретный исследуемый участок.

Разработанный Хюботтером метод **SIFT** (Selective Inference-Time Fine-Tuning) реализует этот принцип, локально «зумируя» многообразие данных. Базовая модель замораживается, а на этапе инференса алгоритм извлекает из памяти примеры, описывающие геометрию локального многообразия вокруг текущего запроса, и осуществляет быструю дообучающую итерацию.

Главное отличие SIFT от наивного поиска ближайших соседей заключается в оценке прироста информации (information gain). Хюботтер привел пример комплексного запроса: *«Каков возраст Майкла Джордана и сколько у него детей?»*. В пространстве абстракций стандартный векторный поиск извлечет два или три ближайших документа, которые, скорее всего, будут дублировать информацию только об одном аспекте (например, о возрасте), полностью проигнорировав данные о детях из-за их чуть большей удаленности в латентном пространстве. Метод SIFT выбирает первый пример как ближайший сосед, но каждый последующий шаг делает упор на ортогональность новой информации по отношению к уже собранной, гарантируя максимальное покрытие и отсутствие избыточности.

## 🔮 Математика неопределенности: байесовская регрессия в закрытой форме
[[JUMP:1:12:03]]

В основе SIFT лежит построение простой и вычислительно эффективной суррогатной модели поверх сложной нелинейной нейросети. Опираясь на гипотезу линейных представлений (linear representation hypothesis), активно изучаемую в интерпретируемости ИИ (включая работы Нила Нанды), Хюботтер исходит из того, что абстрактные концепции в глубоких сетях распределены как линейные направления в латентном пространстве предпоследнего слоя.

Использование суррогатной модели позволяет математически строго оценивать эпистемическую неопределенность (uncertainty) ИИ. Хюботтер объяснил, как им удалось обойти необходимость применения тяжелых методов Монте-Карло по схеме марковских цепей (MCMC):

> «Используя линейную суррогатную модель, принимая исходные случайные величины за гауссовы и применяя гауссову модель наблюдений, мы делаем этот апостериорный шаг полностью вычислимым. Мы можем записать точное решение в закрытой математической форме».

Модель аппроксимируется через байесовскую линейную регрессию с гауссовым априорным распределением весов и гауссовым правдоподобием. В результате алгоритм SIFT минимизирует эпистемическую дисперсию (variance) конкретного предсказания, выбирая из памяти строго те данные, которые сделают финальный ответ максимально уверенным. Если в памяти нет релевантных данных, система понимает это по оценке неопределенности и полностью блокирует шаг fine-tuning, страхуя модель от разрушительного переобучения.

## 💻 Будущее вычислений: Тьюринг-полнота и гибридный инференс
[[JUMP:1:24:04]]

Архитектура, предложенная Хюботтером, разделяет систему на неизменяемый «контроллер» (саму LLM, выступающую аналогом конечного автомата) и потенциально бесконечную внешнюю память (аналог ленты машины Тьюринга). По мнению собеседников, такой подход выводит ИИ за рамки жестко ограниченных статических моделей и превращает его в Тьюринг-полную вычислительную среду.

В качестве примера аналогичных систем на практике ведущий привел триумфаторов сложнейшего геометрического бенчмарка ARC Challenge — команду Mind's Eye, которая задействует генераторы датасетов на этапе инференса и верификацию решений через Python-код. 

Обсуждая закрытые коммерческие разработки, в частности модель o1 от OpenAI и заявляемые ими законы масштабирования времени инференса (inference-time scaling laws), Хюботтер признал, что точные внутренние механизмы o1 неизвестны. Однако сама индустрия, как считает гость, неизбежно движется к предоставлению облачными провайдерами опции вариативного инференса, где пользователь сможет сам определять бюджет вычислений под конкретную задачу.

В будущем Хюботтер видит развитие локальной адаптации в двух направлениях:

* **Локальное использование:** Задействование простаивающих мощностей персональных устройств (например, чипов M4 в новых ноутбуках MacBook Pro) для непрерывной адаптации моделей под локальные репозитории пользователя в реальном времени.
* **Облачные супервычисления:** Покупка дополнительных серверных мощностей для долгосрочного решения сложнейших научных или инженерных задач методом глубокого направленного поиска.

Внедрение динамической оценки уверенности ИИ в сочетании с трансдуктивным активным обучением в ближайшие пять лет способно решить главную проблему монолитных LLM — их неспособность эффективно функционировать в условиях высокой неопределенности и открытых изменяющихся сред.