# Как малые LLM обходят гигантов: метод обучения в момент теста от Йонаса Хюботтера

Источник: https://www.youtube.com/watch?v=vei7uf9wOxI
Канал: Machine Learning Street Talk
Опубликовано: 16.11.2024

---

В современном мире вычислительные мощности становятся основной валютой, однако попытка создать универсальную нейросеть, знающую всё, упирается в физические ограничения ресурсов. Исследователь Йонас Хюботтер (Jonas Hübotter) предлагает альтернативный путь: вместо бесконечного раздувания параметров моделей адаптировать их под конкретную задачу прямо в процессе работы. Этот метод, известный как обучение во время теста (test-time learning), позволяет компактным моделям обходить по качеству гигантов, которые в десятки раз превосходят их по размеру.

## 🗺️ Обучение в момент запроса: аналогия с Google Maps
[[JUMP:00:00]]

Йонас Хюботтер сравнивает свой подход к работе больших языковых моделей (LLM) с механикой работы цифровых карт. Когда пользователь зумирует карту в Google Maps, система не подгружает сразу все данные планеты в максимальном разрешении — она детализирует лишь тот конкретный квадрат (тайл), который интересен человеку в данный момент. 

Аналогично работает и предложенный исследователем метод:

* При поступлении тестового запроса модель обращается к внешней памяти (базе данных).
* Происходит поиск релевантной информации (retrieval).
* Модель проходит через быстрый цикл дообучения (fine-tuning) на этих данных специально под текущий контекст.

По мнению Хюботтера, попытка решить «все проблемы мира» сразу неэффективна из-за лимитов памяти и времени. Гость ссылается на принцип знаменитого статистика Владимира Вапника: «При решении интересующей вас задачи не решайте более общую задачу как промежуточный шаг». Смысл в том, что для написания конкретного кода или решения математического уравнения модели не нужно «активировать» в себе знания о рецептах кухни или истории Древнего Рима.

## 📉 Локальные модели против глобальных аппроксимаций
[[JUMP:04:14]]

В классическом машинном обучении принято строго разделять фазы обучения и тестирования: модель обучается один раз, «замораживается» и затем выдает предсказания. Хюботтер считает, что это ограничение пора преодолеть. Он использует аналогию с аппроксимацией кривых: 

1.  **Глобальная модель:** пытается описать сложную, извилистую функцию одной формулой (например, линейной регрессией). Она неизбежно ошибается на резких поворотах данных.
2.  **Локальная модель:** строит отдельную простую функцию для каждого конкретного участка. 

Такой подход требует гораздо меньше данных для настройки и позволяет использовать простые архитектуры для решения сложных задач. По словам исследователя, локальное обучение состоит из двух ключевых компонентов:

* **Параметрический контроллер:** сама модель, которая делает предсказания.
* **Непараметрическая память:** хранилище данных, из которого выбираются примеры для локальной настройки.

## 🚀 Когда 3,8 млрд параметров побеждают 130 млрд
[[JUMP:12:46]]

Эмпирические данные, представленные Хюботтером, демонстрируют значительный прирост эффективности. В ходе экспериментов на бенчмарке Pile (огромный массив текстов, кода и научных работ) модель размером 3,8 млрд параметров с использованием test-time обучения показала результаты лучше, чем колоссальная модель со 130 млрд параметров. Это означает 30-кратное сокращение размера при росте качества.

Особого внимания заслуживает сравнение с методом In-Context Learning (ICL), когда примеры просто вставляются в контекстное окно:

* Для простых задач ICL и дообучение (backpropagation) работают на равных.
* В сложных доменах, таких как математика школьного уровня, написание кода или юридические документы, прямое дообучение на лету дает колоссальное преимущество. 
* Исследователь отмечает странный феномен: в математических задачах ICL иногда вообще не улучшает базовую модель, тогда как всего несколько шагов градиентного спуска по тем же самым данным радикально снижают ошибку.

## 🧠 Алгоритм SIFT: как выбирать данные с умом
[[JUMP:19:08]]

Критическим моментом при обучении на лету является выбор данных. Если подсунуть модели «мусор» или дубликаты, её ответы станут хуже. Традиционный поиск k-ближайших соседей (kNN) часто подводит. Хюботтер приводит пример: если спросить модель о возрасте Майкла Джордана и его детях, kNN может выдать два одинаковых текста только о возрасте, игнорируя информацию о семье из-за её меньшей частотности в векторе поиска.

Для решения этой проблемы был разработан алгоритм **SIFT (Selection for Informative Fine-Tuning)**. Его работа строится на двух этапах:

1.  **Оценка неопределенности:** модель определяет, в каких знаниях она «не уверена» относительно запроса.
2.  **Минимизация неопределенности:** выбор таких данных из памяти, которые максимально дополняют текущие знания, избегая избыточности.

С математической точки зрения SIFT максимизирует прирост информации. Хюботтер объясняет это через баланс двух факторов:

* **Релевантность:** насколько данные подходят к теме.
* **Разнообразие:** отсутствие дублирования уже известной информации. 

По мнению гостя, чем сильнее базовая модель, тем важнее для неё получать максимально информативные, а не просто похожие данные.

## 🔄 Самообучающиеся системы и будущее архитектур
[[JUMP:31:30]]

Одной из самых захватывающих перспектив Хюботтер называет создание «открытых систем», которые улучшаются в процессе эксплуатации. Он провел эксперимент на базе данных рукописных цифр MNIST, начав с абсолютно случайной, необученной нейросети. 

Результаты оказались удивительными:

* Модель выбирает случайные данные, делает шаг обучения и немного улучшает свои внутренние представления (representations).
* Благодаря этому следующий выбор данных становится чуть менее случайным и более информативным.
* Этот цикл повторяется, позволяя системе буквально «вытягивать себя за волосы» из состояния хаоса.

В будущем подобные механизмы могут быть применены не только в текстовых моделях, но и в диффузионных сетях для генерации изображений, где нет привычного контекстного окна. По словам Хюботтера, локальное обучение — это эффективный механизм распределения вычислительных мощностей именно туда, где они принесут максимум пользы в данный момент.