Как малые LLM обходят гигантов: метод обучения в момент теста от Йонаса Хюботтера

В современном мире вычислительные мощности становятся основной валютой, однако попытка создать универсальную нейросеть, знающую всё, упирается в физические ограничения ресурсов. Исследователь Йонас Хюботтер (Jonas Hübotter) предлагает альтернативный путь: вместо бесконечного раздувания параметров моделей адаптировать их под конкретную задачу прямо в процессе работы. Этот метод, известный как обучение во время теста (test-time learning), позволяет компактным моделям обходить по качеству гигантов, которые в десятки раз превосходят их по размеру.

🗺️ Обучение в момент запроса: аналогия с Google Maps 0:00

Йонас Хюботтер сравнивает свой подход к работе больших языковых моделей (LLM) с механикой работы цифровых карт. Когда пользователь зумирует карту в Google Maps, система не подгружает сразу все данные планеты в максимальном разрешении — она детализирует лишь тот конкретный квадрат (тайл), который интересен человеку в данный момент.

Аналогично работает и предложенный исследователем метод:

При поступлении тестового запроса модель обращается к внешней памяти (базе данных).
Происходит поиск релевантной информации (retrieval).
Модель проходит через быстрый цикл дообучения (fine-tuning) на этих данных специально под текущий контекст.

По мнению Хюботтера, попытка решить «все проблемы мира» сразу неэффективна из-за лимитов памяти и времени. Гость ссылается на принцип знаменитого статистика Владимира Вапника: «При решении интересующей вас задачи не решайте более общую задачу как промежуточный шаг». Смысл в том, что для написания конкретного кода или решения математического уравнения модели не нужно «активировать» в себе знания о рецептах кухни или истории Древнего Рима.

📉 Локальные модели против глобальных аппроксимаций 4:14

В классическом машинном обучении принято строго разделять фазы обучения и тестирования: модель обучается один раз, «замораживается» и затем выдает предсказания. Хюботтер считает, что это ограничение пора преодолеть. Он использует аналогию с аппроксимацией кривых:

Глобальная модель: пытается описать сложную, извилистую функцию одной формулой (например, линейной регрессией). Она неизбежно ошибается на резких поворотах данных.
Локальная модель: строит отдельную простую функцию для каждого конкретного участка.

Такой подход требует гораздо меньше данных для настройки и позволяет использовать простые архитектуры для решения сложных задач. По словам исследователя, локальное обучение состоит из двух ключевых компонентов:

Параметрический контроллер: сама модель, которая делает предсказания.
Непараметрическая память: хранилище данных, из которого выбираются примеры для локальной настройки.

🚀 Когда 3,8 млрд параметров побеждают 130 млрд 12:46

Эмпирические данные, представленные Хюботтером, демонстрируют значительный прирост эффективности. В ходе экспериментов на бенчмарке Pile (огромный массив текстов, кода и научных работ) модель размером 3,8 млрд параметров с использованием test-time обучения показала результаты лучше, чем колоссальная модель со 130 млрд параметров. Это означает 30-кратное сокращение размера при росте качества.

Особого внимания заслуживает сравнение с методом In-Context Learning (ICL), когда примеры просто вставляются в контекстное окно:

Для простых задач ICL и дообучение (backpropagation) работают на равных.
В сложных доменах, таких как математика школьного уровня, написание кода или юридические документы, прямое дообучение на лету дает колоссальное преимущество.
Исследователь отмечает странный феномен: в математических задачах ICL иногда вообще не улучшает базовую модель, тогда как всего несколько шагов градиентного спуска по тем же самым данным радикально снижают ошибку.

🧠 Алгоритм SIFT: как выбирать данные с умом 19:08

Критическим моментом при обучении на лету является выбор данных. Если подсунуть модели «мусор» или дубликаты, её ответы станут хуже. Традиционный поиск k-ближайших соседей (kNN) часто подводит. Хюботтер приводит пример: если спросить модель о возрасте Майкла Джордана и его детях, kNN может выдать два одинаковых текста только о возрасте, игнорируя информацию о семье из-за её меньшей частотности в векторе поиска.

Для решения этой проблемы был разработан алгоритм SIFT (Selection for Informative Fine-Tuning). Его работа строится на двух этапах:

Оценка неопределенности: модель определяет, в каких знаниях она «не уверена» относительно запроса.
Минимизация неопределенности: выбор таких данных из памяти, которые максимально дополняют текущие знания, избегая избыточности.

С математической точки зрения SIFT максимизирует прирост информации. Хюботтер объясняет это через баланс двух факторов:

Релевантность: насколько данные подходят к теме.
Разнообразие: отсутствие дублирования уже известной информации.

По мнению гостя, чем сильнее базовая модель, тем важнее для неё получать максимально информативные, а не просто похожие данные.

🔄 Самообучающиеся системы и будущее архитектур 31:30

Одной из самых захватывающих перспектив Хюботтер называет создание «открытых систем», которые улучшаются в процессе эксплуатации. Он провел эксперимент на базе данных рукописных цифр MNIST, начав с абсолютно случайной, необученной нейросети.

Результаты оказались удивительными:

Модель выбирает случайные данные, делает шаг обучения и немного улучшает свои внутренние представления (representations).
Благодаря этому следующий выбор данных становится чуть менее случайным и более информативным.
Этот цикл повторяется, позволяя системе буквально «вытягивать себя за волосы» из состояния хаоса.

В будущем подобные механизмы могут быть применены не только в текстовых моделях, но и в диффузионных сетях для генерации изображений, где нет привычного контекстного окна. По словам Хюботтера, локальное обучение — это эффективный механизм распределения вычислительных мощностей именно туда, где они принесут максимум пользы в данный момент.