В современном мире вычислительные мощности становятся основной валютой, однако попытка создать универсальную нейросеть, знающую всё, упирается в физические ограничения ресурсов. Исследователь Йонас Хюботтер (Jonas Hübotter) предлагает альтернативный путь: вместо бесконечного раздувания параметров моделей адаптировать их под конкретную задачу прямо в процессе работы. Этот метод, известный как обучение во время теста (test-time learning), позволяет компактным моделям обходить по качеству гигантов, которые в десятки раз превосходят их по размеру.
🗺️ Обучение в момент запроса: аналогия с Google Maps 0:00
Йонас Хюботтер сравнивает свой подход к работе больших языковых моделей (LLM) с механикой работы цифровых карт. Когда пользователь зумирует карту в Google Maps, система не подгружает сразу все данные планеты в максимальном разрешении — она детализирует лишь тот конкретный квадрат (тайл), который интересен человеку в данный момент.
Аналогично работает и предложенный исследователем метод:
- При поступлении тестового запроса модель обращается к внешней памяти (базе данных).
- Происходит поиск релевантной информации (retrieval).
- Модель проходит через быстрый цикл дообучения (fine-tuning) на этих данных специально под текущий контекст.
По мнению Хюботтера, попытка решить «все проблемы мира» сразу неэффективна из-за лимитов памяти и времени. Гость ссылается на принцип знаменитого статистика Владимира Вапника: «При решении интересующей вас задачи не решайте более общую задачу как промежуточный шаг». Смысл в том, что для написания конкретного кода или решения математического уравнения модели не нужно «активировать» в себе знания о рецептах кухни или истории Древнего Рима.
📉 Локальные модели против глобальных аппроксимаций 4:14
В классическом машинном обучении принято строго разделять фазы обучения и тестирования: модель обучается один раз, «замораживается» и затем выдает предсказания. Хюботтер считает, что это ограничение пора преодолеть. Он использует аналогию с аппроксимацией кривых:
- Глобальная модель: пытается описать сложную, извилистую функцию одной формулой (например, линейной регрессией). Она неизбежно ошибается на резких поворотах данных.
- Локальная модель: строит отдельную простую функцию для каждого конкретного участка.
Такой подход требует гораздо меньше данных для настройки и позволяет использовать простые архитектуры для решения сложных задач. По словам исследователя, локальное обучение состоит из двух ключевых компонентов:
- Параметрический контроллер: сама модель, которая делает предсказания.
- Непараметрическая память: хранилище данных, из которого выбираются примеры для локальной настройки.
🚀 Когда 3,8 млрд параметров побеждают 130 млрд 12:46
Эмпирические данные, представленные Хюботтером, демонстрируют значительный прирост эффективности. В ходе экспериментов на бенчмарке Pile (огромный массив текстов, кода и научных работ) модель размером 3,8 млрд параметров с использованием test-time обучения показала результаты лучше, чем колоссальная модель со 130 млрд параметров. Это означает 30-кратное сокращение размера при росте качества.
Особого внимания заслуживает сравнение с методом In-Context Learning (ICL), когда примеры просто вставляются в контекстное окно:
- Для простых задач ICL и дообучение (backpropagation) работают на равных.
- В сложных доменах, таких как математика школьного уровня, написание кода или юридические документы, прямое дообучение на лету дает колоссальное преимущество.
- Исследователь отмечает странный феномен: в математических задачах ICL иногда вообще не улучшает базовую модель, тогда как всего несколько шагов градиентного спуска по тем же самым данным радикально снижают ошибку.
🧠 Алгоритм SIFT: как выбирать данные с умом 19:08
Критическим моментом при обучении на лету является выбор данных. Если подсунуть модели «мусор» или дубликаты, её ответы станут хуже. Традиционный поиск k-ближайших соседей (kNN) часто подводит. Хюботтер приводит пример: если спросить модель о возрасте Майкла Джордана и его детях, kNN может выдать два одинаковых текста только о возрасте, игнорируя информацию о семье из-за её меньшей частотности в векторе поиска.
Для решения этой проблемы был разработан алгоритм SIFT (Selection for Informative Fine-Tuning). Его работа строится на двух этапах:
- Оценка неопределенности: модель определяет, в каких знаниях она «не уверена» относительно запроса.
- Минимизация неопределенности: выбор таких данных из памяти, которые максимально дополняют текущие знания, избегая избыточности.
С математической точки зрения SIFT максимизирует прирост информации. Хюботтер объясняет это через баланс двух факторов:
- Релевантность: насколько данные подходят к теме.
- Разнообразие: отсутствие дублирования уже известной информации.
По мнению гостя, чем сильнее базовая модель, тем важнее для неё получать максимально информативные, а не просто похожие данные.
🔄 Самообучающиеся системы и будущее архитектур 31:30
Одной из самых захватывающих перспектив Хюботтер называет создание «открытых систем», которые улучшаются в процессе эксплуатации. Он провел эксперимент на базе данных рукописных цифр MNIST, начав с абсолютно случайной, необученной нейросети.
Результаты оказались удивительными:
- Модель выбирает случайные данные, делает шаг обучения и немного улучшает свои внутренние представления (representations).
- Благодаря этому следующий выбор данных становится чуть менее случайным и более информативным.
- Этот цикл повторяется, позволяя системе буквально «вытягивать себя за волосы» из состояния хаоса.
В будущем подобные механизмы могут быть применены не только в текстовых моделях, но и в диффузионных сетях для генерации изображений, где нет привычного контекстного окна. По словам Хюботтера, локальное обучение — это эффективный механизм распределения вычислительных мощностей именно туда, где они принесут максимум пользы в данный момент.