Как малые LLM обходят гигантов: метод обучения в момент теста от Йонаса Хюботтера

Machine Learning Street Talk 32 тыс. 50 мин 4 мин 16.11.2024
Главное

В современном мире вычислительные мощности становятся основной валютой, однако попытка создать универсальную нейросеть, знающую всё, упирается в физические ограничения ресурсов. Исследователь Йонас Хюботтер (Jonas Hübotter) предлагает альтернативный путь: вместо бесконечного раздувания параметров моделей адаптировать их под конкретную задачу прямо в процессе работы. Этот метод, известный как обучение во время теста (test-time learning), позволяет компактным моделям обходить по качеству гигантов, которые в десятки раз превосходят их по размеру.

🗺️ Обучение в момент запроса: аналогия с Google Maps 0:00

Йонас Хюботтер сравнивает свой подход к работе больших языковых моделей (LLM) с механикой работы цифровых карт. Когда пользователь зумирует карту в Google Maps, система не подгружает сразу все данные планеты в максимальном разрешении — она детализирует лишь тот конкретный квадрат (тайл), который интересен человеку в данный момент.

Аналогично работает и предложенный исследователем метод:

По мнению Хюботтера, попытка решить «все проблемы мира» сразу неэффективна из-за лимитов памяти и времени. Гость ссылается на принцип знаменитого статистика Владимира Вапника: «При решении интересующей вас задачи не решайте более общую задачу как промежуточный шаг». Смысл в том, что для написания конкретного кода или решения математического уравнения модели не нужно «активировать» в себе знания о рецептах кухни или истории Древнего Рима.

📉 Локальные модели против глобальных аппроксимаций 4:14

В классическом машинном обучении принято строго разделять фазы обучения и тестирования: модель обучается один раз, «замораживается» и затем выдает предсказания. Хюботтер считает, что это ограничение пора преодолеть. Он использует аналогию с аппроксимацией кривых:

  1. Глобальная модель: пытается описать сложную, извилистую функцию одной формулой (например, линейной регрессией). Она неизбежно ошибается на резких поворотах данных.
  2. Локальная модель: строит отдельную простую функцию для каждого конкретного участка.

Такой подход требует гораздо меньше данных для настройки и позволяет использовать простые архитектуры для решения сложных задач. По словам исследователя, локальное обучение состоит из двух ключевых компонентов:

🚀 Когда 3,8 млрд параметров побеждают 130 млрд 12:46

Эмпирические данные, представленные Хюботтером, демонстрируют значительный прирост эффективности. В ходе экспериментов на бенчмарке Pile (огромный массив текстов, кода и научных работ) модель размером 3,8 млрд параметров с использованием test-time обучения показала результаты лучше, чем колоссальная модель со 130 млрд параметров. Это означает 30-кратное сокращение размера при росте качества.

Особого внимания заслуживает сравнение с методом In-Context Learning (ICL), когда примеры просто вставляются в контекстное окно:

🧠 Алгоритм SIFT: как выбирать данные с умом 19:08

Критическим моментом при обучении на лету является выбор данных. Если подсунуть модели «мусор» или дубликаты, её ответы станут хуже. Традиционный поиск k-ближайших соседей (kNN) часто подводит. Хюботтер приводит пример: если спросить модель о возрасте Майкла Джордана и его детях, kNN может выдать два одинаковых текста только о возрасте, игнорируя информацию о семье из-за её меньшей частотности в векторе поиска.

Для решения этой проблемы был разработан алгоритм SIFT (Selection for Informative Fine-Tuning). Его работа строится на двух этапах:

  1. Оценка неопределенности: модель определяет, в каких знаниях она «не уверена» относительно запроса.
  2. Минимизация неопределенности: выбор таких данных из памяти, которые максимально дополняют текущие знания, избегая избыточности.

С математической точки зрения SIFT максимизирует прирост информации. Хюботтер объясняет это через баланс двух факторов:

По мнению гостя, чем сильнее базовая модель, тем важнее для неё получать максимально информативные, а не просто похожие данные.

🔄 Самообучающиеся системы и будущее архитектур 31:30

Одной из самых захватывающих перспектив Хюботтер называет создание «открытых систем», которые улучшаются в процессе эксплуатации. Он провел эксперимент на базе данных рукописных цифр MNIST, начав с абсолютно случайной, необученной нейросети.

Результаты оказались удивительными:

В будущем подобные механизмы могут быть применены не только в текстовых моделях, но и в диффузионных сетях для генерации изображений, где нет привычного контекстного окна. По словам Хюботтера, локальное обучение — это эффективный механизм распределения вычислительных мощностей именно туда, где они принесут максимум пользы в данный момент.

💬 Цитаты

«Вычисления будут одной из фундаментальных валют будущего.»

Йонас Хюботтер 00:00

«При решении интересующей вас задачи не решайте более общую задачу как промежуточный шаг.»

Владимир Вапник (цитата Йонаса Хюботтера) 10:59

«Локальное обучение позволяет распределять вычисления в те места, где это действительно интересно.»

Йонас Хюботтер 36:58
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Test-time training/inference
Метод дообучения нейросети непосредственно в момент обработки входящего запроса пользователя.
SIFT
Selection for Informative Fine-Tuning — алгоритм выбора наиболее полезных и разнообразных данных для обучения.
In-Context Learning (ICL)
Способность модели обучаться на примерах, приведенных прямо в тексте запроса, без изменения весов сети.
Backpropagation
Метод обратного распространения ошибки, используемый для обновления весов нейронной сети при обучении.
Pile
Огромный открытый датасет (800 ГБ) для обучения языковых моделей, включающий код, научные статьи и книги.
📊 Цифры
🗓 Хронология
  1. 2019 Начало оценки первых моделей (GPT-2) на бенчмарке Pile.
  2. 1960-70-е Зарождение идей локального обучения в статистике.
  3. Недавно Выпуск моделей Llama 3.2 и Phi-3, на которых тестировался метод.
⚖️ Другая сторона
Искусственный интеллект Йонас Хюботтер SIFT Test-time learning Phi-3 LLM