Уильям Федус и Баррет Зоф: как разреженные экспертные модели меняют ландшафт ИИ

Будущее ИИ: как разреженные экспертные модели масштабируют нейросети 0:00

Масштабирование современных языковых моделей упирается в физические и вычислительные пределы плотных (dense) архитектур, где каждый параметр активируется для каждого входного токена. В поисках решения исследователи Google обратились к концепции разреженных экспертных моделей (sparse expert models), позволяющих создавать системы с триллионами параметров при сохранении разумных затрат на вычисления. В этом интервью ведущий канала Янник Килчер обсуждает ключевые вехи этого направления — от Switch Transformers до GLaM — с авторами соответствующих исследований Уильямом Федусом и Барретом Зофом. Главный сюжет дискуссии разворачивается вокруг того, как специализация «экспертов» и механизмы маршрутизации данных позволяют ИИ становиться эффективнее без линейного роста энергозатрат.

🧠 Что такое разреженные экспертные модели 5:50

В отличие от стандартных плотных трансформеров, где каждый входной токен проходит через один и тот же набор весов, разреженные модели используют сложную структуру экспертов внутри слоев нейросети.

Основные принципы технологии:

Эксперты как слой: Чаще всего экспертные блоки встраиваются в полносвязные слои (feed-forward) трансформера. Каждый такой блок — это отдельная линейная трансформация (эксперт), специализирующаяся на определенных задачах.
Маршрутизация (Routing): Специальный механизм — роутер — определяет, какой эксперт будет обрабатывать конкретный токен. Обычно это делается с помощью простой линейной функции и функции softmax.
Разреженность: Токен направляется лишь к одному или нескольким экспертам из общего пула, что позволяет dramatically (драматически) снизить вычислительную нагрузку.
Масштабирование: Поскольку для обработки одного токена задействуется лишь часть параметров, модель можно масштабировать до триллионов параметров, не увеличивая количество вычислений (FLOPs) на один токен.

По словам Федуса, для эффективного распределения нагрузки исследователи используют параллелизм по экспертам: каждый эксперт может находиться на отдельном устройстве (TPU/GPU), что упрощает шардирование модели.

📈 Эволюция подходов: от Switch Transformers до GLaM 12:43

История развития метода началась задолго до трансформеров, но в современном виде она сформировалась благодаря работам 2017 года.

Switch Transformers: Первыми продемонстрировали возможность тренировки моделей с более чем 1,6 трлн параметров. Главным достижением стало понимание того, как эффективно распределять вычисления.
GLaM (Generalist Language Model): Как отмечает Баррет Зоф, модель GLaM внесла вклад в понимание законов масштабирования (scaling laws) для декодер-онли архитектур, показав, что можно достичь качества GPT-3 при значительно меньших затратах на обучение.

Интересно, что в ранних версиях исследователи использовали тысячи экспертов, однако практика показала, что баланс между количеством параметров и вычислениями лучше соблюдается при использовании 16–64 экспертов.

🔍 Анатомия специализации: что на самом деле делают эксперты? 16:12

Исследователи провели детальный анализ того, на чем специализируются эксперты внутри нейросети. Результаты оказались неожиданно «земными» и приземленными.

В ходе экспериментов обнаружились эксперты, отвечающие за:

Пунктуацию и конъюнкцию.
Собственные имена (Proper nouns).
Счет чисел.
Специальные «сентенциальные» токены (fill-in-the-blank), используемые в тестах на заполнение пропусков при обучении.

По мнению авторов, это лишь начало пути к интерпретируемости таких моделей, и сообществу еще предстоит понять, как экспертная специализация взаимодействует со специализацией механизмов внимания (self-attention).

⚖️ Проблемы: нестабильность и тонкая настройка 32:10

Первые модели сталкивались с двумя серьезными проблемами, которые исследователи стремились исправить в последних работах:

Нестабильность обучения: Резкие расхождения функции потерь (loss divergence), которые, как оказалось, чаще связаны с высокой интенсивностью вычислений (high flops), а не с количеством экспертов.
Качество fine-tuning: Sparse-модели часто показывали отличные результаты на этапе претренинга, но существенно проигрывали плотным аналогам при дообучении на специфических задачах (например, SuperGLUE).

Зоф и Федус связывают это с проблемами генерализации и переобучения на малых задачах. Одним из способов борьбы с этим является настройка гиперпараметров, таких как коэффициент dropout, для внесения дополнительного шума в процесс обучения.

🔮 Будущее: адаптивные вычисления 52:09

Участники беседы сходятся во мнении, что будущее нейросетей — за адаптивностью.

Адаптивное количество вычислений: В будущем одна модель сможет выделять разный объем вычислений для разных токенов — в зависимости от сложности задачи.
Интеграция в инфраструктуру: Исследователи полагают, что разреженность станет стандартом, а не «конкурентом» плотных моделей.
Работа с видео: Использование разреженных моделей для видео кажется авторам крайне перспективным, так как разные части видеоряда требуют разной степени детализации.

Как подчеркивает Федус, порог входа в эту область не так высок, как кажется: исследования можно проводить даже с двумя экспертами, не имея доступа к суперкомпьютерам уровня Google.