Уильям Федус и Баррет Зоф: как разреженные экспертные модели меняют ландшафт ИИ

Yannic Kilcher 21,1 тыс. 58 мин 3 мин 21.04.2022
Главное

Будущее ИИ: как разреженные экспертные модели масштабируют нейросети 0:00

Масштабирование современных языковых моделей упирается в физические и вычислительные пределы плотных (dense) архитектур, где каждый параметр активируется для каждого входного токена. В поисках решения исследователи Google обратились к концепции разреженных экспертных моделей (sparse expert models), позволяющих создавать системы с триллионами параметров при сохранении разумных затрат на вычисления. В этом интервью ведущий канала Янник Килчер обсуждает ключевые вехи этого направления — от Switch Transformers до GLaM — с авторами соответствующих исследований Уильямом Федусом и Барретом Зофом. Главный сюжет дискуссии разворачивается вокруг того, как специализация «экспертов» и механизмы маршрутизации данных позволяют ИИ становиться эффективнее без линейного роста энергозатрат.

🧠 Что такое разреженные экспертные модели 5:50

В отличие от стандартных плотных трансформеров, где каждый входной токен проходит через один и тот же набор весов, разреженные модели используют сложную структуру экспертов внутри слоев нейросети.

Основные принципы технологии:

По словам Федуса, для эффективного распределения нагрузки исследователи используют параллелизм по экспертам: каждый эксперт может находиться на отдельном устройстве (TPU/GPU), что упрощает шардирование модели.

📈 Эволюция подходов: от Switch Transformers до GLaM 12:43

История развития метода началась задолго до трансформеров, но в современном виде она сформировалась благодаря работам 2017 года.

Интересно, что в ранних версиях исследователи использовали тысячи экспертов, однако практика показала, что баланс между количеством параметров и вычислениями лучше соблюдается при использовании 16–64 экспертов.

🔍 Анатомия специализации: что на самом деле делают эксперты? 16:12

Исследователи провели детальный анализ того, на чем специализируются эксперты внутри нейросети. Результаты оказались неожиданно «земными» и приземленными.

В ходе экспериментов обнаружились эксперты, отвечающие за:

По мнению авторов, это лишь начало пути к интерпретируемости таких моделей, и сообществу еще предстоит понять, как экспертная специализация взаимодействует со специализацией механизмов внимания (self-attention).

⚖️ Проблемы: нестабильность и тонкая настройка 32:10

Первые модели сталкивались с двумя серьезными проблемами, которые исследователи стремились исправить в последних работах:

  1. Нестабильность обучения: Резкие расхождения функции потерь (loss divergence), которые, как оказалось, чаще связаны с высокой интенсивностью вычислений (high flops), а не с количеством экспертов.
  2. Качество fine-tuning: Sparse-модели часто показывали отличные результаты на этапе претренинга, но существенно проигрывали плотным аналогам при дообучении на специфических задачах (например, SuperGLUE).

Зоф и Федус связывают это с проблемами генерализации и переобучения на малых задачах. Одним из способов борьбы с этим является настройка гиперпараметров, таких как коэффициент dropout, для внесения дополнительного шума в процесс обучения.

🔮 Будущее: адаптивные вычисления 52:09

Участники беседы сходятся во мнении, что будущее нейросетей — за адаптивностью.

Как подчеркивает Федус, порог входа в эту область не так высок, как кажется: исследования можно проводить даже с двумя экспертами, не имея доступа к суперкомпьютерам уровня Google.

💬 Цитаты

«Я не думаю, что через 10 лет наши модели будут обрабатывать все входные примеры одинаковым количеством параметров и вычислений снова и снова.»

Уильям Федус 52:47

«Разреженные модели хороши, если вы тренируете модель, которую планируете хостить на множестве машин и пропускать через нее огромные потоки запросов.»

Баррет Зоф 24:19
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Sparse Expert Models
Архитектуры нейросетей, где для каждого входного токена активируется лишь небольшая часть доступных параметров (экспертов).
Router
Механизм, который определяет, какой эксперт будет обрабатывать конкретный токен.
Capacity Factor
Параметр, определяющий объем буфера (нагрузки) для каждого эксперта, критически важный для балансировки нагрузки.
Dense Model
Плотная модель, где каждый параметр участвует в обработке каждого входного токена.
All-to-all communication
Схема обмена данными между всеми устройствами в кластере, часто необходимая в разреженных экспертных архитектурах.
📊 Цифры
🗓 Хронология
  1. 2017 Выход статьи Ноама Шазира об «возмутительно больших моделях» (outrageously large models).
  2. 2020 Публикация работы GShard, применившей mixture of experts к трансформерам.
  3. 2021-2022 Активное исследование и оптимизация разреженных экспертных моделей в Google Brain.
⚖️ Другая сторона
Искусственный интеллект Switch Transformers GLaM Sparse Expert Models Google Brain Machine Learning