Как архитектуры Switch Transformers и GLAM масштабируют ИИ до триллионов параметров

Разреженные экспертные модели (Sparse Expert Models) представляют собой одно из самых многообещающих направлений в масштабировании искусственного интеллекта до триллионов параметров. Известный ИИ-блогер Янник Килхер (Yannic Kilcher) встретился с исследователями Google Brain Уильямом Федусом и Барретом Зоффом, чтобы детально обсудить механизмы работы таких сетей, проблемы их обучения и распределения нагрузок. В ходе беседы авторы прорывных ИИ-архитектур Switch Transformers и GLAM объяснили, почему традиционные «плотные» модели вскоре уступят место гибким адаптивным вычислениям.

🧩 Анатомия разреженных моделей: Как работают эксперты 0:00

Традиционные плотные (dense) трансформеры применяют одни и те же параметры и одинаковый объем вычислений к абсолютно каждому входящему токену. В разреженных моделях ситуация иная: объем вычислений на токен остается фиксированным, но для обработки разных элементов активируются разные подмножества параметров сети. В подобных архитектурах стандартный слой самовнимания (self-attention) обычно остается неизменным. Основная модификация касается слоя прямого распространения (feed-forward layer), который заменяется целым пулом независимых слоев — так называемых «экспертов». Каждый токен индивидуально проходит через один из таких блоков, которые в процессе обучения специализируются на определенных задачах.

Распределение потоков данных контролирует специальный маршрутизатор (router). Математически это относительно простая функция — обычно линейное преобразование векторов с последующим применением softmax. Она вычисляет вероятность соответствия токена каждому эксперту из пула. В ранних версиях алгоритмов токен отправлялся сразу к нескольким экспертам, но в современных итерациях, таких как Switch Transformers, данные направляются строго к одному, наиболее подходящему специалисту. Итоговый результат вычислений масштабируется на величину вероятности, выданной маршрутизатором. Подобный подход позволяет драматически увеличить общее число параметров модели без пропорционального роста вычислительных затрат во время выполнения операций.

⏳ От истоков до трансформеров: Эволюция концепции MoE 12:03

Концепция смеси экспертов (Mixture of Experts, MoE) зародилась задолго до современного ИИ-бума. Базовые математические идеи были сформулированы исследователями Майклом Иорданом и Робертом Джекобсом еще в начале 1990-х годов, за четверть века до появления архитектуры трансформеров. В современную эпоху глубокого обучения эту концепцию вернула в обиход работа Ноама Шазира (Noam Shazeer) 2017 года «Outrageously Large Neural Networks», где экспертные слои интегрировались между рекуррентными слоями нейросетей LSTM.

Первая успешная интеграция MoE в архитектуру трансформеров состоялась в 2020 году в исследовании Дмитрия Лепихина и его коллег под названием G-Shard. Модель продемонстрировала колоссальный прорыв в качестве машинного перевода за счет распределения задач между тысячами экспертов. В процессе развития этой технологии инженерам пришлось пересмотреть ранние догмы. В частности, предыдущие работы утверждали, что токен необходимо направлять как минимум к двум экспертам (Top-2 routing) для обеспечения стабильного градиентного сигнала. Однако команда Google Brain экспериментально доказала, что маршрутизация к одному эксперту (Top-1) в Switch Transformers работает не менее эффективно, существенно упрощая вычисления на практике.

Эволюция подходов привела к изменению взглядов на оптимальное количество экспертных блоков. На основе опыта fine-tuning (тонкой настройки) исследователи пришли к выводу, что использование тысяч экспертов негативно сказывается на адаптации модели к новым распределениям данных. Современный мейнстрим смещается в сторону умеренного количества экспертов — от 16 до 64 вместо тысяч, что делает модели более сбалансированными и практичными для реального внедрения.

🧠 Лингвистическая микрохирургия: Чему учатся эксперты? 14:35

Одним из самых любопытных открытий для авторов исследований стало то, какие именно функции берут на себя обученные эксперты. Изначально ученые ожидали увидеть сложные высокоуровневые семантические абстракции, однако детальный анализ показал, что нейросеть склонна к узкой специализации на уровне базовых синтаксических концепций.

В ходе анализа внутренней структуры моделей были зафиксированы следующие типы специализации экспертов:

Эксперты по знакам препинания, обрабатывающие исключительно точки, запятые и дефисы.
Эксперты по союзам и служебным частям речи.
Эксперты по именам собственным и числам.
Эксперты по визуальным описаниям, что указывает на попытки формирования концептуальных связей.

Особое место занимают эксперты, специализирующиеся на так называемых «токенах-стражах» (sentinel tokens). При обучении методом заполнения пропусков (fill-in-the-blank) эти токены (например, extra_id_10) обозначают замаскированные слова. Модель стабильно выделяет под их обработку отдельные вычислительные мощности, что открывает путь к созданию асимметричных архитектур, где под сложные задачи будут выделяться более емкие эксперты. Впрочем, авторы признают, что синергия между экспертными слоями и механизмами self-attention до сих пор во многом остается открытым вопросом для науки.

🖥️ Инженерия масштаба: Железо, шардинг и алгоритм маршрутизации 19:14

Успех разреженных моделей напрямую продиктован особенностями работы современного серверного оборудования. Традиционный параллелизм данных (data parallelism) предполагает копирование весов модели на каждое устройство и подачу разных пакетов данных. Разреженная архитектура идеально ложится на эту схему: при наличии четырех машин можно разместить ровно по одному эксперту на каждую из них. Маршрутизатор дублируется на всех узлах, определяет адресата для токена, после чего данные пересылаются на нужную машину, вычисляются локально и возвращаются обратно. При этом объем памяти, занимаемый параметрами на одном ускорителе, не превышает объем обычной плотной модели.

Однако за масштабируемость приходится платить коммуникационными издержками. Разреженные модели вынужденно заменяют стандартные коллективные операции All-Reduce более тяжелыми паттернами All-to-All. Скорость обучения начинает напрямую зависеть от топологии сети и пропускной способности каналов связи между физическими ускорителями в кластере.

Главным регулятором этой системы выступает так называемый фактор емкости (Capacity Factor). Поскольку сбалансировать поток токенов идеально невозможно, эксперты могут переполняться. Фактор емкости задает жесткий размер буфера для каждого эксперта. Если токенов приходит больше лимита, лишние элементы просто отбрасываются (dropped tokens), что ухудшает итоговое качество работы. Модель GLAM использовала значительно более высокий фактор емкости, чем Switch Transformers, что повысило стабильность за счет сознательного роста коммуникационных затрат. Этот параметр можно гибко менять на этапе инференса: увеличивая буфер, можно повысить точность ответов, а уменьшая — сэкономить ресурсы.

⚖️ Плотные против разреженных: Парето-эффективность триллионов параметров 23:34

В ИИ-сообществе долгое время существовал скепсис по отношению к разреженным гигантам. Многие разработчики предпочитали использовать плотную модель вроде GPT-3 на 175 миллиардов параметров, нежели Switch Transformer на 1.6 триллиона. Исследователи соглашаются с логикой критиков: если ключевая задача — минимизировать объем занимаемой памяти для запуска модели на минимальном числе видеокарт, плотные модели всегда будут в приоритете, так как они эффективнее в расчете на один параметр.

Тем не менее, разреженные модели раскрывают свой потенциал в двух сценариях:

Ограниченный бюджет серверного времени. При фиксированном лимите времени на крупном кластере (например, 512 чипов TPU) разреженная модель всегда выдаст лучшее качество pre-training, находясь на Парето-эффективной границе.
Высокопотоковые коммерческие сервисы (High-Throughput). В условиях огромного количества одновременных запросов от пользователей токены эффективно группируются в батчи, что делает утилизацию распределенных экспертов экономически выгодной.

Уильям Федус привел наглядный пример: их гигантская модель на 1.6 триллиона параметров при обработке отдельного токена выполняла ровно столько же вычислительных операций (FLOPs), сколько плотная модель объемом всего в 1 миллиард параметров. Это делает прямое сравнение по числу параметров между плотными и разреженными архитектурами некорректным. В свою очередь, модель GLAM от Google исследовалась преимущественно как декодер (по аналогии с GPT-3) в контексте few-shot задач и доказала, что разреженность позволяет достичь аналогичного качества при колоссальной экономии ресурсов при обучении.

🔧 Преодоление барьеров: Стабильность обучения и тонкая настройка 31:43

Последняя крупная работа исследователей, «Designing Effective Sparse Expert Models», была призвана исправить две фундаментальные проблемы ранних MoE-архитектур — нестабильность обучения и низкое качество при тонкой настройке (fine-tuning).

Раньше процесс pre-training мог внезапно прерваться из-за необъяснимого расхождения лосса (loss divergence). Расхожее мнение связывало это с обилием экспертов, однако авторы выяснили, что причина крылась в высокой вычислительной плотности (high FLOPs) отдельных узлов, тогда как модели с тысячами «легких» экспертов обучались на удивление стабильно.

Вторая проблема — слабая генерализация при переносе на специфические задачи тестов SuperGLUE. Модель демонстрировала отличную перплексию при pre-training, но проигрывала плотным аналогам на этапе тонкой настройки. Исследователи установили, что разреженные модели склонны к жесткому переобучению (overfitting) на малых выборках. Так, на задаче всего из 250 последовательностей разреженная сеть мгновенно достигала 100% точности на обучении, но на валидации уступала плотной модели. На больших датасетах (вроде ReCoRD со 100 000+ примеров) MoE-модели, напротив, уверенно побеждали.

Для борьбы с оверфиттингом авторы применили комплекс мер:

Введение специализированного экспертного дропаута (expert dropout).
Увеличение размера батча и корректировка скорости обучения для инжекции полезного шума в градиенты.

В поисках оптимальной конфигурации ученые провели серию экспериментов по заморозке весов. Результаты оказались парадоксальными: попытка обучать только экспертные слои, полностью заморозив остальную часть трансформера, привела к катастрофическому падению метрик. Напротив, фиксация весов MoE-слоев при обучении стандартных параметров практически не снизила качество fine-tuning. Это указывает на сложную и неочевидную природу распределения знаний внутри MoE-сетей.

🔮 Вектор развития: Платформа Pathways и адаптивные вычисления 26:29

Рассуждая о долгосрочных перспективах индустрии, исследователи сошлись во мнении, что чистые плотные модели в масштабе десяти лет выглядят анахронизмом. По прогнозу Уильяма Федуса, через 10 лет будет казаться странным тренировать условную dense-модель на 100 триллионов параметров, которая одинаково тяжело обрабатывает как сложнейшие философские трактаты, так и банальные знаки препинания. Будущее ИИ лежит в плоскости полностью адаптивных вычислений.

Новым технологическим драйвером в Google видят архитектуру Pathways. Текущие MoE-модели по-прежнему гомогенны: все эксперты имеют одинаковый размер и структуру. Платформа Pathways призвана обеспечить гетерогенность вычислений. В рамках такой экосистемы один токен сможет направиться к гигантскому эксперту-трансформеру, второй — к компактной рекуррентной сети, а третий — к легкому поисковому модулю. Это позволит не просто выбирать нужные параметры, но и гибко варьировать сам объем вычислительной мощности (FLOPs) под конкретный запрос. Разреженность перестанет быть просто инженерным трюком для экономии памяти на металле и превратится в гибкую экосистему адаптивного интеллекта.