Архитектура Mixture-of-Experts и тренды масштабирования больших моделей от Ирвана Белло

В новом выпуске подкаста The TWIML AI Podcast ведущий Сэм Черрингтон побеседовал со специалистом по глубокому обучению Ирваном Белло. В центре внимания оказались архитектуры разреженных экспертных моделей (Mixture-of-Experts), подходы к интеграции внешних баз данных и методы выравнивания систем искусственного интеллекта с человеческими предпочтениями. Собеседники детально разобрали инженерные решения для преодоления нестабильности нейросетей, специфику их инференса, а также системные проблемы современной академической науки на фоне доминирования ИТ-гигантов.

🧩 Архитектура Mixture-of-Experts: концептуальные отличия от плотных моделей 2:06

Традиционные плотные (dense) нейросети устроены таким образом, что одни и те же параметры применяются абсолютно ко всем входящим данным. В отличие от них, разреженные экспертные модели (Sparse Expert Models) динамически выбирают, какие именно параметры использовать для каждого конкретного входа. В практическом сценарии при обработке пакета данных активируются разные части нейросети, однако один изолированный пример (слово, предложение или токен) задействует лишь строго определенный фрагмент параметров.

Подобная архитектура позволяет кардинально увеличить общую емкость модели — количество доступных весов, — не вызывая при этом пропорционального роста вычислительных затрат или объема необходимых операций с плавающей запятой (FLOPs). Каждый токен взаимодействует с фиксированным числом параметров, требуя неизменного объема вычислений.

С математической точки зрения наличие пула экспертов эквивалентно работе с гигантской плотной матрицей, огромная часть элементов которой принудительно обнулена. Ирван Белло описывает стандартный алгоритм функционирования такой системы:

Входящий токен поступает на небольшую сеть-маршрутизатор (router network).
Маршрутизатор оценивает вектор и принимает решение, к каким экспертам (обычно выбираются два лучших из сотни доступных) перенаправить данные.
Выбранные эксперты, представляющие собой независимые нейросети с уникальными весами, параллельно обрабатывают информацию.
На выходе из слоя результаты вычислений усредняются с учетом вероятностей, назначенных маршрутизатором.

При обучении Mixture-of-Experts (MoE) критически важную роль играет специальная вспомогательная функция потерь, отвечающая за балансировку (loss balancing objective). Она гарантирует, что все имеющиеся эксперты нагружаются относительно равномерно. Без этого механизма система рискует столкнуться с ситуацией, когда значительная часть экспертов будет простаивать в процессе обучения, что резко снизит эффективность утилизации аппаратных мощностей.

🛠️ Борьба за стабильность обучения: внедрение z-loss и аппаратные ограничения 7:57

Хотя общая глубина современных нейросетей может достигать 50 и более слоев, сами экспертные блоки внутри них чаще всего конструируются как мелкие двухслойные сети. Исследователи выяснили, что насыщать разреженными слоями каждый блок модели нецелесообразно: это приводит к неудовлетворительному балансу между качеством работы и задержкой (latency). Оптимальным решением, зафиксированным в научной работе Ирвана Белло, стало размещение экспертных слоев через каждые четыре стандартных блока.

Долгое время масштабирование вычислений в MoE-моделях оставалось нерешенной проблемой. Если простое увеличение числа экспертов (и, соответственно, параметров) проходило гладко, то попытки нарастить объем FLOPs регулярно приводили к расхождению градиентов и критической нестабильности обучения. Модели вели себя непредсказуемо и ненадежно на крупных вычислительных масштабах.

Для стабилизации процесса команда Google Brain интегрировала в маршрутизатор специфическую функцию потерь — z-loss. Традиционно этот метод применялся к логитам финального слоя сети, но его перенос в логику маршрутизации полностью изменил ситуацию. Вспомогательный лосс сделал распределение вероятностей выбора экспертов более гладким, что обеспечило стабильное обучение на сверхкрупных масштабах.

Помимо алгоритмических трудностей, инженерам приходится напрямую учитывать архитектуру оборудования, такого как тензорные процессоры (TPU). Процесс маршрутизации токенов требует интенсивного межчипового взаимодействия. Если в системе задействован один эксперт на каждый TPU, то в зависимости от решения маршрутизатора токен необходимо физически переслать по сети на другой процессор. Возникающие издержки на коммуникацию заставляют разработчиков искать компромисс между чистыми вычислениями и передачей данных, эмпирически подбирая оптимальные размерности слоев на основе непрерывного профилирования.

🔢 Проблема числовой точности и ошибки округления в маршрутизаторе 14:34

Разрабатывая методы стабилизации, исследователи протестировали весь спектр классических подходов, включая инжекцию шума и принудительное ограничение (clipping) активаций. Однако эти приемы ощутимо снижали итоговое качество моделей. Тогда фокус внимания сместился на природу накопления ошибок округления при операциях с низкой точностью.

Современный тренд на квантование и использование усеченных форматов данных продиктован стремлением ускорить вычисления, снизить требования к памяти и сократить расходы на межпроцессорное взаимодействие. Обратной стороной медали становятся возросшие ошибки округления. В определенный момент эти микроскопические погрешности лавинообразно накапливаются, вызывая внезапный взрыв функции потерь, после которого модель уже не способна восстановиться.

При обучении на TPU широко применяется формат bfloat16. Он обладает широким динамическим диапазоном, но платит за это более крупными ошибками округления по сравнению со стандартным fp16. Базовый инженерный трюк заключается в принудительном приведении (кастинге) логитов к высокоточному формату fp32 перед вычислением функции softmax, поскольку экспонирование мгновенно масштабирует любые мелкие погрешности. Однако для маршрутизатора MoE этого оказалось недостаточно. Внедренный z-loss штрафует систему за генерацию избыточно больших абсолютных значений логитов. Логиты остаются маленькими, точнее кодируются в памяти, и проблема ошибок округления полностью нивелируется.

📊 Результаты бенчмарков и парадоксы тонкой настройки разреженных сетей 20:45

Экспериментальная проверка концепции проводилась при предобучении моделей на гигантском корпусе текстов C4 (Common Crawl), содержащем сотни миллиардов токенов. На этапе pre-training разреженные модели продемонстрировали колоссальное преимущество, обеспечив ускорение в 4–7 раз по сравнению с плотными аналогами.

«Вместо того чтобы обучать плотную модель в течение десяти дней, я могу получить точно такой же результат с помощью разреженной модели всего за два дня», — объясняет Ирван Белло.

Однако на этапе тонкой настройки (fine-tuning) под конкретные прикладные задачи исследователи столкнулись с парадоксом: все накопленные преимущества разреженной модели внезапно исчезали, и ее результаты сравнивались с обычными сетями. Выяснилось, что стандартные наборы гиперпараметров, оптимизированные годами для плотных моделей, абсолютно неприменимы к MoE-архитектурам.

Из-за колоссального объема параметров разреженные сети обладают избыточной моделирующей емкостью и мгновенно переобучаются (overfitting) на относительно небольших специализированных датасетах. Чтобы компенсировать этот эффект, Ирван Белло рекомендует существенно увеличивать уровень регуляризации и искусственного шума непосредственно в процессе тонкой настройки разреженных моделей.

Кроме того, по мнению гостя подкаста, существует жестко детерминированное соотношение между числом параметров и объемом вычислений. Попытки создать модели с триллионами параметров путем бездумного добавления тысяч экспертов при сохранении низкого уровня FLOPs приводят к деградации качества. Ирван Белло приводит концептуальную аналогию:

Количество параметров в нейросети напрямую отвечает за объем накопленных знаний.
Объем доступных вычислений определяет уровень ее операционного интеллекта.

Эксперименты показывают, что разреженность идеально работает в сфере обработки естественного языка (NLP), поскольку текстовые токены дискретны по своей природе. В задачах компьютерного зрения, где данные носят непрерывный характер, применение MoE усложняется, хотя концепция остается полностью переносимой на любые модальности.

🔮 Эволюция ИИ-архитектур и вызовы инфраструктуры инференса 26:48

Ирван Белло убежден, что Mixture-of-Experts — это не просто локальный технический прием, а принципиально новый эволюционный класс архитектур. По прогнозу исследователя, через 10 лет сама идея применения абсолютно всех параметров сети к каждому тривиальному входу будет казаться разработчикам абсурдной. Тем не менее, повсеместное внедрение MoE сейчас сдерживается жесткими инфраструктурными барьерами на этапе инференса.

Если запустить разреженную модель для обработки одиночного пользовательского запроса, вычисления окажутся крайне неэффективными, так как подавляющее большинство экспертов будет простаивать. Использовать такие системы рентабельно только в режиме высокопотокового пакетного инференса (batch inference) при огромном количестве запросов в секунду, когда гарантированно нагружается весь пул параметров.

Более того, из-за гигантского физического размера весов разреженная модель требует для своего размещения огромного количества видеокарт (GPU) или TPU даже в момент исполнения, что экономически оправдано только для крупных технологических платформ. При этом MoE не противоречит существующим подходам: технологию можно успешно интегрировать поверх классических архитектур типа BERT или GPT, опираясь на опубликованные спецификации в качестве практического руководства по проектированию.

🔍 Извлечение знаний как альтернатива бесконечному росту параметров 34:05

Вместо экстенсивного раздувания размеров нейросети ради удержания фактов в памяти, разработчики активно развивают альтернативное направление — снабжение компактных моделей механизмами прямого доступа к гигантским внешним базам данных. Одним из ярких примеров такого подхода является архитектура RETRO (Retrieval Enhanced Transformer) от лаборатории DeepMind.

В процессе работы RETRO разбивает обучающий текст на чанки и сопоставляет их с k-ближайшими соседями из внешней базы документов. Во время предсказания модель постоянно обращается к этим соседним информационным блокам. Согласно опубликованным данным, такой подход позволяет нейросети демонстрировать результаты, сопоставимые с GPT-3, будучи при этом в 25 раз меньше по объему параметров. Подобное сокращение размеров окупает любые задержки, возникающие при поиске информации.

Еще более радикальным шагом стало динамическое извлечение данных напрямую из всемирной паутины в режиме реального времени. Статическая база данных неизбежно устаревает и лишает модель темпоральной генерализации: нейросеть, обученная в 2019 году, ничего не знает о событиях 2021 года. В проекте WebGPT от OpenAI исследователи научили модель полноценно взаимодействовать с поисковыми системами Microsoft Bing и Google Search. Поведение ИИ обучалось на основе демонстраций реальных людей, осуществлявших поиск ответов в интернете.

Использование веб-поиска не просто уменьшает габариты сети, но и драматически повышает фактическую точность ответов, снижает уровень галлюцинаций и делает суждения модели связными. При этом внешняя база данных не обязана быть идеально структурированной: нейросеть прекрасно извлекает пользу даже из зашумленного текстового массива интернета, используя его как сырой контекст для генерации.

🎯 Выравнивание языковых моделей: от предсказания токенов к человеческим инструкциям 41:12

Современные большие языковые модели превратились в универсальный швейцарский нож для текстовых задач благодаря феноменальной способности к обучению в режиме Zero-shot. Однако фундаментальная базовая цель их предобучения — банальное предсказание следующего токена на веб-странице — кардинально расходится с реальной задачей пользователя, которая звучит как «точно, полезно и безопасно выполни мою инструкцию». Этот разрыв авторы называют проблемой невыравнивания (misalignment).

Для преодоления барьера применяются два магистральных метода:

Настройка инструкций (Instruction Tuning). Метод, реализованный в модели T0, подразумевает, что при обучении каждая задача снабжается развернутым вербальным описанием («переведи с английского на французский», «перепиши текст юридического документа простыми словами»). Это позволяет модели успешно обобщать навыки на инференсе при получении инструкций к задачам, которые она никогда не видела ранее. Метод позволяет уменьшить эффективный размер сети в 16 раз по сравнению со слепым масштабированием.
Обучение подкреплением на основе отзывов людей (RLHF). Подход, активно продвигаемый компаниями OpenAI и Anthropic. На первом этапе собираются данные о предпочтениях: модель генерирует два варианта ответа на запрос, а человек отмечает лучший. На этих данных обучается «модель вознаграждения» (reward model). На втором этапе исходная языковая модель оптимизируется с помощью алгоритма политического градиента, где критиком выступает обученная нейросеть вознаграждения.

Использование RLHF позволяет скромной по размеру модели выдавать ответы, которые живые пользователи оценивают выше, чем результаты работы "сырой" плотной сети, превосходящей ее по объему параметров в 100 раз. По мнению Ирвана Белло, главным технологическим прорывом ближайшего будущего станет синергия всех описанных компонентов: одновременное объединение архитектуры Mixture-of-Experts, динамического веб-извлечения информации и глубокого выравнивания через RLHF.

📉 Кризис воспроизводимости и увеличивающийся академический разрыв 47:24

Проведение передовых ИИ-исследований сегодня сопряжено с колоссальными финансовыми затратами, что деформирует классическую научную методологию. На малых масштабах практически невозможно экстраполировать то, как поведет себя та или иная архитектурная инновация на уровне огромных промышленных систем.

Ирван Белло констатирует, что в период его работы в Google Brain исследователи регулярно сталкивались с ситуацией, когда многообещающая академическая идея при проверке на инфраструктуре ИТ-гиганта полностью теряла свою эффективность, а ее преимущества растворялись в шуме.

В современной индустрии ИИ стремительно исчезает культура формирования строгих эталонных линий сравнения (baselines). Проведение полноценного абляционного исследования, требующего последовательного отключения отдельных параметров для проверки гипотез, обходится в недели непрерывных вычислений и миллионы долларов. В итоге наука мутирует от строгих математических доказательств к хаотичным попыткам нащупать работающие инженерные конфигурации в условиях колоссального технического шума.

Гость подкаста приводит в пример свое прошлогоднее исследование в области компьютерного зрения. Ему удалось доказать, что подавляющее большинство громких «архитектурных прорывов», публикуемых в статьях, на самом деле являлись следствием банального подбора удачных трюков и режимов обучения (training tricks). Обычная классическая архитектура ResNet, созданная много лет назад, при правильном масштабировании и корректной процедуре оптимизации демонстрирует результаты, вплотную приближающиеся к современному технологическому авангарду, обесценивая массу надуманных структурных модификаций.

В результате в мировом сообществе формируется опасный и непреодолимый разрыв между коммерческой индустрией и академической наукой. Лишь единичные корпорации в мире обладают достаточным финансовым и экспертным потенциалом для обучения моделей нового поколения. Независимые открытые консорциумы, такие как EleutherAI, Big Science или специализированные исследовательские группы при Стэнфордском университете, пытаются запрыгнуть в уходящий поезд и консолидировать ресурсы, однако они изначально находятся в роли догоняющих, а жизнеспособность долгосрочного финансирования таких инициатив остается под большим вопросом.