Эра гибридных архитектур: сможет ли Mamba вытеснить Трансформеры?

Архитектура Mamba, представленная как альтернатива традиционным трансформерам, спровоцировала масштабный исследовательский бум в области искусственного интеллекта. В рамках подкаста The Cognitive Revolution создатель платформы statespace.info Джейсон Мо и ведущий Натан Лабенц провели глубокий аналитический обзор первых 90 дней развития этой экосистемы, охватив более 30 научных публикаций. Эксперты подробно разобрали теоретические преимущества селективного пространства состояний, неожиданные результаты тестирования моделей на логику настольных игр, а также зарождающийся тренд на создание гибридных архитектур и систем типа «смесь экспертов» (MoE).

📈 Технологический фундамент Mamba и феномен исследовательского бума 4:46

Появление архитектуры Mamba ознаменовало переход к тому, что эксперты называют «эрой смеси архитектур». Главная ценность новой технологии заключается в замене стандартного механизма самовнимания (self-attention) на селективный механизм пространства состояний (selective state space mechanism). В отличие от Трансформеров, демонстрирующих квадратичную вычислительную сложность, Mamba предлагает линейное масштабирование. Это означает, что время генерации каждого последующего токена остается постоянным, поскольку размер скрытого состояния фиксирован и не растет по мере увеличения контекста. На базовых тестах моделирования текста Mamba продемонстрировала более низкие показатели функции потерь, чем Трансформер, что теоретически подтверждает ее высокую эффективность.

Динамика академического и практического интереса к Mamba после выхода оригинальной статьи оказалась лавинообразной. Джейсон Мо привел точную статистику по первым 30 проектам и публикациям, появившимся всего за три месяца:

Ориентация на компьютерное зрение: Около 60% всех исследованных работ посвящены обработке изображений и визуальным задачам.
Медицинский уклон: Из 15 работ по компьютерному зрению 9 публикаций были сфокусированы на сегментации изображений, что крайне востребовано в биомедицине.
Естественный язык: На долю обработки текстов (NLP) пришлось около 25% исследований, включающих архитектурные модификации.
Архитектурные инновации: В 80% случаев исследователи не просто применяли базовую модель («ванильную» Mamba), а модифицировали ее структуру и алгоритмы селекции.
Заявления об эффективности: В 73% опубликованных работ авторы заявили о достижении результатов на уровне лучших мировых стандартов (state-of-the-art), хотя, как справедливо заметили спикеры, эти данные еще требуют независимой верификации.

💻 Практика разработки: от простоты интеграции до загадок внутренней архитектуры 13:53

Одним из первых практических подтверждений гибкости новой архитектуры стал эксперимент независимого разработчика Лукаса Нелла, который взял проект Андрея Карпатого nanoGPT и создал его Mamba-версию для задачи синтеза речи. По отзывам разработчика, блок Mamba служит буквально готовой заменой для блока самовнимания. Модель показала высокую эффективность использования памяти, что позволило без проблем обучать её в стандартных блокнотах Google Colab, где Трансформеры регулярно вызывают сбои из-за нехватки видеопамяти на графических процессорах.

Джейсон Мо поделился собственным опытом написания кода и развертывания Mamba-моделей. По его словам, интеграция проходит гладко, поскольку архитектура совместима с популярными библиотеками экосистемы Hugging Face и поддерживает технологию полностью шардированного параллелизма данных (FSDP) для распределенного обучения на кластерах. При этом Мо признался, что оркестрация происходит на уровне Python, а оптимизированные CUDA-ядра, написанные соавтором Mamba Три Дао, разработчики используют как готовый «черный ящик», не рискуя вносить туда изменения.

Тем не менее, в низкоуровневой реализации Mamba остаются фундаментальные вопросы, которые пока слабо освещены в научной литературе. Ключевая аппаратная особенность Mamba заключается в удержании скрытого состояния внутри сверхбыстрой памяти SRAM графического процессора Nvidia A100 во время вычислений, избегая постоянной перезаписи в стандартную высокополосную память (HBM). Спикеры скорректировали свои прошлые оценки, уточнив, что совокупный объем SRAM на чипе A100 составляет несколько десятков мегабайт (а не пару сотен килобайт, которые приходятся на одно вычислительное ядро). Главная теоретическая неопределенность связана с тем, как именно состояние распределяется по слоям сети. В индустрии пока нет консенсуса, обладает ли каждый из, например, 20 слоев селективного пространства состояний собственным изолированным состоянием, или же существует единое сквозное состояние, модифицируемое по ходу вычислений.

🧠 Теория обучения: как Mamba осваивает контекст и логику настольных игр 26:42

Ряд критически важных исследований был посвящен фундаментальной способности Mamba к обучению в контексте (in-context learning). Совместная работа Итальянского технологического института и Университета Фрайбурга экспериментально доказала, что Mamba успешно справляется с этой задачей. Проведя послойный анализ активаций, ученые зафиксировали постепенное, последовательное выстраивание высокоуровневых концептов от ранних слоев к средним и поздним, после чего на финальных слоях происходит декодирование абстрактного понимания в конкретное предсказание токена. Этот паттерн полностью совпадает с поведением крупных Трансформеров.

Еще более показательными стали результаты проекта OthelloMamba, созданного по аналогии с известным экспериментом OthelloGPT Нила Нанды. Небольшим моделям (Mamba размером 9 и 17 миллионов параметров и Трансформерам на 11 и 21 миллион параметров) на вход подавали исключительно линейную последовательность ходов из настольной игры Отелло на доске $8 \times 8$. Модели не имели визуального представления о поле и не знали правил захвата фишек. Чтобы оценить, формируется ли у нейросети внутреннее понимание структуры мира, исследователи применили метод линейного зондирования (linear probe) — обучение отдельных векторов для декодирования активаций каждого слоя в двухмерную карту доски. Результаты продемонстрировали превосходство новой архитектуры:

Точность репрезентации: Оригинальный OthelloGPT показал точность воссоздания игрового поля на уровне 55–57%.
Показатели Mamba: Версия OthelloMamba достигла точности в 67–71%, продемонстрировав гораздо более качественное внутреннее понимание динамики игры и правил захвата фишек на основе слепого текста ходов.

Впрочем, авторы зафиксировали и явные ограничения масштабирования: по мере приближения игры к финалу (ближе к максимальным 64 ходам) точность репрезентации доски у Mamba начинает падать из-за усложнения комбинаторики. Кроме того, обнаружилась аномалия в скорости обучения: на процессорах A100 модель OthelloMamba изначально обучалась в 7,6 раза медленнее Трансформера аналогичного размера. Только после ручной оптимизации и уменьшения размера пакета (batch size) с 256 до 64 этот разрыв удалось сократить, однако Mamba все равно осталась в 3 раза медленнее на этапе обучения. Аналогичные обнадеживающие результаты показывает и Mamba-модель для игры в шахматы на 11 миллионов параметров, обученная на 18,8 млн партий: она уже достигает 37% побед против базового уровня движка Stockfish (Эло около 1200), хотя все еще иногда совершает нелегальные ходы.

🛠️ Поиск идеальной архитектуры: синтетические тесты и рождение Mambaformer 46:31

Исследование группы ученых из Южной Кореи и Мичиганского университета под названием «Может ли Mamba научиться учиться?» вскрыло фундаментальные различия в когнитивных механизмах двух архитектур. В ходе контролируемых испытаний базовых моделей Mamba, Трансформера, S4 и специализированной S4-Mamba были обнаружены их полярные сильные и слабые стороны.

В задаче Sparse Parity Learning (определение четности подмножества признаков в сильно зашумленном массиве данных) Трансформер продемонстрировал полную несостоятельность. Даже при увеличении модели до 24 слоев и размерности эмбеддингов в 768 единиц, Трансформер не смог подняться выше уровня случайного угадывания. Напротив, Mamba и S4-Mamba мгновенно и безошибочно решили эту задачу, задействовав всего 2 слоя. Аналогичное превосходство Mamba показала в тестах на линейную регрессию в контексте, где полезный сигнал был на 90% смешан со случайным шумом.

По мнению Натана Лабенца, этот успех объясняется строго последовательной (секвенциальной) природой Mamba. Оценивая входящие токены один за другим, модель способна эффективно отсекать шум и фокусироваться на обновлении параметров скрытого состояния только при обнаружении реального сигнала. Трансформер же, обрабатывая все токены параллельно через матрицу внимания, «тонет» в шуме, переобучается под него и совершает хаотичные вычислительные обновления.

Однако в задаче ассоциативного поиска по множественным запросам (Multi-Query Associative Recall — MQAR), где модели необходимо запоминать ассоциативные пары вида «ключ-значение» (например, А4, В3, С6) и затем воспроизводить их по запросу, ситуация перевернулась. На малых размерах рекуррентного состояния Mamba выигрывала, но при увеличении масштаба Трансформер благодаря полному механизму внимания легко и абсолютно точно (на 100%) закрывал задачу. Mamba же уперлась в жесткий «потолок» на уровне 90% точности. Лабенц объяснил это тем, что у Mamba есть всего один шанс закодировать информацию в скрытое состояние в момент прохождения токена. Если в этот миг важность связи между «А» и «4» для будущего контекста неочевидна, модель пропускает ее, и вернуться назад, в отличие от Трансформера, уже не может.

Чтобы объединить преимущества обеих концепций, авторы работы создали гибридную архитектуру Mambaformer. Они сохранили блок многоголового внимания (multi-head attention), поставили сразу за ним слой Mamba, но при этом полностью удалили позиционные эмбеддинги и классический полносвязный слой (MLP/Feed-Forward). Полученный гибрид успешно и без сбоев решил весь спектр противоположных синтетических задач. Тем не менее Натан Лабенц отнесся к полному удалению MLP-слоя скептически. Он напомнил, что в крупномасштабных языковых моделях именно полносвязные слои традиционно служат главным хранилищем фактических знаний, а значит, коммерческие гибриды будущего, скорее всего, вернут MLP-блоки на место.

⚡ Синергия со Смесью экспертов (MoE) и инфраструктурные вызовы 1:05:35

Поскольку концепция Смеси экспертов (Mixture of Experts) уже доказала свою критическую важность на примере передовых закрытых систем, таких как GPT-4, Mixtral и Gemini 1.5, исследователи предприняли логичные попытки перенести этот подход на рельсы пространства состояний. Были опубликованы две знаковые работы: MoE-Mamba и Black Mamba. Авторы пошли по классическому пути: они сохранили селективный блок обработки последовательностей, но заменили стандартный полносвязный слой на массив из нескольких MLP-экспертов, активируя лишь фиксированное подмножество из них для каждого токена.

Результаты тестирования коммерческого потенциала гибридов оказались крайне многообещающими. Модель Black Mamba, разработанная скрытным стартапом Zyphra (основанным выходцем из исследовательской лаборатории Conjecture), показала выдающиеся результаты по пропускной способности при генерации:

Модель 1.5B: Для версии на 1,5 миллиарда параметров скорость генерации составила 101 токен в секунду.
Модель 2.8B: Модификация на 2,8 миллиарда параметров продемонстрировала скорость в 68 токенов в секунду.

Ведущий подкаста Натан Лабенц указал на важный экономический и инфраструктурный нюанс архитектур MoE. Подобные системы обеспечивают колоссальную экономию вычислительных ресурсов при обучении и инференсе, но требуют огромного общего объема параметров, рассредоточенных по сети. Чтобы такая модель работала быстро, все ее гигантские веса должны постоянно находиться в сверхдорогой высокополосной памяти (HBM) целого массива графических процессоров. Например, для условной модели на 2 триллиона параметров потребуется одновременно задействовать более 10 карт класса Nvidia A100 (объемом 80 ГБ каждая) только для размещения весов, не говоря уже о сложнейших алгоритмах балансировки нагрузки и маршрутизации пакетов. По мнению Лабенца, этот технологический барьер закрепит долгосрочное доминирование таких ИТ-гигантов, как Google, обладающих готовой сетевой инфраструктурой, в то время как чистому open-source сегменту будет чрезвычайно тяжело конкурировать на этом поле без помощи крупных облачных провайдеров.

В финале дискуссии эксперты спрогнозировали появление еще более изощренных архитектурных гибридов, где авторы начнут динамически подменять и чередовать не только слои фактологической памяти (MLP), но и сами управляющие блоки — селективное пространство состояний Mamba и контекстное внимание Трансформеров — в зависимости от специфики обрабатываемых данных.