Альберт Гу о революции State Space Models: «Mamba меняет всё»

Революция State Space Models: Альберт Гу о будущем архитектур ИИ 0:00

Технологический ландшафт искусственного интеллекта переживает фундаментальный сдвиг, выходящий за рамки доминирования архитектуры Transformer. В центре этого процесса — Альберт Гу, ассистент-профессора CMU и сооснователь Cartesia AI, чьи исследования в области State Space Models (SSM) привели к созданию архитектуры Mamba. В глубоком интервью для подкаста The Cognitive Revolution Альберт Гу обсудил интеллектуальную историю своих разработок, технические нюансы моделей Mamba и Mamba 2, а также свое видение будущего нейронных сетей, где эффективное сжатие данных становится ключевым преимуществом.

От «hippo» до Mamba: Эволюция идей 6:30

История успеха Mamba — результат многолетних исследований, начавшихся с глубокого интереса Гу к рекуррентным нейронным сетям (RNN). По мнению исследователя, механизм «состояния» (stateful recurrence) является фундаментальным способом обработки последовательностей, в отличие от механизма внимания (attention), который пытается «запомнить всё».

Hippo (2020): Первая работа, выполненная совместно с Три Дао. Она опиралась на математическую теорию ортогональных полиномов для сжатия истории последовательности в конечный вектор состояния.
S4 (Structured State Space sequence model): Статья, опубликованная между 2020 и 2022 годами, стала первым практическим воплощением теории.
Mamba: Решающим фактором стало внедрение селективности (selectivity). Гу утверждает, что модель должна «решать», на каких токенах фокусироваться, а какие — вроде слов-паразитов в речи — игнорировать.

По словам Гу, процесс разработки был «зигзагообразным» процессом между теорией и экспериментом. Иногда эмпирические находки, казавшиеся «нелогичными», позже получали строгое математическое обоснование.

Mamba 2: Эффективность и аппаратные компромиссы 53:14

Модель Mamba 2 принесла значительный прирост вычислительной эффективности, но потребовала определенных жертв. Основная инновация заключается в переходе к «блочной» обработке состояния.

Архитектурный сдвиг: В Mamba 1 каждый элемент состояния обновлялся индивидуально. В Mamba 2 состояние разбивается на крупные блоки, которые обновляются совместно. Это позволяет архитектуре использовать тензорные ядра современных GPU (матричное умножение), что критически важно для производительности.
Hardware Lottery: Гу отмечает, что прогресс в ИИ тесно связан с аппаратным обеспечением. Разработка Mamba 2 — это попытка сбалансировать фундаментальную выразительность модели и необходимость эффективной работы на «железе», созданном в эпоху доминирования Transformers.

Интеллектуальное сжатие vs Память внимания 36:09

Ключевое различие между архитектурами, по мнению Гу, заключается в подходе к состоянию:

Transformers: «Кэшируют» практически каждый предыдущий токен (KV-кэш). Это дает отличную память, но делает потребление ресурсов линейно зависимым от длины последовательности.
SSM: Пытаются «интеллектуально сжать» историю в фиксированный размер состояния. Это делает их более эффективными для очень длинных последовательностей и «зашумленных» данных (например, необработанных байтов).

Гу предполагает, что будущее за гибридными моделями, где внимание (attention) берет на себя роль «записной книжки» для редких, но важных обращений к памяти, а SSM обеспечивают постоянную обработку потока данных.

Прогнозы и открытость исследований

На текущий момент энтузиасты насчитали 267 различных проектов и статей, использующих наработки Mamba. Альберт Гу подчеркивает, что, несмотря на закрытость многих корпоративных лабораторий, он остается приверженцем академической свободы и открытой публикации результатов. Его цель — не просто создание продукта, а вклад в коллективное понимание природы интеллекта, который он описывает как «загадочный, но захватывающий феномен».