# Альберт Гу о революции State Space Models: «Mamba меняет всё»

Источник: https://www.youtube.com/watch?v=1zjMalKLHiA
Канал: The Cognitive Revolution
Опубликовано: 04.07.2024

---

## Революция State Space Models: Альберт Гу о будущем архитектур ИИ
[[JUMP:0:00]]

Технологический ландшафт искусственного интеллекта переживает фундаментальный сдвиг, выходящий за рамки доминирования архитектуры Transformer. В центре этого процесса — Альберт Гу, ассистент-профессора CMU и сооснователь Cartesia AI, чьи исследования в области State Space Models (SSM) привели к созданию архитектуры Mamba. В глубоком интервью для подкаста The Cognitive Revolution Альберт Гу обсудил интеллектуальную историю своих разработок, технические нюансы моделей Mamba и Mamba 2, а также свое видение будущего нейронных сетей, где эффективное сжатие данных становится ключевым преимуществом.

### От «hippo» до Mamba: Эволюция идей
[[JUMP:6:30]]

История успеха Mamba — результат многолетних исследований, начавшихся с глубокого интереса Гу к рекуррентным нейронным сетям (RNN). По мнению исследователя, механизм «состояния» (stateful recurrence) является фундаментальным способом обработки последовательностей, в отличие от механизма внимания (attention), который пытается «запомнить всё».

*   **Hippo (2020):** Первая работа, выполненная совместно с Три Дао. Она опиралась на математическую теорию ортогональных полиномов для сжатия истории последовательности в конечный вектор состояния.
*   **S4 (Structured State Space sequence model):** Статья, опубликованная между 2020 и 2022 годами, стала первым практическим воплощением теории.
*   **Mamba:** Решающим фактором стало внедрение селективности (selectivity). Гу утверждает, что модель должна «решать», на каких токенах фокусироваться, а какие — вроде слов-паразитов в речи — игнорировать.

По словам Гу, процесс разработки был «зигзагообразным» процессом между теорией и экспериментом. Иногда эмпирические находки, казавшиеся «нелогичными», позже получали строгое математическое обоснование.

### Mamba 2: Эффективность и аппаратные компромиссы
[[JUMP:53:14]]

Модель Mamba 2 принесла значительный прирост вычислительной эффективности, но потребовала определенных жертв. Основная инновация заключается в переходе к «блочной» обработке состояния.

*   **Архитектурный сдвиг:** В Mamba 1 каждый элемент состояния обновлялся индивидуально. В Mamba 2 состояние разбивается на крупные блоки, которые обновляются совместно. Это позволяет архитектуре использовать тензорные ядра современных GPU (матричное умножение), что критически важно для производительности.
*   **Hardware Lottery:** Гу отмечает, что прогресс в ИИ тесно связан с аппаратным обеспечением. Разработка Mamba 2 — это попытка сбалансировать фундаментальную выразительность модели и необходимость эффективной работы на «железе», созданном в эпоху доминирования Transformers.

### Интеллектуальное сжатие vs Память внимания
[[JUMP:36:09]]

Ключевое различие между архитектурами, по мнению Гу, заключается в подходе к состоянию:

1.  **Transformers:** «Кэшируют» практически каждый предыдущий токен (KV-кэш). Это дает отличную память, но делает потребление ресурсов линейно зависимым от длины последовательности.
2.  **SSM:** Пытаются «интеллектуально сжать» историю в фиксированный размер состояния. Это делает их более эффективными для очень длинных последовательностей и «зашумленных» данных (например, необработанных байтов).

Гу предполагает, что будущее за гибридными моделями, где внимание (attention) берет на себя роль «записной книжки» для редких, но важных обращений к памяти, а SSM обеспечивают постоянную обработку потока данных.

### Прогнозы и открытость исследований
[[JUMP:139:54]]

На текущий момент энтузиасты насчитали 267 различных проектов и статей, использующих наработки Mamba. Альберт Гу подчеркивает, что, несмотря на закрытость многих корпоративных лабораторий, он остается приверженцем академической свободы и открытой публикации результатов. Его цель — не просто создание продукта, а вклад в коллективное понимание природы интеллекта, который он описывает как «загадочный, но захватывающий феномен».