За пределами внимания: почему архитектура Mamba станет преемником Transformer

Современные ИИ-ассистенты принципиально не способны стать полноценными долгосрочными спутниками человека из-за отсутствия постоянной памяти и вычислительной прожорливости архитектуры Transformer. Однако появление моделей пространства состояний вроде Mamba ломает этот барьер, позволяя эффективно обрабатывать контексты объемом до миллиона токенов прямо в сверхбыстрой памяти процессора. Мы вступаем в качественно новую мультиархитектурную эру, где нейросети начинают самостоятельно проектировать алгоритмические блоки для собственного ускоренного самосовершенствования.

🌅 Эпоха после Трансформеров: Рождение Mamba и тайны когнитивных архитектур 0:00

Смерть «Конца истории»: Появление Mamba как преемника Transformer 4:06

С 2017 года, когда была представлена монументальная архитектура Transformer в статье «Attention is all you need», в мире искусственного интеллекта установилось абсолютное доминирование одной технологии. Трансформаторы захватили все сферы: от генерации изображений и текстов до специализированных задач вроде описания видео и мэтчинга картинок. Казалось, что эта архитектура стала финальной точкой развития ИИ. Однако, как подчеркивают ИИ-специалисты Натан Ламберт (Nathan Lambert) и Натан Тун (Nathan Tun), ни человеческий мозг, ни Трансформер не являются «концом истории» эволюции разума. Вопрос о том, сможет ли кто-то создать архитектуру лучше Transformer, долгое время оставался главным вопросом мировой экономики стоимостью в сто триллионов долларов. На протяжении последних лет появлялись лишь отдельные кандидаты на эту роль, такие как RetNet от Microsoft и Tsinghua University или иерархическая архитектура Megabyte от Meta. Но ни один из них не мог пошатнуть доминирование лидера.

Ситуация в корне изменилась с выходом революционной работы, представившей селективные модели пространства состояний (Selective State Space Models), более известные как архитектура Mamba. Эта новая технология способна спровоцировать тектонический сдвиг, который заставит индустрию развиваться в несколько раз быстрее, чем во времена господства Трансформеров. Появление Mamba знаменует собой переход к более эффективным агентам, долгосрочным ИИ-ассистентам и компаньонам, преодолевающим фундаментальные ограничения старых моделей. Хотя история и развитие классических State Space Models уходят корнями в прошлые исследования, именно селективный подход Mamba претендует на полноценное замещение механизма внимания в качестве основы для ИИ следующего поколения.

Феномен радуги: Как человек и нейросети строят ассоциативные миры 5:15

Чтобы понять глубинные различия и сходства между старыми, новыми ИИ-архитектурами и человеческим мышлением, Натан Ламберт и Натан Тун предлагают обратиться к анализу нашей собственной когнитивной системы. Что происходит в сознании человека, когда он слышит слово «радуга»? Для каждого этот опыт уникален:

Визуальные мыслители мгновенно конструируют яркий, красочный образ в своем воображении.
У других людей активируются осязательные или обонятельные ассоциации, например, отчетливый и стойкий запах земли после дождя.
Кто-то подходит к концепту с научной точки зрения, вспоминая физику процесса — как свет, преломляясь в каплях воды, разделяется на непрерывный спектр.
Для многих включаются культурные и исторические пласты: от древних мифов, где радуга выступает символом обещания Бога и обновления, до современной репрезентации в политике идентичности.

Человеческий мозг обладает поразительной способностью принимать мультимодальные входные данные — мы можем увидеть радугу, прочитать это слово, услышать его или даже распознать через шрифт Брайля. Независимо от канала восприятия, внутри нашей нервной системы этот концепт кодируется не в виде семи букв или семи байт информации. Он разворачивается в высокоразмерном, ассоциативном пространстве, извлекая богатейшие слои знаний, которые уже заложены в нашей памяти. Мы пропускаем стимул вверх по слоям нейронной архитектуры к абстрактным концептам, обдумываем его и затем спускаемся обратно к генерации речи, имея буфер всего в несколько токенов.

Современные большие языковые модели демонстрируют удивительно похожий паттерн обработки информации. Данные проходят через десятки слоев, преобразуясь из начальных эмбеддингов в сложные концептуальные структуры. Исследования Anthropic с использованием функций влияния (influence functions) доказали, что в то время как малые модели обладают поверхностным пониманием, основанным на совпадении ключевых слов, крупные модели (порядка 50–60 миллиардов параметров) формируют сложнейшие высокоуровневые связи именно в своих средних слоях. Это подтверждается и технологиями редактирования концептов (алгоритм ROME), которые позволяют точечно менять мировоззрение модели — например, успешно внедрить факт, что Майкл Джордан играл в бейсбол, сохраняя при этом общую логику и целостность остальных спортивных знаний. Наконец, методология Representation Engineering от Дэна Хендриксона наглядно показывает, что абстрактные концепты в ИИ представлены в виде векторных направлений в активационном пространстве средних слоев.

Архитектурные странности: Однородность слоев и контекстуальная гибкость 21:21

Несмотря на функциональное сходство с человеческим мозгом, Трансформер устроен парадоксально однородно. Вся его структура состоит из многократного повторения одного и того же блока: слой многоголового внимания (multi-headed attention), где токены вычисляются реляционно друг к другу, сменяется многослойным перцептроном (MLP) для плотной обработки информации, нелинейными фильтрами и сквозными связями (skip connections). Внутри этой гомогенной архитектуры нет явной специализации форм, однако слои сами разделяют между собой когнитивные обязанности, постепенно продвигая информацию от простых чисел к глубоким смымлам.

Другим ключевым аспектом когнитивных способностей, критически важным для понимания архитектуры Mamba, является умение обрабатывать один и тот же входной сигнал по-разному в зависимости от контекста. Исторически большинство архитектур машинного обучения работали по классическому принципу, описанному в знаменитых визуализациях 3Blue1Brown 2017 года: веса модели фиксировались во время обучения и применялись ко всем входящим данным абсолютно одинаково, независимо от их специфики. Трансформеры же совершили прорыв за счет того, что их контекст напрямую управляет поведением блоков внимания. Входные данные формируют матрицу внимания, которая меняется при каждом новом запросе. Именно эта способность динамически адаптировать обработку под текущий контекст и объединяет лучшие качества человеческого разума с передовыми ИИ-системами, прокладывая дорогу для селективных моделей нового поколения.

⚖️ Ограничения архитектуры Трансформеров и потенциал моделей пространства состояний 27:36

Несмотря на доминирующее положение Трансформеров в современной индустрии ИИ, их архитектура не лишена фундаментальных недостатков. Главная «ахиллесова пята» этих моделей кроется в их вычислительной сложности.

Квадратичная зависимость контекстного окна 27:36

Основная проблема Трансформеров заключается в том, что вычислительная нагрузка при обработке текста растет квадратично по отношению к его длине. Это происходит потому, что для каждого нового токена модель должна вычислить взаимосвязи со всеми предыдущими токенами в последовательности. Хотя исследователи применяют различные оптимизации и аппроксимации, полномасштабная, «честная» архитектура внимания остается вычислительно тяжелой.

Это создает жесткие рамки для объема доступной памяти (контекстного окна). Даже с учетом стремительного роста возможностей — от ранних моделей вроде BERT с 512 токенами до современных Claude 2.1 с 200 000 токенов — этот лимит все еще остается критически малым в масштабах человеческого восприятия. Например, 100 000 токенов — это примерно объем одной книги или трехчасового подкаста. Для сравнения: человек за день поглощает несоизмеримо больше информации через аудио, общение, чтение и визуальный опыт.

Эпизодическая амнезия и отсутствие памяти 31:42

Помимо вычислительных ограничений, современные языковые модели страдают от «эпизодической природы». Фактически, каждая сессия для модели — это «чистый лист». В них отсутствует встроенный механизм формирования долгосрочной, устойчивой памяти вне рамок текущего контекстного окна.

Когда пользователь взаимодействует с ИИ-ассистентом, модель каждый раз «просыпается» с набором статических весов, но без какого-либо знания о прошлых разговорах. На текущий момент попытки преодолеть это ограничение выглядят как «костыли»:

Системные промпты и инструкции: Попытка задать модели стабильную «личность», которая на деле не является настоящим знанием о пользователе.
RAG (Retrieval-Augmented Generation): Модель может подгружать данные из внешних баз, но это все еще работа внутри одного эпизода: она не «помнит» прошлый опыт, а просто считывает загруженные данные.
Синтез памяти: Эксперименты, подобные AI Town, где боты периодически пересматривают свои логи для создания сжатых «воспоминаний».

Из-за этого Трансформеры остаются неэффективными долгосрочными помощниками: они не могут интуитивно понимать предпочтения пользователя, так как у них нет механизма для накопления личного опыта.

Эволюция моделей пространства состояний (SSM) 40:48

На фоне этих проблем архитектура моделей пространства состояний (State Space Models, SSM) выглядит как перспективное решение. История их развития, от ранних академических работ вроде HiPPO до современных прорывов, демонстрирует путь к созданию систем, способных сжимать длинные последовательности в компактные, фиксированные представления.

Концептуальное отличие SSM от Трансформера заключается в наличии «внутреннего состояния», которое эволюционирует во времени. В отличие от Трансформера, где вычислительная нагрузка растет вместе с контекстом, SSM обладают свойством «постоянного времени вывода» (constant time inference). Поскольку внутреннее состояние имеет фиксированный размер и не растет по мере поступления новых токенов, алгоритм обеспечивает линейное масштабирование.

Ранее в разговоре Натан Ламберт (Nathan Lambert) и Натан Тун (Nathan Tun) уже касались того, как Mamba может изменить ландшафт архитектур нейронных сетей.

⚡ Селективность и аппаратные трюки: как Mamba обошла Трансформеры 50:15

Взлом линейности: механизм селективности 50:15

Исторически все классические модели пространства состояний (State Space Models, SSM) обладали двойственной природой. С одной стороны, их можно было эффективно распараллеливать во время обучения благодаря сверточной структуре, но во время инференса они неизбежно переходили в рекуррентную форму, генерируя по одному токену за раз. Главный концептуальный прорыв авторов Mamba заключается в преодолении жестких рамок традиционных систем, которые в индустрии называют «линейно-времяинвариантными». В старых архитектурах входные данные двигались словно по конвейеру, подвергаясь строго одинаковым математическим трансформациям независимо от их содержания.

Mamba кардинально меняет правила игры, вводя механизм селективности. Теперь параметры модели и сами операции динамически адаптируются под каждый конкретный входящий токен. Нейросеть сама решает, какую информацию из контекста ей нужно бережно сохранить в текущем состоянии, а какую — безболезненно проигнорировать. С точки зрения чистой математики это относительно небольшое изменение в уравнениях. Однако за него приходится платить высокую цену: селективность полностью разрушает сверточную форму, делая невозможным привычное распараллеливание вычислений по длине последовательности. Модель оказывается намертво заперта в рекурсивном режиме. На наивном уровне реализации это сделало бы архитектуру катастрофически медленной и нежизнеспособной, если бы не революционный подход к работе с железом.

Аппаратно-зависимый алгоритм: секретное оружие Три Дао 53:16

Чтобы обойти фундаментальное ограничение рекурсии и заставить модель масштабироваться, исследователям потребовался аппаратно-зависимый дизайн алгоритма (Hardware-aware algorithm design). Здесь на сцену выходит Три Дао (Tri Dao) — один из ведущих мировых экспертов по созданию сверхэффективных низкоуровневых алгоритмов и создатель знаменитого FlashAttention. Весь код Mamba изначально затачивался под конкретное вычислительное железо, ставшее индустриальным стандартом, — графические процессоры Nvidia A100.

Для понимания масштаба: один чип Nvidia A100 содержит 6 912 ядер CUDA, выполняющих базовые математические операции матричного умножения. Эта кремниевая махина потребляет около 400 Ватт энергии — как половина мощного электрического чайника или 20 современных светодиодных лампочек. Написание кастомного CUDA-кода силами экспертов такого уровня позволило стратегически перестроить движение информационных потоков внутри чипа. Без этой глубокой оптимизации Mamba осталась бы исключительно теоретическим курьезом, слишком медленным для любого практического применения.

Битва за пропускную способность: SRAM против HBM 54:49

Секрет аппаратного триумфа Mamba кроется в ювелирном управлении иерархией памяти GPU. Архитектура Nvidia A100 разделена на два ключевых типа памяти:

SRAM (Shared Memory) — сверхбыстрая разделяемая память, расположенная в непосредственной близости к ядрам CUDA. Ее объем ничтожно мал и составляет всего 164 килобайта на чип.
HBM (High Bandwidth Memory) — основная память высокой пропускной способности объемом 40 гигабайт. Именно здесь лежат миллиарды параметров огромных языковых моделей.

Главное «бутылочное горлышко» современных нейросетевых вычислений — это постоянная пересылка данных между HBM и SRAM. В наивной реализации данные непрерывно гоняются туда-обратно, парализуя пропускную способность чипа. Решение, предложенное в Mamba, радикально: внутреннее скрытое состояние модели (state) вообще никогда не покидает сверхбыструю память SRAM. Оно эволюционирует, меняет значения, но жестко удерживается там на протяжении всех шагов инференса. Из медленной HBM подгружаются только неизменяемые параметры модели.

Для достижения максимальной производительности авторы применили еще две мощные низкоуровневые техники:

Слияние ядер (Kernel Fusion) — объединение нескольких последовательных математических трансформаций в одну общую операцию, что избавляет от необходимости переносить промежуточные результаты вычислений в HBM и обратно.
Перевычисление (Recomputation) — метод оптимизации обучения, при котором промежуточные активации и градиенты не сохраняются в памяти, а вычисляются заново «на лету» во время обратного прохода (backpropagation). Это требует больше чистых вычислительных тактов процессора, но экономит пропускную способность памяти, что в итоге оказывается значительно быстрее.

Scaling Laws в действии: разгром Трансформеров 1:04:41

Разрешив аппаратные проблемы, исследователи перешли к масштабированию и обучили линейку моделей размером 1,5 и 3 миллиарда параметров на массиве в 300 миллиардов токенов. По меркам современных коммерческих LLM вроде GPT-4 (чей объем обучения оценивают в 10 триллионов токенов) или Llama 2 (2 триллиона токенов) это скромные цифры. Однако этого объема вполне достаточно, чтобы оценить динамику кривой потерь по законам масштабирования (Scaling Laws).

Результаты тестов на предсказание следующего токена произвели эффект разорвавшейся бомбы: Mamba вчистую обошла Трансформеры при аналогичных вычислительных затратах (FLOPs). Для чистоты эксперимента авторы сравнивали Mamba не только с классическим решением, но и с конфигурацией «Transformer++» — лучшим известным индустрии рецептом обучения на сегодняшний день. На коротком контексте в 2 000 токенов Mamba шла вровень с лидером, но на отметке в 8 000+ токенов между графиками образовался отчетливый разрыв. Mamba показала более низкий уровень потерь и лучшую перплексию. Учитывая предсказуемость Scaling Laws, превосходство, зафиксированное в диапазоне от $10^{18}$ до $10^{20}$ FLOPs, с высокой долей вероятности сохранится и на больших масштабах.

Миллион токенов без потерь: феномен длинных контекстов 1:08:16

Почему авторы не тестировали языковые модели на экстремально длинных текстах? Причина прозаична — отсутствие качественных и длинных текстовых датасетов в открытом доступе для обучения с нуля. Вместо этого они обратились к другой модальности — анализу сверхдлинных последовательностей ДНК, где контекст достигал рекордного 1 миллиона токенов.

Результат оказался феноменальным: Mamba продемонстрировала уникальное свойство, недоступное ни одной другой архитектуре. Все классические нейросети при сильном удлинении последовательности неизбежно показывают деградацию качества вычислений. Mamba же по мере роста контекста до миллиона токенов только улучшала свои показатели качества и точности. Это фундаментальный сдвиг, открывающий дорогу к полноценной долгосрочной памяти моделей.

Помимо качества, архитектура уничтожает конкурентов по скорости работы. Тесты пропускной способности инференса (throughput) на Nvidia A100 показали, что видеокарта способна без труда поддерживать до 64 параллельных потоков генерации на модели Mamba 1.4B. Скорость генерации оказывается в разы выше, чем у аналогичного по размеру Трансформера. В качестве финального эксперимента авторы попробовали простое переплетение слоев Mamba с классическим многоголовым вниманием (Multi-Headed Attention), и даже такая базовая гибридная модель показала видимое улучшение кривой потерь.

🧩 Практический тест Mamba-Chat и контуры гибридного будущего 1:15:19

Испытание практикой: ограничения Mamba-Chat и цена сжатия контекста 1:15:19

Когда теоретические преимущества новых архитектур сталкиваются с реальной эксплуатацией, исследователи часто обнаруживают неожиданные подводные камни. Натан Ламберт и Натан Тун подробно разобрали первые практические эксперименты с чат-версией модели Mamba. Специалист по ИИ Джастис Маттерн (Justice Mattern) из стартапа Haven провел файнтюнинг базовой модели на основе 16 000 диалогов из популярного набора данных UltraChat 200k. Результаты получились неоднозначными. В повседневном общении Mamba-Chat в окне браузера или через Google Colab ведет себя абсолютно естественно. Модель эффективно справляется с суммаризацией текстов объемом 500 и 1500 токенов. Однако при приближении к отметке в 3000 токенов Mamba начинает резко терять когерентность и путаться.

Этот сбой обнажает ключевую проблему: модель попросту не обучалась на длинных текстах. Хотя математика State Space Models (SSM) позволяет бесконечно транслировать скрытое состояние во времени, на практике без правильных данных этого не происходит. Средняя длина диалога в UltraChat составляет всего 1467 токенов. Это ничтожно мало по сравнению с возможностями современных контекстных окон. Натан Ламберт подчеркивает, что именно долгосрочная текстовая память пока остается наименее проверенным элементом Mamba.

Тестирование в облачной инфраструктуре также выявило явные аппаратные ограничения. Запуск Mamba-Chat на графическом процессоре V100 (предыдущее поколение по сравнению с целевым A100) показал нестабильную скорость из-за меньшего объема разделяемой памяти — всего 96 КБ против 164 КБ у A100. Рекуррентная природа модели накладывает жесткие ограничения на скорость генерации. На одной карте A100 для модели размером 7 миллиардов параметров ожидаемая скорость составляет около 58 токенов в секунду. Если масштабировать систему до 20 миллиардов параметров, скорость может упасть до 20 токенов в секунду. Для фоновых задач, таких как генерация длинных сценариев (около 1000 токенов), задержка составит около минуты, что становится критическим фактором для конечных пользователей.

Здесь Натан Тун указывает на фундаментальное различие между механизмами памяти. Ранее в разговоре эксперты касались проблемы квадратичной сложности контекстного окна Трансформеров, но их классический механизм внимания имеет неоспоримый плюс: он вычисляет связи каждого токена с каждым. Это позволяет Трансформеру легко находить «иголку в стоге сена» — например, одну странную фразу, спрятанную посреди романа «Великий Гэтсби». В свою очередь, SSM-модель на каждом шаге сжимает историю в фиксированный вектор состояния. Если важная деталь была отброшена на предыдущем этапе инференса, она исчезает навсегда. Mamba может оказаться попросту «слепой» к изолированным мелким деталям, если ее состояние решит, что это была случайная аномалия, и не удержит ее в сжатом векторе.

Скульптурирование памяти: почему SSM-моделям нужны новые датасеты 1:27:33

Решение проблемы долгосрочной памяти лежит не в области изменения формул, а в плоскости инженерии данных. Натан Ламберт называет этот процесс «скульптурированием памяти» (sculpting memory). Нам необходимы целенаправленно спроектированные обучающие последовательности, которые заставят модель понимать, какую информацию нужно удерживать, а какую — безболезнечно отбрасывать. Создание таких датасетов — это тяжелая, рутинная и финансово затратная работа, которую редко считают гламурной, но именно она разблокирует истинный потенциал SSM.

Без специального обучения Mamba при получении сверхдлинного контекста начинает «забивать» скрытое состояние избыточной информацией, что ломает логику генерации. Чтобы научить модель поведению типа «иголка в стоге сена», разработчикам придется использовать синтетические данные. Искусственно созданные аномалии, разнесенные по длинному тексту, заставят алгоритм оптимизации сохранять в состоянии любые контрастирующие элементы истории.

Большое преимущество в этой гонке могут получить частные корпорации. Процессы онбординга и обучения сотрудников внутри крупных компаний генерируют колоссальные объемы структурированных текстовых цепочек (токенов). Качественно собранные датасеты переживают сами архитектуры. В качестве примера эксперты приводят математический бенчмарк MMLU, который сохраняет актуальность уже более трех лет. Создание аналогичного фундаментального набора данных для эпохи SSM станет главным драйвером индустрии.

Эра гибридов: Striped Hyena, Block State Transformer и мультистейт-архитектуры 1:34:04

На вопрос о том, убьет ли Mamba классический Трансформер, Натан Тун отвечает отрицательно. Это принципиально разные подходы, и будущее принадлежит их гибридизации. Даже в оригинальной статье про Mamba авторы упоминали, что чередование слоев Mamba с блоками многоголового внимания (multi-headed attention) дает наилучший результат, превосходя чистую Mamba. Сегодня у инженеров появились два мощных строительных блока вместо одного.

Первые коммерческие плоды такого симбиоза появились буквально через пару недель после публикации Mamba. Компания Together AI, где главным ученым выступает Три Дао (Tri Dao), представила модель Striped Hyena 7B. Это гибридная архитектура, объединяющая классический механизм внимания и традиционную структуру SSM (пока без механизма селективности). Разработчики уже тренируют ее на массиве в 600 миллиардов токенов. Модель доступна через API и демонстрирует глобальную конкурентоспособность.

Другим прорывом стала научная работа Block State Transformer (BST). В этой архитектуре реализована еще более глубокая интеграция: глобальное состояние SSM непрерывно подпитывает механизм внимания.

Внутри одного блока BST совмещаются:

Собственное внимание текста к самому себе (self-attention).
Перекрестное внимание (cross-attention) текста к контексту, который эволюционирует во времени через SSM-состояние.

Такой подход уже показывает отличные результаты на бенчмарках. Однако развитие самих State Space Models только начинается. По аналогии с многоголовым вниманием, исследователи планируют перейти от одного скрытого состояния к мультистейт-моделям (multi-state). Наличие четко выделенного состояния позволяет оптимизировать не только общую перплексию предсказания следующего токена. Разработчики могут внедрить контрастивную функцию потерь (contrastive objective), заставляя разные состояния внутри модели отвечать за разные аспекты контекста и двигаться в противоположных направлениях для полноты картины.

Одно из самых перспективных направлений — создание встроенных классификаторов. В Трансформерах для поиска активированных концептов приходится использовать сложную инженерию представлений, а безопасность пытаются настроить через капризный механизм RLHF, дающий много ложных срабатываний. В архитектуре SSM одно из параллельных скрытых состояний можно целенаправленно оптимизировать как классификатор безопасности или контекста. В результате на каждом шаге инференса разработчики будут получать не просто следующий токен, но и точные, учитывающие всю длинную историю значения классификатора в режиме реального времени.

🚀 Прикладной потенциал SSM: от концепции State Search до прозрачной безопасности моделей 1:50:47

Эволюция инженерии приложений: переход от классического RAG к библиотекам состояний 1:50:47

Развитие контекстных возможностей моделей нового поколения неизбежно меняет подходы к проектированию практических ИИ-систем. Натан Ламберт (Nathan Lambert) и Натан Тун (Nathan Tun) подчеркивают, что индустрия стоит на пороге фундаментального сдвига: перехода от привычного менеджмента контекста к его осознанному выбору. Вместо классической архитектуры генерации с дополнением поиска (RAG), в которой нужные фрагменты текстов извлекаются из внешних баз данных и динамически встраиваются в промпт, разработчики будущего перейдут к парадигме State Search — поиску по готовым состояниям.

Повторное вычисление огромных массивов информации при каждом новом запросе экономически и технически нерационально. Когда искусственному интеллекту требуется проанализировать всю историю переписки пользователя или гигантский корпус научной литературы, гораздо эффективнее один раз прогнать эти токены через модель, сформировать стабильное внутреннее состояние, экспортировать его из оперативной памяти и закешировать. В будущем вместо скрупулезного подбора цепочек примеров (few-shot) в промптах инженеры будут обращаться к обширным библиотекам предобученных контекстов. Пользователь сможет просто выбрать состояние модели, которая уже целиком прочитала профильный учебник и решила тысячу практических задач. На смену концепции «смеси экспертов» (Mixture of Experts) постепенно приходит идея «смеси состояний» (Mixture of States), где ключевое ядро модели бесшовно комбинируется со сменяемыми вспомогательными блоками памяти.

Такой подход радикально меняет эффективность автономных агентов. Натан Ламберт приводит пример из личной практики: попытка использовать современные агентские платформы для поиска информации по его электронной почте провалилась, так как Трансформеры не справляются с обработкой гигабайтных поисковых выдач и ломаются на длинных цепочках. Модели класса State Space Models (SSM) способны эффективно параллелить подобные задачи. Архитектура будущего позволит агенту размножить свое текущее состояние, например, на 20 параллельных потоков, каждый из которых мгновенно отсканирует отдельную страницу писем. Как только релевантные данные найдены, модель поднимается на уровень выше в глубине рекурсии, полностью уничтожая ненужные ветви с информационным мусором. В итоге контекст и память не забиваются лишними случайными письмами, а агент продолжает работу исключительно с полезным остатком.

Этот же принцип позволяет реализовать динамическую «иммунную систему» для ИИ в реальном времени. Сегодня компании вроде OpenAI вынуждены постоянно обновлять и раздувать системные промпты Трансформеров, чтобы оперативно закрывать дыры и уязвимости, которыми делятся пользователи в сети. Однако забивание системного промпта инструкциями — это неэффективный компромисс. В рамках SSM-парадигмы защиту можно реализовать через выделенное состояние внутри мультисостоятельной модели, содержащее постоянно обновляемый лог известных атак. Подобные защитные состояния можно передавать между системами мгновенно и легковесно.

Переход к сверхдлинным контекстным эпизодам потребует революции и в подготовке данных. Чтобы автоматизировать целые профессии, компаниям придется перейти от фиксации коротких изолированных задач к записи непрерывных многочасовых рабочих процессов. Натан Ламберт делится опытом: при попытке настроить GPT-3.5 для генерации сценариев сценариев модель поначалу работала плохо. Ситуацию драматически изменило добавление в датасет явных шагов рассуждения (reasoning steps), объясняющих стратегию и подход к задаче. Для полноценной имитации человеческой работы моделям необходим высокоуровневый нарратив — понимание идентичности, долгосрочных целей и причин выбора той или иной подзадачи, чего сейчас практически нет в открытом вебе.

Механистическая интерпретируемость: как явное состояние защищает от скрытых угроз 2:02:56

Помимо очевидных прикладных и архитектурных преимуществ, появление персистентного внутреннего состояния открывает принципиально новые возможности для безопасности ИИ. Натан Тун и Натан Ламберт сходятся во мнении, что архитектура моделей на базе состояний может стать колоссальной победой для специалистов по механистической интерпретируемости. В отличие от классических Трансформеров, где информационные потоки рассредоточены по миллионам скрытых активаций и сложнейших нейронных контуров, в SSM-моделях появляется конкретный, физически осязаемый объект для направленного анализа — персистентное внутреннее состояние (Long-Live State).

Изучая эволюцию этого состояния во времени и сравнивая его метрики на разных шагах инференса, исследователи получают естественную мишень для аудита. Это позволяет эффективно адаптировать методы инженерии представлений (representation engineering) для выявления скрытых концептов. В частности, безопасность ИИ можно будет гарантировать на уровне глубинных намерений модели, сканируя состояние на предмет деструктивных паттернов. Мониторинг позволит фиксировать:

Наличие скрытого обманного или манипулятивного умысла (deceptive intent);
Попытки симуляции полезного или вредоносного поведения.

Несмотря на миллиарды параметров, участвующих в обработке информации, наличие единого фокуса делает аудит прозрачным. Тем не менее, на пути к тотальному контролю безопасности в реальном времени стоит серьезное техническое препятствие, связанное с особенностями «железа» (ранее в разговоре эксперты подробно разбирали иерархию памяти SRAM и HBM и минимизацию трафика между ними). Поскольку алгоритм Mamba спроектирован так, чтобы проводить вычисления исключительно внутри сверхбыстрой памяти SRAM, промежуточные состояния по умолчанию не выгружаются наружу ради сохранения экстремальной производительности.

Полноценный экспорт каждого микрошага для внешнего runtime-мониторинга полностью разрушил бы главное аппаратное преимущество архитектуры, сделав инференс чрезмерно медленным. Тем не менее, Натан Ламберт оптимистичен: эту проблему можно обойти в будущем. Решением может стать внедрение легковесных проверочных контуров безопасности, выполняющихся непосредственно внутри памяти SRAM, либо грядущие архитектурные модификации самих вычислительных чипов.

🚀 На пороге автономной эволюции: от «Age of Em» до автоматизированного поиска архитектур 2:05:32

Переход к моделям на базе состояний (SSM) и гибридным архитектурам знаменует не просто технический сдвиг, а фундаментальную перемену в наших отношениях с искусственным интеллектом. В отличие от Трансформеров, которые Натан Ламберт и Натан Тун ранее в обсуждении называли «эпизодическими» по своей природе, новые модели обладают потенциалом для создания долгосрочных, устойчивых «состояний» . Если ИИ сможет эволюционировать вместе с пользователем, становясь более последовательным и предсказуемым, это изменит саму динамику взаимодействия человека и машины.

Потеря такого «намоленного» состояния с огромным накопленным контекстом может стать для пользователя реальной утратой, сравнимой с потерей ценных данных или даже цифрового спутника . Это подводит нас к концепции, описанной Робином Хансеном в книге «Age of Em», где ИИ эмулирует человеческий мозг и обладает цифровой долговечностью: его можно поставить на паузу, сохранить и запустить снова спустя годы . Натан Ламберт отмечает, что анализ Хансена становится гораздо более актуальным именно в эпоху SSM, так как Трансформеры слишком далеки от этой модели «непрерывного существования» .

Стратегический ландшафт и коммерческий потенциал SSM 2:11:13

С коммерческой точки зрения за развитием этого направления стоят ключевые фигуры: Альберт Гу (Chief Scientist в Cartesia) и Три Дао (Chief Scientist в Together AI) . Любопытно, что они решили опубликовать архитектуру Mamba в открытом доступе вместе с кодом реализации на низком уровне (CUDA), хотя такие секреты могли бы стоить миллионы долларов при продаже условному Microsoft . Это решение гарантирует, что темпы глобальной акселерации в области ИИ только ускорятся.

Лидеры рынка, такие как OpenAI и Anthropic, вероятно, уже имеют внутренние команды, изучающие SSM-подходы . Более того, текущая структура API для ассистентов (Assistant API) от OpenAI, поддерживающая произвольно длинные треды сообщений, по мнению экспертов, выглядит скорее как «мост» от Трансформеров к архитектурам будущего, ориентированным на состояния . Использование SSM позволило бы OpenAI радикально упростить управление историей диалогов и изменить модель тарификации, выставляя счета только за новые входящие и исходящие токены, а не за повторную обработку всего контекста .

Автоматизация R&D: проект FunSearch и петля обратной связи 2:19:41

Одним из самых захватывающих направлений в развитии ИИ становится использование самих моделей для проектирования новых нейросетевых архитектур. Ключевым примером здесь служит недавний проект Google DeepMind под названием FunSearch (поиск в пространстве функций) . В рамках этого исследования использовалась «замороженная» языковая модель, которая смогла продвинуть решение нескольких математических задач, остававшихся открытыми десятилетиями .

Механика FunSearch строится на итеративном процессе:

Модель генерирует идеи в виде программного кода (функций).
Система оценивает («скорит») эти функции на основе их эффективности в решении задачи .
Лучшие попытки возвращаются модели в качестве контекста для генерации еще более совершенных вариантов .

Натан Ламберт подчеркивает, что DeepMind потребовалось около миллиона генераций, чтобы достичь прорыва, что по текущим рыночным ценам API (например, GPT-4) обошлось бы всего в несколько десятков тысяч долларов .

Этот парадигмальный сдвиг — использование ИИ для поиска в пространстве функций — идеально переносится на задачу поиска архитектур (Neural Architecture Search). Теперь, когда у исследователей есть как минимум два фундаментальных блока с дополняющими друг друга свойствами (внимание у Трансформеров и состояния у SSM), пространство для их комбинирования становится практически безграничным .

Интеллектуальный взрыв через автоматическое проектирование 2:23:09

Модели уровня GPT-4 уже сегодня способны предлагать новые способы соединения этих блоков: менять их порядок, миксовать размеры слоев, внедрять новые типы skip-connections или даже определять способы «слияния» блоков между собой . Если запустить цикл, где ИИ генерирует миллион архитектур, а затем каждая из них проходит краткое обучение и проверку, мы можем увидеть рождение моделей, превосходящих всё созданное людьми .

Для крупной лаборатории с большими вычислительными ресурсами такая задача вполне посильна. Даже если проверка одной архитектуры требует в миллион раз меньше вычислительной мощности, чем обучение полноценной GPT-4, то перебор миллиона вариантов суммарно обойдется в стоимость одного цикла обучения флагманской модели .

Это создает замкнутую петлю обратной связи:

Модели с долгосрочной памятью (SSM) лучше справляются с анализом собственных прошлых попыток проектирования.
Они автоматизируют R&D, создавая ещё более эффективные и специализированные архитектуры .

Такой процесс может привести к своего рода «взрыву интеллекта» или, как минимум, к резкому сокращению циклов разработки. Натан Ламберт прогнозирует, что эра Трансформеров как единственного доминирующего блока подходит к концу . Если на путь от изобретения Трансформера (2017) до текущего момента ушло шесть лет, то валидация и повсеместное внедрение новых гибридных архитектур может занять в 3-4 раза меньше времени — около полутора-двух лет . Интенсивность прогресса будет нарастать лавинообразно, и единственное, что остается исследователям и пользователям — это «пристегнуть ремни» .