Анатомия Zamba: как скрестить Mamba и внимание на мобильных устройствах

«Показатель лосса при обучении нейросетей вообще не имеет значения», — утверждает Квентин Энтони из Zyphra, развенчивая один из главных мифов индустрии искусственного интеллекта. Пока крупные лаборатории застряли в ловушке дорогой инфраструктуры классических трансформеров, стартап Zyphra ломает правила и создает гибридную архитектуру Zamba. Объединив скорость моделей Mamba с точностью блоков внимания, инженеры добились десятикратного сжатия KV-кэша, открывая эпоху глубокой персонализации ИИ прямо на мобильных устройствах.

🌐 Локальный инференс и гибридная логика: зачем ИИ переезжает на устройства 0:00

Будущее сильного искусственного интеллекта (AGI) неразрывно связано с гибридной моделью развертывания, сочетающей облачные вычисления и локальное исполнение на устройствах. По мнению Квентина Энтони (Quentin Anthony), руководителя отдела обучения моделей в Zyphra, современные монолитные гиганты вроде OpenAI или Anthropic физически не способны адаптироваться под каждого отдельного пользователя на планете. Настоящая персонализация требует не просто манипуляций с системным промптом, а глубокого внедрения пользовательских данных непосредственно в веса модели .

Персонализация и приватность как «Полярная звезда» разработки 4:34

Основная мотивация для переноса вычислений «на край» (edge) — это возможность глубокой настройки ИИ. Квентин Энтони подчеркивает, что Zyphra стремится к тому, чтобы модель буквально знала ваши предпочтения, любимые рестораны и стиль общения, запекая эти знания в веса .

Помимо персонализации, критически важными остаются еще три фактора:

Приватность данных: Существует огромный пласт корпоративной и личной информации (от проприетарного кода до частной переписки), которую пользователи и предприятия не готовы отправлять в облако .
Экономика и инфраструктура: Капитальные затраты (CAPEX) облачных провайдеров на инференс моделей колоссальны. Перенос нагрузки на устройства пользователей — единственный устойчивый путь масштабирования технологии .
Автономность и скорость: Локальные модели работают без задержек сети и доступны в офлайн-режиме, обеспечивая мгновенный отклик .

В видении Zyphra модели делятся по ролям. Компактные модели (1B–2.7B параметров) идеально подходят для повседневных задач на смартфонах, таких как суммаризация почты или чат, в то время как более мощные 7B-модели выступают в роли «умных помощников» на ноутбуках, способных решать сложные логические задачи. В идеальном сценарии локальная модель должна сама понимать, когда ей не хватает ресурсов, и обращаться к «облачному оракулу» за помощью .

Практический путь к такой персонализации лежит через непрерывное обучение (continual learning). Квентин Энтони предполагает, что обновление весов может происходить ночью, пока устройство находится на зарядке . Это гораздо эффективнее, чем попытки втиснуть 50 000 токенов контекста в системный промпт, что часто ведет к галлюцинациям. Кроме того, Zyphra экспериментирует с управлением активациями (activation steering), что позволяет мгновенно менять «тон» модели, делая её, например, более живой или формальной в зависимости от мгновенной обратной связи пользователя .

Гибридная архитектура Zamba: синергия Mamba и внимания 12:38

При проектировании моделей для локального использования разработчики сталкиваются с дилеммой. Традиционные трансформеры крайне требовательны к памяти: объем их KV-кэша растет линейно вместе с длиной контекста, что быстро приводит к ошибкам нехватки памяти (OOM) на смартфонах . С другой стороны, чистые SSM-модели (State Space Models), такие как Mamba, демонстрируют великолепную эффективность и фиксированный размер состояния, но часто уступают в качестве генерации.

Квентин Энтони отмечает, что чистые SSM-модели испытывают сложности с задачами, требующими точного сопоставления зависимостей внутри последовательности (in-context learning) . Ранее в разговоре упоминалось, что хотя Mamba и становится производительнее при обучении на триллионах токенов, она всё равно с трудом «удерживает» сложные контекстные связи, которые для механизмов внимания (attention) являются естественными.

Zamba решает эту проблему через гибридный подход:

Блоки Mamba обеспечивают высокую пропускную способность и эффективность обработки длинных последовательностей .
Механизмы внимания (attention) включаются лишь эпизодически для фиксации критических кросс-последовательных зависимостей .

Такая комбинация позволяет модели быть «быстрой на поворотах» за счет Mamba и «умной в деталях» благодаря вниманию, при этом сохраняя требования к памяти на уровне, допустимом для мобильных устройств.

Глобально разделяемые блоки внимания 16:36

Одной из самых инновационных черт архитектуры Zamba является использование общих блоков внимания (Global Shared Attention). Инженеры Zyphra обнаружили, что в глубоких трансформерах блоки внимания на разных слоях сильно коррелируют между собой — по сути, они выполняют схожую работу, указывая на одни и те же важные токены . Основная же специализация и «накопление знаний» происходят в блоках MLP (многослойных перцептронах) или, в случае Zamba, в блоках Mamba.

Вместо того чтобы плодить уникальные веса для каждого слоя внимания, Zamba использует один и тот же блок внимания, который вызывается повторно через определенные интервалы слоев Mamba. В первой версии Zamba один блок внимания применялся каждые шесть слоев Mamba .

Основные преимущества этого решения:

Экстремальное сжатие KV-кэша: Поскольку блоков внимания меньше, объем памяти, необходимый для хранения контекста, сокращается в разы — примерно до 1/10 или 1/13 от объема стандартного трансформера той же глубины .
Производительность: Несмотря на то, что общее количество вычислительных операций (FLOPs) может быть чуть выше из-за частого обращения к блокам, высокая пропускная способность Mamba на современном железе нивелирует эти затраты .
Скорость отклика: Время до получения первого токена (Time to First Token) и общая скорость генерации в Zamba на 20–30% выше, чем у аналогичных по размеру плотных трансформеров .

В Zamba 2 архитектура была дополнительно улучшена: к общему блоку внимания добавили независимые LoRA-адаптеры на каждом слое. Это позволило сохранить экономию памяти, но дало модели возможность лучше специализироваться на разных уровнях абстракции . Подобный подход позволяет выжать максимум производительности из каждого параметра, что критично при лимите памяти на конечном устройстве .

🧠 Тонкая грань между обучением и интеллектом: опыт Zyphra 25:02

Техническая архитектура моделей — это всегда баланс между вычислительной мощностью и способностью системы «понимать» структуру данных. Как отмечает Квентин Энтони из Zyphra, исходная ценность архитектуры внимания (attention) заключалась в способности собирать максимально детализированные «заметки» о каждой связи между токенами в последовательности. В то время как слои многослойных перцептронов (MLP) пытаются извлечь из этих заметок более глубокий смысл, механизм внимания обеспечивает фундамент этой аналитики, будучи при этом весьма затратным ресурсом.

Ограничения чистого SSM и поиск качества 30:16

Одной из главных вех в ранних исследованиях Zyphra стала разработка модели BlackMamba. В тот период команда, изначально сфокусированная на Mixture of Experts (MoE), увидела в архитектуре Mamba многообещающее решение для запуска на устройствах (on-device) благодаря отсутствию квадратичной сложности и необходимости хранения KV-кэша.

Однако на практике выяснилось, что чисто SSM-модели (State Space Models) без внимания сталкиваются с серьезными проблемами качества. Эксперименты показали:

Без «богатых» кросс-последовательных зависимостей, которые дает внимание, модели плохо справляются с задачами in-context learning.
Модели, построенные только на Mamba, требуют в разы больше данных для достижения сопоставимых с трансформерами результатов.
Бенчмарки, такие как MMLU, стали для команды «сигналом тревоги»: низкие показатели здесь прямо указывали на неспособность модели эффективно использовать контекст.

Этот опыт стал определяющим уроком: чистые SSM-архитектуры не могут в полной мере заменить внимание, если целью является создание универсальной, высококачественной модели, способной к рассуждению.

Дивергенция лосса и реальной полезности 37:32

Для разработчиков, обучающих современные модели, функция потерь (loss) часто превращается в обманчивый ориентир. Хотя она полезна для отслеживания критических сбоев, «падение лосса до 2 или 3» не гарантирует, что модель будет полезна пользователю.

Zyphra ориентируется на более комплексный подход к оценке, где низкий лосс — лишь свидетельство того, что модель «прогрессирует» по ландшафту оптимизатора. Основная работа по проверке качества ложится на специфические бенчмарки и качественные тесты:

MMLU служит индикатором того, достигла ли модель стадии понимания контекста.
Vibes-проверки (ролевые игры, ответы на вопросы-ловушки) позволяют понять, насколько модель «живая» и способна ли она удерживать заданный формат, а не просто предсказывать следующий токен.
Разрыв между лоссом и качеством часто возникает из-за специфики данных: если модель натренирована исключительно на синтетических учебниках, она может показывать отличные цифры в тестах, но оказаться абсолютно «сухой» и негибкой в реальном общении.

Грокинг и внезапное появление способностей 43:10

Появление сложных навыков, таких как корректное следование формату MMLU, редко происходит плавно. Чаще это напоминает скачок или фазовый переход. Для плотных трансформеров это происходит после обработки сотен миллиардов токенов, а для чистых SSM-архитектур, таких как Falcon Mamba, этот порог может достигать трех-четырех триллионов токенов.

Этот процесс, который Квентин Энтони называет «гроккингом» (grokking), тесно связан с этапом отжига (annealing) и графиком обучения. Модель как будто должна «осознать» саму задачу — например, что от нее требуется ответ в формате единственного символа, а не развернутый текст. Это требует огромного объема данных, чтобы модель закрепилась в нужном «бассейне» функции потерь, где мелкие изменения весов начинают приводить к качественным изменениям в её способностях.

🎛️ Стратегии обучения: от оптимизаторов до масштабирования 50:17

Обучение современных нейросетевых моделей — это процесс, сочетающий в себе строгую математику и своего рода «алхимию». Квентин Энтони (Quentin Anthony) отмечает, что характер обучения сильно зависит от масштаба: если у гигантских моделей ландшафт потерь (loss landscape) обычно гладкий, что упрощает работу оптимизаторов, то у компактных моделей он оказывается значительно более «холмистым» и сложным.

Выбор оптимизаторов: ставка на стабильность 51:47

В условиях сложного ландшафта потерь выбор правильного алгоритма оптимизации становится критическим фактором. Несмотря на появление специализированных алгоритмов, таких как Sophia или различных методов второго порядка, команда Zyphra делает ставку на классический Adam.

Квентин объясняет это крайней надежностью Adam: он предсказуем, не имеет явных «слепых зон» и демонстрирует хорошие результаты практически в любой задаче. Более экзотические оптимизаторы могут показать локальное превосходство в конкретных кейсах, однако их настройка зачастую требует нескольких недель мучительного поиска подходящих гиперпараметров. Для разработчиков, работающих в ограниченных вычислительных условиях, возможность просто запустить обучение и быть уверенным в сходимости — более ценный ресурс, чем гипотетическое снижение функции потерь на доли процента.

Метод отжига и двухфазное обучение 59:47

Эффективная стратегия обучения, которую Квентин Энтони называет «отжигом» (annealing), стала важным инструментом для закрепления знаний. Процесс разделен на две принципиальные фазы:

Первая фаза: Обучение на больших объемах данных, которые могут содержать некоторый «шум» (например, общие данные из интернета). Здесь используется стандартный косинусный график снижения скорости обучения (learning rate) до относительно высокого уровня.
Вторая фаза: После того как модель «напиталась» базовыми знаниями, происходит резкое повторное увеличение скорости обучения (rewarming) с последующим агрессивным снижением до нуля. Этот этап проводится на высококачественных, тщательно отобранных данных.

Такой подход позволяет «запечь» в модель ключевые навыки, делая их приоритетными. Квентин подчеркивает, что этот метод также обеспечивает гибкость: имея общую базовую модель, можно проводить «отжиг» на разных подмножествах данных (например, для ролевых игр или строго фактологических текстов), создавая специализированные ответвления, которые работают эффективнее, чем простая донастройка (fine-tuning).

Сложности дистилляции знаний 1:05:30

Дистилляция, при которой маленькая модель обучается повторять поведение гигантов (например, Llama 3 405B), остается одной из самых желанных, но труднореализуемых техник. Основная проблема здесь — экономическая эффективность.

Для того чтобы дистилляция приносила реальную пользу, недостаточно просто копировать финальные ответы модели; необходимо использовать логиты (вероятностные распределения), которые показывают, на что именно «смотрит» большая модель. Однако запуск огромной модели параллельно с обучением маленькой на каждом шаге требует колоссальных вычислительных ресурсов. На текущий момент часто оказывается дешевле и эффективнее просто обучить модель большего размера с нуля или использовать большие объемы данных, чем пытаться реализовать полноценную дистилляцию на этапе предобучения.

Масштабирование гиперпараметров через mu-transfer 1:11:12

Одной из «секретных» технологий, позволяющих крупным лабораториям экономить бюджет, является метод mu-transfer (maximal update parameterization). Он решает проблему переноса оптимальных гиперпараметров с крошечных моделей на огромные.

Суть метода заключается в том, что все поиски оптимальной скорости обучения и размеров батча проводятся на моделях с очень малой шириной, что требует ничтожно малых затрат. Благодаря математически обоснованным коэффициентам масштабирования, найденные настройки можно «транслировать» на модели с миллиардами параметров без потери стабильности. Это избавляет от необходимости проводить дорогостоящие «прогоны» на полных масштабах, что дает огромную фору тем, кто владеет данной технологией.

🛠 Оптимизация под «железо» и эффективность обучения

Аппаратная эффективность и «степени двойки» 1:25:36

Одной из фундаментальных, но часто игнорируемых областей оптимизации является подбор размеров модели, соответствующих архитектуре GPU. Квентин Энтони отмечает, что в классических публикациях, таких как оригинальная статья по GPT-3, использовались специфические размеры скрытых слоев, которые были эффективны не только с точки зрения качества, но и с точки зрения работы вычислительных ядер.

Многие разработчики долгое время копировали эти конфигурации, не до конца осознавая, что использование размеров скрытых измерений, кратных степеням двойки, критически важно для максимальной пропускной способности GPU. В моделях Zamba компания Zyphra осознанно применяет эти принципы:

Округление слоев: Размерность скрытых слоев подбирается кратно степеням двойки, что обеспечивает оптимальную работу с ядрами.
Синхронизация с чипом: Даже незначительное округление размеров блоков до «удобных» для ядер чисел дает заметный прирост производительности на любом параллельном оборудовании — будь то многоядерные CPU, мобильные чипы или ускорители типа Apple M1.
Размер словаря: Аналогичный подход применяется к размеру словаря (vocab size), который округляется до факторов 64 для оптимизации путей прохождения данных через вычислительные ядра.

Проблема «волновых» квантований и пропускной способности 1:27:36

Глубокое понимание аппаратного обеспечения требует учета того, как именно распределяется нагрузка. Квентин приводит концепцию «волнового квантования» (wave quantization): если у вас есть 100 потоковых мультипроцессоров (SM) на чипе H100, но вы подаете 101 единицу работы, системе приходится выполнять два временных шага. Второй шаг оказывается практически пустым, что снижает пропускную способность (throughput) вдвое.

На графике зависимости пропускной способности от размера задачи возникают «волны»: каждый раз, когда вы выходите за пределы емкости вычислительных мощностей, вы вынуждены запускать новый временной цикл, резко теряя в эффективности. Проектирование моделей под конкретное «железо» позволяет избежать этой деградации. Энтони отмечает, что если бы компания-производитель чипов хотела создать модель, эффективную только для своего железа, она бы жестко «зашила» в архитектуру параметры, соответствующие количеству SM и объему SRAM конкретного чипа. Сейчас индустрия стоит перед выбором: либо двигаться в сторону совершенной специализации под каждое устройство, либо стремиться к созданию унифицированного оборудования, способного эффективно запускать модели разных архитектур.

Эмпирический поиск архитектурных решений 1:30:27

Работа над архитектурой Zamba сочетает интуицию с жесткими экспериментальными данными. Например, решение о конкатенации (concatenation) остаточного потока (residual stream) из блока Mamba с исходными эмбеддингами перед подачей в блок внимания было принято на основе тестов. Хотя это увеличивает вычислительные затраты из-за расширения размерности, эксперименты показали, что это дает ощутимый прирост производительности.

В вопросе соотношения слоев Mamba к блокам внимания в Zamba 1 и Zamba 2 (соотношение 6:1), команда также пришла к этому решению эмпирическим путем. Попытки использовать соотношения 7:1 или 5:1 показывали результаты чуть хуже. Ранее в разговоре Квентин затрагивал вопросы выбора оптимизаторов, переноса гиперпараметров через mu-transfer и сложности дистилляции знаний, что является критически важными аспектами, дополняющими архитектурные изыскания. В конечном итоге, успех Zyphra заключается в способности «под микроскопом» анализировать каждый шаг процесса обучения, выискивая скрытые резервы производительности, которые крупные лаборатории часто упускают из виду из-за своей фокусировки на простом масштабировании.

🔬 Архитектурные инновации и масштабируемость Zamba 2 1:45:45

Разработка Zamba 2 — это не просто замена алгоритма SSM на более современный SSD, а комплексная модернизация архитектурного стека. Квентин Энтони отмечает, что основная цель заключалась в исследовании взаимосвязи между глубиной сети и разделяемыми блоками, а также в повышении гибкости модели при работе с различными задачами.

Специализация слоев через LoRA-адаптеры 1:46:11

Одним из ключевых архитектурных нововведений стало внедрение LoRA-адаптеров в блоки MLP. Исследования показали, что механизмы внимания (Attention) хорошо коррелируют по глубине сети, тогда как MLP-блоки — нет. Чтобы MLP могли лучше специализироваться на разных уровнях глубины без избыточных затрат памяти, команда Zyphra добавила туда LoRA.

Для модели 1.2B: LoRA-адаптеры добавлены как в MLP, так и в блоки внимания.
Для моделей 2.7B и 7B: Используется только MLP-адаптер, так как именно он берет на себя основную нагрузку по «глубинной» специализации.

Использование LoRA позволяет получить прирост выразительности модели при минимальных затратах параметров и вычислительных мощностей, что стало важным компромиссом для эффективной архитектуры. В моделях 2.7B и 7B также были добавлены позиционные кодирования RoPE для улучшения работы с длинным контекстом, что, по словам Энтони, дало ощутимый прирост эффективности.

Вызовы параллелизма для сверхдлинных контекстов 1:40:45

Масштабирование гибридных моделей на миллионы токенов контекста остается серьезной инженерной задачей. В отличие от стандартных трансформеров, где отработаны подходы типа Ring Attention или Tree Attention, для блоков Mamba специфические методы параллелизма последовательностей еще находятся в стадии разработки.

Основная сложность заключается в том, что даже при константном скрытом состоянии модели, активации и входная последовательность при миллионном контексте требуют огромных объемов памяти. Во время обучения ситуация осложняется необходимостью хранения градиентов и состояний оптимизатора в высокой точности. Энтони подчеркивает, что это «необходимое зло»: если модель не обучается на сверхдлинных последовательностях, она теряет способность обобщать знания на такой длине. Команда Zyphra активно работает над решениями, которые позволят преодолеть эти ограничения, видя в динамическом внимании (где модель сама решает, сколько внимания требуется в конкретном блоке) важный фактор успеха.

Феномен «блокировки» в крупных лабораториях 1:57:51

Квентин Энтони отмечает, что в индустрии наблюдается сильный эффект блокировки (lock-in) на архитектуре трансформеров. Крупные компании, инвестировавшие колоссальные ресурсы в инфраструктуру, оптимизированную исключительно под классические трансформеры, неохотно переходят на новые архитектуры, такие как гибриды с SSM.

Основные причины «сопротивления» переменам включают:

Технический долг: Весь стек обслуживания (serving frameworks), такой как llama.cpp или vLLM, глубоко интегрирован с трансформерами.
Стоимость экспериментов: Оценка архитектуры требует обучения моделей с нуля на сотнях миллиардов токенов, что является «прыжком веры», на который многие лаборатории не готовы идти.
Потеря наработок: Крупные лаборатории (например, Anthropic или OpenAI) обладают глубокими методами интерпретируемости своих моделей, которые придется выстраивать заново при смене архитектуры.

Ранее в разговоре участники затрагивали гибридную природу архитектуры Zamba, объединяющую Mamba и внимание, однако Энтони подчеркивает, что Zyphra остается достаточно гибкой, чтобы избегать этой ловушки, адаптируя любые архитектуры, которые показывают высокую эффективность на конечном устройстве.

🚀 Будущее гибридных моделей в робототехнике и мультимодальности 2:05:31

Развитие архитектур, подобных Zamba, открывает значительные перспективы для интеграции искусственного интеллекта непосредственно в физический мир, включая робототехнику и носимые устройства. Квентин Энтони отмечает, что для таких сценариев ключевым фактором является наличие гибких, высокопроизводительных моделей, способных работать локально на конечном устройстве (on-device).

Малые гибридные модели идеально подходят для роботов, которым необходимо взаимодействовать с человеком в реальном времени. Основная задача здесь — обеспечить мгновенную реакцию на голосовые команды и визуальные запросы (Visual Question Answering), позволяя роботу распознавать окружающую обстановку и осмысленно отвечать на действия пользователя. Энтони подчеркивает, что с появлением полноценных voice-to-voice интерфейсов создание полностью автономных интеллектуальных помощников станет «тривиальной задачей» для текущих архитектур.

Кроме того, высокая энергоэффективность гибридных решений делает их пригодными для запуска на специализированном «железе», таком как Raspberry Pi или Nvidia Jetson. Потенциальные сферы применения выходят далеко за пределы стандартных чат-ботов: это интеллектуальные системы для «умных городов» и автомобильные интерфейсы, где модель может управлять второстепенными функциями транспортного средства (например, скоростью дворников) через естественный диалог. Ранее в разговоре обсуждались преимущества локального инференса и архитектурные особенности Zamba, которые в совокупности с мультимодальностью и обеспечивают такой потенциал для автономных систем.

🌳 Tree Attention: Новый подход к масштабируемому обучению 2:12:21

В области многоузлового обучения и работы с длинным контекстом компания Zyphra представила метод Tree Attention, призванный решить ограничения популярных решений, таких как Ring Attention. В типичных GPU-кластерах используется двухуровневая топология: высокоскоростные соединения (NVLink) внутри узла и значительно более медленные межсоединения (InfiniBand или RoCE) между узлами. В таких условиях Ring Attention, основанный на передаче данных «точка-точка», становится узким местом, так как скорость всей операции начинает зависеть от пропускной способности самого медленного межсетевого звена.

Tree Attention переформулирует распределенную операцию внимания как функцию энергии, что позволяет использовать операции All-Reduce вместо передачи «точка-точка». Преимущества этого метода заключаются в следующем:

Топологическая осведомленность: Современные коммуникационные библиотеки (NVIDIA NCCL, AMD RCCL) оптимизированы для топологий кластеров, и All-Reduce учитывает эти особенности, обеспечивая более эффективное взаимодействие.
Вычисления внутри сети: Операции All-Reduce позволяют переносить часть вычислительной нагрузки (например, суммирование состояний KV) непосредственно в сетевые адаптеры, что позволяет перекрывать вычисления и коммуникацию.
Масштабируемость: Метод лучше подходит для сценариев, требующих обучения на множестве узлов (например, при 2 миллионах токенов контекста), где обычный Ring Attention теряет эффективность из-за ограничений межсетевого обмена.

Хотя Ring Attention остается эффективным при наличии идеально сбалансированных ресурсов, Tree Attention значительно выигрывает там, где модель сталкивается с ограничениями памяти или «коммуникационным голодом» — ситуациями, когда вычислительной мощности недостаточно, чтобы скрыть задержки передачи данных. Энтони отмечает, что для моделей с относительно малыми KV-состояниями и при масштабировании на 16 и более узлов, переход на Tree Attention является оправданным и необходимым шагом для поддержания темпов обучения. При этом, хотя метод может дать небольшие бонусы даже в рамках одного узла, основной прирост производительности разработчики ожидают именно при интенсивном межузловом взаимодействии.