Анатомия Zamba: как скрестить Mamba и внимание на мобильных устройствах

The Cognitive Revolution 14,8 тыс. 2 ч 24 мин 16 мин 30.10.2024
Главное

«Показатель лосса при обучении нейросетей вообще не имеет значения», — утверждает Квентин Энтони из Zyphra, развенчивая один из главных мифов индустрии искусственного интеллекта. Пока крупные лаборатории застряли в ловушке дорогой инфраструктуры классических трансформеров, стартап Zyphra ломает правила и создает гибридную архитектуру Zamba. Объединив скорость моделей Mamba с точностью блоков внимания, инженеры добились десятикратного сжатия KV-кэша, открывая эпоху глубокой персонализации ИИ прямо на мобильных устройствах.

🌐 Локальный инференс и гибридная логика: зачем ИИ переезжает на устройства 0:00

Будущее сильного искусственного интеллекта (AGI) неразрывно связано с гибридной моделью развертывания, сочетающей облачные вычисления и локальное исполнение на устройствах. По мнению Квентина Энтони (Quentin Anthony), руководителя отдела обучения моделей в Zyphra, современные монолитные гиганты вроде OpenAI или Anthropic физически не способны адаптироваться под каждого отдельного пользователя на планете. Настоящая персонализация требует не просто манипуляций с системным промптом, а глубокого внедрения пользовательских данных непосредственно в веса модели .

Персонализация и приватность как «Полярная звезда» разработки 4:34

Основная мотивация для переноса вычислений «на край» (edge) — это возможность глубокой настройки ИИ. Квентин Энтони подчеркивает, что Zyphra стремится к тому, чтобы модель буквально знала ваши предпочтения, любимые рестораны и стиль общения, запекая эти знания в веса .

Помимо персонализации, критически важными остаются еще три фактора:

  1. Приватность данных: Существует огромный пласт корпоративной и личной информации (от проприетарного кода до частной переписки), которую пользователи и предприятия не готовы отправлять в облако .
  2. Экономика и инфраструктура: Капитальные затраты (CAPEX) облачных провайдеров на инференс моделей колоссальны. Перенос нагрузки на устройства пользователей — единственный устойчивый путь масштабирования технологии .
  3. Автономность и скорость: Локальные модели работают без задержек сети и доступны в офлайн-режиме, обеспечивая мгновенный отклик .

В видении Zyphra модели делятся по ролям. Компактные модели (1B–2.7B параметров) идеально подходят для повседневных задач на смартфонах, таких как суммаризация почты или чат, в то время как более мощные 7B-модели выступают в роли «умных помощников» на ноутбуках, способных решать сложные логические задачи. В идеальном сценарии локальная модель должна сама понимать, когда ей не хватает ресурсов, и обращаться к «облачному оракулу» за помощью .

Практический путь к такой персонализации лежит через непрерывное обучение (continual learning). Квентин Энтони предполагает, что обновление весов может происходить ночью, пока устройство находится на зарядке . Это гораздо эффективнее, чем попытки втиснуть 50 000 токенов контекста в системный промпт, что часто ведет к галлюцинациям. Кроме того, Zyphra экспериментирует с управлением активациями (activation steering), что позволяет мгновенно менять «тон» модели, делая её, например, более живой или формальной в зависимости от мгновенной обратной связи пользователя .

Гибридная архитектура Zamba: синергия Mamba и внимания 12:38

При проектировании моделей для локального использования разработчики сталкиваются с дилеммой. Традиционные трансформеры крайне требовательны к памяти: объем их KV-кэша растет линейно вместе с длиной контекста, что быстро приводит к ошибкам нехватки памяти (OOM) на смартфонах . С другой стороны, чистые SSM-модели (State Space Models), такие как Mamba, демонстрируют великолепную эффективность и фиксированный размер состояния, но часто уступают в качестве генерации.

Квентин Энтони отмечает, что чистые SSM-модели испытывают сложности с задачами, требующими точного сопоставления зависимостей внутри последовательности (in-context learning) . Ранее в разговоре упоминалось, что хотя Mamba и становится производительнее при обучении на триллионах токенов, она всё равно с трудом «удерживает» сложные контекстные связи, которые для механизмов внимания (attention) являются естественными.

Zamba решает эту проблему через гибридный подход:

Такая комбинация позволяет модели быть «быстрой на поворотах» за счет Mamba и «умной в деталях» благодаря вниманию, при этом сохраняя требования к памяти на уровне, допустимом для мобильных устройств.

Глобально разделяемые блоки внимания 16:36

Одной из самых инновационных черт архитектуры Zamba является использование общих блоков внимания (Global Shared Attention). Инженеры Zyphra обнаружили, что в глубоких трансформерах блоки внимания на разных слоях сильно коррелируют между собой — по сути, они выполняют схожую работу, указывая на одни и те же важные токены . Основная же специализация и «накопление знаний» происходят в блоках MLP (многослойных перцептронах) или, в случае Zamba, в блоках Mamba.

Вместо того чтобы плодить уникальные веса для каждого слоя внимания, Zamba использует один и тот же блок внимания, который вызывается повторно через определенные интервалы слоев Mamba. В первой версии Zamba один блок внимания применялся каждые шесть слоев Mamba .

Основные преимущества этого решения:

В Zamba 2 архитектура была дополнительно улучшена: к общему блоку внимания добавили независимые LoRA-адаптеры на каждом слое. Это позволило сохранить экономию памяти, но дало модели возможность лучше специализироваться на разных уровнях абстракции . Подобный подход позволяет выжать максимум производительности из каждого параметра, что критично при лимите памяти на конечном устройстве .

🧠 Тонкая грань между обучением и интеллектом: опыт Zyphra 25:02

Техническая архитектура моделей — это всегда баланс между вычислительной мощностью и способностью системы «понимать» структуру данных. Как отмечает Квентин Энтони из Zyphra, исходная ценность архитектуры внимания (attention) заключалась в способности собирать максимально детализированные «заметки» о каждой связи между токенами в последовательности. В то время как слои многослойных перцептронов (MLP) пытаются извлечь из этих заметок более глубокий смысл, механизм внимания обеспечивает фундамент этой аналитики, будучи при этом весьма затратным ресурсом.

Ограничения чистого SSM и поиск качества 30:16

Одной из главных вех в ранних исследованиях Zyphra стала разработка модели BlackMamba. В тот период команда, изначально сфокусированная на Mixture of Experts (MoE), увидела в архитектуре Mamba многообещающее решение для запуска на устройствах (on-device) благодаря отсутствию квадратичной сложности и необходимости хранения KV-кэша.

Однако на практике выяснилось, что чисто SSM-модели (State Space Models) без внимания сталкиваются с серьезными проблемами качества. Эксперименты показали:

Этот опыт стал определяющим уроком: чистые SSM-архитектуры не могут в полной мере заменить внимание, если целью является создание универсальной, высококачественной модели, способной к рассуждению.

Дивергенция лосса и реальной полезности 37:32

Для разработчиков, обучающих современные модели, функция потерь (loss) часто превращается в обманчивый ориентир. Хотя она полезна для отслеживания критических сбоев, «падение лосса до 2 или 3» не гарантирует, что модель будет полезна пользователю.

Zyphra ориентируется на более комплексный подход к оценке, где низкий лосс — лишь свидетельство того, что модель «прогрессирует» по ландшафту оптимизатора. Основная работа по проверке качества ложится на специфические бенчмарки и качественные тесты:

Грокинг и внезапное появление способностей 43:10

Появление сложных навыков, таких как корректное следование формату MMLU, редко происходит плавно. Чаще это напоминает скачок или фазовый переход. Для плотных трансформеров это происходит после обработки сотен миллиардов токенов, а для чистых SSM-архитектур, таких как Falcon Mamba, этот порог может достигать трех-четырех триллионов токенов.

Этот процесс, который Квентин Энтони называет «гроккингом» (grokking), тесно связан с этапом отжига (annealing) и графиком обучения. Модель как будто должна «осознать» саму задачу — например, что от нее требуется ответ в формате единственного символа, а не развернутый текст. Это требует огромного объема данных, чтобы модель закрепилась в нужном «бассейне» функции потерь, где мелкие изменения весов начинают приводить к качественным изменениям в её способностях.

🎛️ Стратегии обучения: от оптимизаторов до масштабирования 50:17

Обучение современных нейросетевых моделей — это процесс, сочетающий в себе строгую математику и своего рода «алхимию». Квентин Энтони (Quentin Anthony) отмечает, что характер обучения сильно зависит от масштаба: если у гигантских моделей ландшафт потерь (loss landscape) обычно гладкий, что упрощает работу оптимизаторов, то у компактных моделей он оказывается значительно более «холмистым» и сложным.

Выбор оптимизаторов: ставка на стабильность 51:47

В условиях сложного ландшафта потерь выбор правильного алгоритма оптимизации становится критическим фактором. Несмотря на появление специализированных алгоритмов, таких как Sophia или различных методов второго порядка, команда Zyphra делает ставку на классический Adam.

Квентин объясняет это крайней надежностью Adam: он предсказуем, не имеет явных «слепых зон» и демонстрирует хорошие результаты практически в любой задаче. Более экзотические оптимизаторы могут показать локальное превосходство в конкретных кейсах, однако их настройка зачастую требует нескольких недель мучительного поиска подходящих гиперпараметров. Для разработчиков, работающих в ограниченных вычислительных условиях, возможность просто запустить обучение и быть уверенным в сходимости — более ценный ресурс, чем гипотетическое снижение функции потерь на доли процента.

Метод отжига и двухфазное обучение 59:47

Эффективная стратегия обучения, которую Квентин Энтони называет «отжигом» (annealing), стала важным инструментом для закрепления знаний. Процесс разделен на две принципиальные фазы:

Такой подход позволяет «запечь» в модель ключевые навыки, делая их приоритетными. Квентин подчеркивает, что этот метод также обеспечивает гибкость: имея общую базовую модель, можно проводить «отжиг» на разных подмножествах данных (например, для ролевых игр или строго фактологических текстов), создавая специализированные ответвления, которые работают эффективнее, чем простая донастройка (fine-tuning).

Сложности дистилляции знаний 1:05:30

Дистилляция, при которой маленькая модель обучается повторять поведение гигантов (например, Llama 3 405B), остается одной из самых желанных, но труднореализуемых техник. Основная проблема здесь — экономическая эффективность.

Для того чтобы дистилляция приносила реальную пользу, недостаточно просто копировать финальные ответы модели; необходимо использовать логиты (вероятностные распределения), которые показывают, на что именно «смотрит» большая модель. Однако запуск огромной модели параллельно с обучением маленькой на каждом шаге требует колоссальных вычислительных ресурсов. На текущий момент часто оказывается дешевле и эффективнее просто обучить модель большего размера с нуля или использовать большие объемы данных, чем пытаться реализовать полноценную дистилляцию на этапе предобучения.

Масштабирование гиперпараметров через mu-transfer 1:11:12

Одной из «секретных» технологий, позволяющих крупным лабораториям экономить бюджет, является метод mu-transfer (maximal update parameterization). Он решает проблему переноса оптимальных гиперпараметров с крошечных моделей на огромные.

Суть метода заключается в том, что все поиски оптимальной скорости обучения и размеров батча проводятся на моделях с очень малой шириной, что требует ничтожно малых затрат. Благодаря математически обоснованным коэффициентам масштабирования, найденные настройки можно «транслировать» на модели с миллиардами параметров без потери стабильности. Это избавляет от необходимости проводить дорогостоящие «прогоны» на полных масштабах, что дает огромную фору тем, кто владеет данной технологией.

🛠 Оптимизация под «железо» и эффективность обучения

Аппаратная эффективность и «степени двойки» 1:25:36

Одной из фундаментальных, но часто игнорируемых областей оптимизации является подбор размеров модели, соответствующих архитектуре GPU. Квентин Энтони отмечает, что в классических публикациях, таких как оригинальная статья по GPT-3, использовались специфические размеры скрытых слоев, которые были эффективны не только с точки зрения качества, но и с точки зрения работы вычислительных ядер.

Многие разработчики долгое время копировали эти конфигурации, не до конца осознавая, что использование размеров скрытых измерений, кратных степеням двойки, критически важно для максимальной пропускной способности GPU. В моделях Zamba компания Zyphra осознанно применяет эти принципы:

Проблема «волновых» квантований и пропускной способности 1:27:36

Глубокое понимание аппаратного обеспечения требует учета того, как именно распределяется нагрузка. Квентин приводит концепцию «волнового квантования» (wave quantization): если у вас есть 100 потоковых мультипроцессоров (SM) на чипе H100, но вы подаете 101 единицу работы, системе приходится выполнять два временных шага. Второй шаг оказывается практически пустым, что снижает пропускную способность (throughput) вдвое.

На графике зависимости пропускной способности от размера задачи возникают «волны»: каждый раз, когда вы выходите за пределы емкости вычислительных мощностей, вы вынуждены запускать новый временной цикл, резко теряя в эффективности. Проектирование моделей под конкретное «железо» позволяет избежать этой деградации. Энтони отмечает, что если бы компания-производитель чипов хотела создать модель, эффективную только для своего железа, она бы жестко «зашила» в архитектуру параметры, соответствующие количеству SM и объему SRAM конкретного чипа. Сейчас индустрия стоит перед выбором: либо двигаться в сторону совершенной специализации под каждое устройство, либо стремиться к созданию унифицированного оборудования, способного эффективно запускать модели разных архитектур.

Эмпирический поиск архитектурных решений 1:30:27

Работа над архитектурой Zamba сочетает интуицию с жесткими экспериментальными данными. Например, решение о конкатенации (concatenation) остаточного потока (residual stream) из блока Mamba с исходными эмбеддингами перед подачей в блок внимания было принято на основе тестов. Хотя это увеличивает вычислительные затраты из-за расширения размерности, эксперименты показали, что это дает ощутимый прирост производительности.

В вопросе соотношения слоев Mamba к блокам внимания в Zamba 1 и Zamba 2 (соотношение 6:1), команда также пришла к этому решению эмпирическим путем. Попытки использовать соотношения 7:1 или 5:1 показывали результаты чуть хуже. Ранее в разговоре Квентин затрагивал вопросы выбора оптимизаторов, переноса гиперпараметров через mu-transfer и сложности дистилляции знаний, что является критически важными аспектами, дополняющими архитектурные изыскания. В конечном итоге, успех Zyphra заключается в способности «под микроскопом» анализировать каждый шаг процесса обучения, выискивая скрытые резервы производительности, которые крупные лаборатории часто упускают из виду из-за своей фокусировки на простом масштабировании.

🔬 Архитектурные инновации и масштабируемость Zamba 2 1:45:45

Разработка Zamba 2 — это не просто замена алгоритма SSM на более современный SSD, а комплексная модернизация архитектурного стека. Квентин Энтони отмечает, что основная цель заключалась в исследовании взаимосвязи между глубиной сети и разделяемыми блоками, а также в повышении гибкости модели при работе с различными задачами.

Специализация слоев через LoRA-адаптеры 1:46:11

Одним из ключевых архитектурных нововведений стало внедрение LoRA-адаптеров в блоки MLP. Исследования показали, что механизмы внимания (Attention) хорошо коррелируют по глубине сети, тогда как MLP-блоки — нет. Чтобы MLP могли лучше специализироваться на разных уровнях глубины без избыточных затрат памяти, команда Zyphra добавила туда LoRA.

Использование LoRA позволяет получить прирост выразительности модели при минимальных затратах параметров и вычислительных мощностей, что стало важным компромиссом для эффективной архитектуры. В моделях 2.7B и 7B также были добавлены позиционные кодирования RoPE для улучшения работы с длинным контекстом, что, по словам Энтони, дало ощутимый прирост эффективности.

Вызовы параллелизма для сверхдлинных контекстов 1:40:45

Масштабирование гибридных моделей на миллионы токенов контекста остается серьезной инженерной задачей. В отличие от стандартных трансформеров, где отработаны подходы типа Ring Attention или Tree Attention, для блоков Mamba специфические методы параллелизма последовательностей еще находятся в стадии разработки.

Основная сложность заключается в том, что даже при константном скрытом состоянии модели, активации и входная последовательность при миллионном контексте требуют огромных объемов памяти. Во время обучения ситуация осложняется необходимостью хранения градиентов и состояний оптимизатора в высокой точности. Энтони подчеркивает, что это «необходимое зло»: если модель не обучается на сверхдлинных последовательностях, она теряет способность обобщать знания на такой длине. Команда Zyphra активно работает над решениями, которые позволят преодолеть эти ограничения, видя в динамическом внимании (где модель сама решает, сколько внимания требуется в конкретном блоке) важный фактор успеха.

Феномен «блокировки» в крупных лабораториях 1:57:51

Квентин Энтони отмечает, что в индустрии наблюдается сильный эффект блокировки (lock-in) на архитектуре трансформеров. Крупные компании, инвестировавшие колоссальные ресурсы в инфраструктуру, оптимизированную исключительно под классические трансформеры, неохотно переходят на новые архитектуры, такие как гибриды с SSM.

Основные причины «сопротивления» переменам включают:

Ранее в разговоре участники затрагивали гибридную природу архитектуры Zamba, объединяющую Mamba и внимание, однако Энтони подчеркивает, что Zyphra остается достаточно гибкой, чтобы избегать этой ловушки, адаптируя любые архитектуры, которые показывают высокую эффективность на конечном устройстве.

🚀 Будущее гибридных моделей в робототехнике и мультимодальности 2:05:31

Развитие архитектур, подобных Zamba, открывает значительные перспективы для интеграции искусственного интеллекта непосредственно в физический мир, включая робототехнику и носимые устройства. Квентин Энтони отмечает, что для таких сценариев ключевым фактором является наличие гибких, высокопроизводительных моделей, способных работать локально на конечном устройстве (on-device).

Малые гибридные модели идеально подходят для роботов, которым необходимо взаимодействовать с человеком в реальном времени. Основная задача здесь — обеспечить мгновенную реакцию на голосовые команды и визуальные запросы (Visual Question Answering), позволяя роботу распознавать окружающую обстановку и осмысленно отвечать на действия пользователя. Энтони подчеркивает, что с появлением полноценных voice-to-voice интерфейсов создание полностью автономных интеллектуальных помощников станет «тривиальной задачей» для текущих архитектур.

Кроме того, высокая энергоэффективность гибридных решений делает их пригодными для запуска на специализированном «железе», таком как Raspberry Pi или Nvidia Jetson. Потенциальные сферы применения выходят далеко за пределы стандартных чат-ботов: это интеллектуальные системы для «умных городов» и автомобильные интерфейсы, где модель может управлять второстепенными функциями транспортного средства (например, скоростью дворников) через естественный диалог. Ранее в разговоре обсуждались преимущества локального инференса и архитектурные особенности Zamba, которые в совокупности с мультимодальностью и обеспечивают такой потенциал для автономных систем.

🌳 Tree Attention: Новый подход к масштабируемому обучению 2:12:21

В области многоузлового обучения и работы с длинным контекстом компания Zyphra представила метод Tree Attention, призванный решить ограничения популярных решений, таких как Ring Attention. В типичных GPU-кластерах используется двухуровневая топология: высокоскоростные соединения (NVLink) внутри узла и значительно более медленные межсоединения (InfiniBand или RoCE) между узлами. В таких условиях Ring Attention, основанный на передаче данных «точка-точка», становится узким местом, так как скорость всей операции начинает зависеть от пропускной способности самого медленного межсетевого звена.

Tree Attention переформулирует распределенную операцию внимания как функцию энергии, что позволяет использовать операции All-Reduce вместо передачи «точка-точка». Преимущества этого метода заключаются в следующем:

Хотя Ring Attention остается эффективным при наличии идеально сбалансированных ресурсов, Tree Attention значительно выигрывает там, где модель сталкивается с ограничениями памяти или «коммуникационным голодом» — ситуациями, когда вычислительной мощности недостаточно, чтобы скрыть задержки передачи данных. Энтони отмечает, что для моделей с относительно малыми KV-состояниями и при масштабировании на 16 и более узлов, переход на Tree Attention является оправданным и необходимым шагом для поддержания темпов обучения. При этом, хотя метод может дать небольшие бонусы даже в рамках одного узла, основной прирост производительности разработчики ожидают именно при интенсивном межузловом взаимодействии.

💬 Цитаты

«Мы считаем, что вам нужен собственный набор весов, и простого изменения системного промпта для каждого человека недостаточно.»

«Чистые SSM-модели имеют проблемы с качеством, а плотные трансформеры на базе внимания имеют проблемы с производительностью.»

«Loss is not a very useful indicator like at all.»

Квентин Энтони (Quentin Anthony) 38:24

«Adam is extremely robust that's the main reason... it doesn't have any like glaring weak points.»

«Sequence parallelism is purely a necessary evil to get around memory constraints.»

Квентин Энтони 144:39

«If I was not bound by memory and compute then I would just probably have independent MLPs and a shared attention.»

Квентин Энтони 152:57
👥 Спикер
📖 Термины
Zamba
Гибридная архитектура нейросетей от Zyphra, сочетающая блоки Mamba и глобально разделяемые блоки внимания.
SSM (State Space Models)
Модели пространства состояний — альтернативная трансформерам архитектура, отличающаяся высокой скоростью работы с последовательностями.
Грокинг (Grokking)
Феномен скачкообразного освоения нейросетью сложных обобщающих навыков после обработки огромных объемов данных.
Shared Attention
Технология глобально разделяемых блоков внимания, позволяющая значительно сократить объем KV-кэша при инференсе.
Tree Attention
Метод оптимизации распределенного внимания, учитывающий топологию GPU-кластеров для эффективного масштабирования контекста.
Искусственный интеллект Zyphra Zamba Mamba Квентин Энтони гибридные архитектуры