Генеративный ИИ на устройствах: как Qualcomm адаптирует чипы под трансформеры

Технологии искусственного интеллекта развиваются стремительно, трансформируя требования к аппаратному обеспечению и заставляя инженеров полностью переосмыслять архитектуру процессоров. В новом выпуске подкаста The TWIML AI Podcast ведущий Сэм Чаррингтон обсудил с главой отдела управления продуктами AI/ML в Qualcomm Technologies Винешем Сукумаром будущее генеративного ИИ на периферийных устройствах (Edge AI). Эксперт подробно рассказал о том, как меняются подходы к проектированию чипов, почему индустрия совершает тектонический сдвиг от сверточных сетей к трансформерам и каким образом можно запустить тяжелые языковые модели локально без потери пользовательского опыта.

🛠️ От компьютерного зрения к генеративному ИИ: эволюция архитектур 0:00

Винеш Сукумар имеет за плечами более 10–15 лет опыта в сфере искусственного интеллекта. Он начинал свою карьеру в Лаборатории реактивного движения NASA (JPL), где занимался классификацией изображений и объектов, что тогда функционировало под номенклатурой компьютерного зрения и требовало анализа огромных таблиц и графиков. Затем его путь пролегал через потребительскую электронику — от камер мобильных телефонов до ПК и автомобильных платформ, пока в Qualcomm он не возглавил горизонтальное развитие AI/ML во всех вертикалях компании. Рассуждая о динамике индустрии, Сукумар шутит, что в сфере ИИ то, что вы знаете сегодня, завтра станет абсолютно устаревшим, поэтому нужно всегда оставаться студентом в душе.

Исторически ИИ на периферийных устройствах был скромным по масштабам и развивался преимущественно вокруг обработки изображений и видео. Сюда входили задачи улучшения качества кадров, модификации картинок, сегментации фона, детектирования и классификации. Подобные алгоритмы опирались на сверточные нейронные сети (CNN), которые идеально подходили для таких изолированных операций.

Однако по мере роста технической зрелости, вклада исследователей и готовности рынка фокус сместился на мультимодальность: интеграцию текста, лингвистики и коммерческих данных. Сегодня инвестиции активно перетекают в сторону архитектуры трансформеров, генеративного контента и рекомендательных движков, популярных в соцсетях. Перед разработчиками чипов встал серьезный вопрос: создавать ли универсальную архитектуру, способную поддерживать сложные модели вроде больших языковых (LLM), или сфокусироваться на узкоспециализированных ядрах с максимальной энергоэффективностью? По словам Сукумара, Qualcomm стремится развивать оба подхода, масштабируя решения под конкретные форм-факторы.

💾 Аппаратно-программный компромисс: переход на INT4 и магия квантования 6:16

При проектировании систем инженеры ориентируются на ключевые показатели эффективности (KPI), среди которых: задержка (latency), общая производительность, качество обслуживания (QoS) и энергоэффективность. Декомпозиция системы на прикладном уровне позволяет понять, какие требования предъявляются к программному обеспечению, а какие — к аппаратному. При этом разработчикам «железа» приходится планировать инвестиции на 2–3 года вперед.

С точки зрения аппаратного обеспечения Qualcomm последовательно продвигает вычисления с фиксированной точкой (fixed point). Как утверждает гость, такой подход обеспечивает лидирующую энергоэффективность, максимальную производительность и малый объем занимаемой памяти по сравнению с представлением тех же моделей в формате с плавающей точкой (floating point). Эволюция типов данных в компании прошла путь от стандартного Float к INT8, а теперь движется в сторону ультраэффективного формата INT4.

Для оптимизации энергопотребления чипов инженеры используют следующие архитектурные решения:

Интеграция локальной, жестко связанной памяти для хранения функций смещения (bias functions), что избавляет систему от необходимости постоянных обращений к DRAM и экономит энергию на круглых трипах данных.
Внедрение аппаратной разреженности (sparsity) и интеллектуальных схем, позволяющих чипу не тратить циклы на умножение на ноль.

На программном уровне ключевым процессом является квантование весов и активаций нейросетей. Для этого Qualcomm развивает специализированный инструментарий AIMET (Artificial Intelligence Model Efficiency Toolkit), дающий партнерам возможность переводить модели в 8-битный и 4-битный форматы без потери точности.

Недавно представленный единый стек Qualcomm AI Stack включает в себя среду выполнения (runtime), библиотеки и низкоуровневые API, оптимизированные для работы на Windows, Linux и Android. По словам Сукумара, сквозной характер этого стека позволяет переносить уроки, извлеченные в автомобильном секторе, на мобильные платформы, и наоборот. Безопасность моделей на устройстве гарантируется схемами шифрования, а одновременное выполнение нескольких вычислительных графов (concurrency) — продвинутыми механизмами вытеснения (preemption) без ущерба для качества обслуживания.

🚗 Специфика платформ: мобильные устройства против беспилотных автомобилей 11:28

Различия между мобильным и автомобильным сегментами колоссальны. Смартфоны жестко ограничены емкостью батареи. Исторически пользователи покупают телефоны ради хороших камер, поэтому ИИ-аналитика там была сверточной и работала с небольшими входными тензорами (от 225x225 до 512x512 пикселей). Сейчас же на мобильных устройствах происходит слияние текста и изображений, где трансформеры помогают понимать контекст последовательных данных для более точных предсказаний.

В автомобильной сфере ландшафт вычислений выглядит принципиально иначе:

Критически важна одновременная обработка данных (concurrency) с 5–16 различных датчиков, включая камеры, лидары и радары.
Требуется работа с высоким разрешением входящих тензоров (камеры на 1, 3, 5 и 8 мегапикселей) для обеспечения широкого поля зрения и строгого соблюдения сверхнизких задержек при принятии решений.
Один глубокий ИИ-модуль должен параллельно решать множество разнородных задач, например, одновременно отвечать за стратегию вождения (drive policy) и алгоритмы автоматической парковки.

Ведущий Сэм Чаррингтон упомянул недавнюю статью Массачусетского технологического института (MIT), авторы которой подсчитали: при полном развертывании полностью беспилотного транспорта пятого уровня (Level 5) суммарная потребность автомобилей в вычислительных мощностях сравняется с емкостью всех существующих сегодня дата-центров мира.

Винеш Сукумар согласился с реалистичностью этого прогноза. По его мнению, одновременное обеспечение работы внутрисалонного инфотейнмента, продвинутых систем помощи водителю (ADAS) и централизованного управления флотом коммерческих грузовиков или роботакси из единого узла действительно потребует ИТ-инфраструктуры масштаба современных глобальных ЦОД. Qualcomm планомерно готовилась к этому вызову последние 5–6 лет, расширяя свое присутствие в смежных нишах: AR/VR, IoT и автомобильном секторе. Эксперт ожидает массовый выход автомобилей уровней автономии L2 и L3 на рынок в ближайшие годы, что станет фундаментом для перехода к полной беспилотности.

🖥️ Персонализация на периферии, Enterprise-сегмент и вызовы MLOps 17:37

После пандемии COVID-19 и массового перехода на удаленную работу резко выросла популярность ПК в корпоративном секторе (Enterprise). ИИ в компьютерах стал критически востребован для улучшения качества видеоконференций и стриминга напрямую из дома. Как анонсирует Сукумар, Qualcomm готовит крупные релизы в этом сегменте, чтобы перенести корпоративный пользовательский опыт на локальные устройства.

Параллельно растет спрос на локальную персонализацию. Чтобы ИИ ушел от шаблонных ответов, ему необходим доступ к личным данным конкретного человека — его голосу, тексту и видео со встроенных датчиков и камер. Однако здесь индустрия сталкивается со сложными вопросами: какой объем данных достаточен, как обеспечить их фильтрацию и правильную разметку непосредственно на чипе устройства?

Сукумар констатирует, что индустрия окончательно трансформируется от моделецентричного подхода к датацентричному. На периферии это требует развертывания полноценного цикла MLOps (от аннотирования данных до мониторинга концептуального дрейфа моделей).

Сегодня эксперт выделяет три основные категории внедрения Edge-моделей:

Использование готовой предобученной открытой модели, ее квантование и запуск на устройстве — в этом сценарии никто не следит за дрейфом точности со временем.
Разработка ИИ с нуля при отсутствии готовых датасетов, например, для систем мониторинга состояния водителя (DMS), определяющих его эмоции. В таких случаях критически важной стала генерация синтетических данных, набравшая огромную популярность за последние три-четыре года.
Непрерывное обучение и дообучение модели прямо на устройстве с учетом пользовательской специфики без отправки персональных данных в облако. В качестве примеров подобных подходов Сукумар упоминает концепцию Tesla с оптимизацией моделей через облачную обратную связь и технологию федеративного обучения (Federated Learning) от Google.

🧠 Большие языковые модели на «железе»: вызов для архитектуры Attention 28:49

В гибридных архитектурах вычисления часто разделяются. К примеру, во время корпоративных звонков функции автоматического распознавания речи (ASR), машинного перевода (NMT) и синтеза голоса (TTS) обычно выполняются в облаке, поскольку требуют огромных языковых библиотек, не помещающихся в стандартный теплопакет смартфона. Однако с приходом генеративного ИИ разработчики стремятся сделать периферию более независимой.

На момент записи подкаста сообщество было увлечено локальным запуском модели LLaMA от Meta на 7 миллиардов параметров на домашних MacBook и даже на платах Raspberry Pi. Правда, скорость генерации в 10 секунд на один токен на Raspberry Pi, по оценке спикеров, неприемлема для реального использования: задержка ответа более 15 секунд полностью разрушает пользовательский опыт.

Архитектурно трансформеры кардинально отличаются от классических сверточных сетей (CNN). Если свертки создавались для мануальных задач вроде классификации и детекции без учета контекста, то трансформеры используют механизмы многослойного внимания (multi-layered attention). Это позволяет им выявлять глубокие связи в последовательных данных и выдавать персонализированные, релевантные ответы вместо общих фраз. Параллельно исследователи пытаются обучить и CNN контекстуальной логике, но пока трансформеры удерживают лидерство.

Для полноценного запуска тяжелых LLM на периферийных чипах необходимо решить несколько фундаментальных задач:

Обеспечение достаточного объема физической памяти для хранения миллиардов параметров (модели OpenAI вроде GPT-3.5 содержат 175 млрд параметров, а GPT-4 превышает 200 млрд).
Аппаратная поддержка вычислений с фиксированной точкой (INT8/INT4) непосредственно на уровне кремния для снижения требований к памяти.
Наличие зрелого ПО для квантования из FP-формата в фиксированную точку.
Программируемое аппаратное ускорение начальных слоев стека (энкодеров) для сокращения времени инференса, а также высокая пропускная способность между памятью и вычислительными ядрами.

По прогнозу Сукумара, в ближайшие пару лет все ведущие производители полупроводников начнут в том или ином виде аппаратно поддерживать LLM в своем кремнии.

🧩 Микроплиточное исполнение: «Kubernetes» внутри одного чипа 35:55

Одним из главных технологических прорывов Qualcomm, представленных на ежегодном мероприятии Snapdragon Tech Summit, стала технология микроплиточного инференса (micro-tile inferencing). Традиционный подход требовал загрузки всего вычислительного графа (модели TensorFlow или PyTorch) в процессор и выполнения операций поочередно, слой за слоем, что расходовало много энергии и создавало задержки. Стоит пояснить, что речь идет именно о программных графах моделей, а не о графовых нейросетях (GNN), применяемых в медицине для анализа ДНК.

Технология микроплиточного исполнения полностью меняет этот паттерн:

Единый вычислительный граф разбивается на мелкие независимые элементы — «плитки» (tiles).
Специальные управляющие процессоры распределяют эти плитки между множеством гетерогенных микроядер внутри одного чипа.
В зависимости от типа операции активируются специализированные ядра: векторные, скалярные или матричные, выполняющие вычисления параллельно, а не последовательно.

Ведущий Сэм Чаррингтон сравнил эту технологию с запуском микро-Kubernetes или инфраструктуры Cube Flow прямо на кристалле периферийного процессора, где задачи направляются в строго определенные специализированные поды. Винеш Сукумар согласился с аналогией, подчеркнув важность понимания внутренней механики моделей, ведь современные сценарии требуют одновременного запуска 5, 10 или 15 различных нейросетей без потери скорости.

Гость прогнозирует, что ближайшие 6–9 месяцев ознаменуются приходом эпохи «AI 2.0». Пользователей ждет бум глубокой контекстуализации, кастомизированных ответов и мультимодальных генераций (текст-в-текст, изображение-в-изображение, текст-в-3D). В качестве примера лавинообразного развития Сукумар привел факт появления более 150 стартапов всего за пару месяцев после открытия API от компании OpenAI.