В эпоху взрывного роста нейросетей акцент смещается с вопроса «как обучить модель» на вопрос «как заставить её эффективно работать на конкретном «железе». Джефф Гелхар, вице-президент по технологиям и глава подразделения AI-платформ Qualcomm, в подкасте TWIML AI обсуждает, как компания унифицирует разработку для облаков, смартфонов и интернета вещей. В центре внимания — компиляторы машинного обучения, новые API для разработчиков и технологии сжатия моделей, которые превращают обычные смартфоны в мощные ИИ-станции.
🚀 Унификация ИИ-стека: от облака до периферии 1:07
Джефф Гелхар курирует расширение инвестиций Qualcomm в программное обеспечение для ИИ во всем портфеле продуктов компании . Ключевой стратегический сдвиг текущего момента — гармонизация ИИ-стека. Это означает создание единой программной среды, которая охватывает как мобильные процессоры Snapdragon, так и специализированные ускорители для облачных вычислений.
В рамках этой стратегии обновленная роль Гелхара теперь включает контроль над линейкой продуктов Cloud AI 100 . Этот чип предназначен для:
- Инфраструктуры облачного вывода (Cloud Inference).
- «Умных городов» и систем видеонаблюдения.
- Автономных роботов и систем автоматизированного вождения .
По словам Гелхара, Cloud AI 100 способен обеспечивать сотни тераопераций в секунду (TOPS), а при установке в серверные стойки производительность достигает уровня петаопераций (PetaOPS) . При этом сохраняется традиционный фокус Qualcomm на энергоэффективности (low power), что критично для плотного размещения серверов в дата-центрах.
🛠️ Магия ML-компиляторов: тайлинг и генерация кода 3:22
Одной из самых горячих тем в индустрии стали компиляторы машинного обучения (ML compilers). Гелхар объясняет, что в отличие от классических компиляторов вроде C++, где алгоритм переводится в машинный код, ML-компилятор решает сложнейшую задачу поиска параллелизма в нейронных сетях .
Процесс работы компилятора в Qualcomm разделяют на два ключевых этапа:
- Тайлинг (Tiling) и планирование: Это «решение пазла». Компилятор анализирует граф нейросети и разбивает тензоры (массивы данных) на мелкие блоки так, чтобы они максимально эффективно помещались в локальную кэш-память чипа . Гелхар утверждает, что правильный тайлинг позволяет минимизировать дорогостоящие обращения к основной оперативной памяти (DDR) и максимально задействовать параллельные ядра ускорителя .
- Генерация кода (Code Generation): Когда оптимальный «рецепт» выполнения готов, компилятор создает набор конкретных инструкций для «железа» .
Для разных рынков Qualcomm использует разные инструменты :
- Glow: Инфраструктура, изначально созданная Facebook (Meta), используется для мощных облачных решений серии Cloud AI 100.
- TVM: Проект с открытым исходным кодом, на который Qualcomm делает ставку в сегменте мобильных устройств Snapdragon и IoT .
- TinyTVM: Специализированная версия для сверхмалых устройств, которые должны работать в режиме «всегда включен» (Always-on) .
📱 Смартфон как «черный ящик» с десятками нейросетей 20:13
Современный смартфон перестал быть просто средством связи; теперь это устройство, в котором одновременно работают десятки нейронных сетей. По оценке Гелхара, во флагманских моделях партнеров Qualcomm может быть задействовано от 50 до 70 моделей ИИ одновременно .
Этот «невидимый ИИ» выполняет множество задач:
- Биометрия: Распознавание лиц и отпечатков пальцев.
- Фотография: Ночная съемка, отслеживание субъектов, подавление шумов на снимках.
- Super Resolution: Искусственное повышение разрешения, когда данные с маленького сенсора превращаются в четкое изображение высокого качества за счёт алгоритмов .
- Аудио: Интеллектуальное шумоподавление микрофона во время звонков .
Гелхар подчеркивает, что Qualcomm предоставляет OEM-производителям (таким как Samsung или Xiaomi) гибкость: они могут использовать готовые оптимизированные библиотеки Qualcomm для камер и звука или разрабатывать собственные проприетарные модели .
🔄 AI Engine Direct и обновляемые драйверы 17:37
Чтобы упростить жизнь разработчикам, компания представила AI Engine Direct . Это API среднего уровня, который служит связующим звеном между фреймворками исполнения (такими как TensorFlow Lite или ONNX Runtime) и аппаратными блоками чипа (GPU, Hexagon DSP и др.) .
Важным анонсом, сделанным совместно с Google, стала возможность обновления ИИ-драйверов через магазин приложений, подобно обычным апдейтам ПО . Гелхар объясняет важность этого шага:
- Алгоритмы компиляции и тайлинга постоянно совершенствуются.
- Благодаря обновлению драйверов старое «железо» может показывать лучшие результаты в бенчмарках (например, в MLPerf или Geekbench) спустя месяцы после покупки .
- Пользователь получает прирост производительности ИИ без необходимости менять смартфон .
📉 AIMET: Квантование и сжатие моделей 30:18
Оптимизация моделей для мобильных устройств невозможна без квантования (перевода вычислений из 32-битных чисел с плавающей точкой в 8-битные или даже 4-битные целые числа). Для этого Qualcomm развивает инструментарий AIMET (AI Model Efficiency Toolkit) .
Среди передовых техник Гелхар выделяет:
- AdaRound: Метод стохастического округления весов, который значительно повышает точность квантованной модели по сравнению с обычным округлением .
- Hardware-aware Quantization Aware Training (QAT): Обучение модели с учетом специфических особенностей конкретного «железа», на котором она будет работать .
В настоящее время компания выпускает версию AIMET Pro для ключевых партнеров, обеспечивая более глубокую интеграцию с дорожной картой новых процессоров .
🌐 Будущее: Федеративное обучение и 5G 38:25
В финале беседы Джефф Гелхар затронул тему федеративного обучения — способа тренировки моделей на данных пользователей без их передачи в облако (что критично для приватности). Qualcomm, будучи лидером в области беспроводной связи, использует свой опыт симуляции миллионов пользователей с нестабильным соединением для развития этой технологии .
Перспективные сценарии использования включают:
- Улучшение работы «пробуждающих слов» (Wake words) для голосовых ассистентов.
- Тонкая настройка моделей на основе коллективного опыта пользователей разных устройств.
- Совместная работа 5G и ИИ, где высокая скорость связи позволяет быстро обмениваться только градиентами (обновлениями) моделей, а не самими данными пользователей .