Джилей Хоу (Qualcomm): «ИИ будущего — это гибрид устройства и облака»

Будущее ИИ на граничных устройствах: взгляд эксперта Qualcomm 0:00

Генеративный искусственный интеллект совершает революцию в том, как мы взаимодействуем с технологиями, переходя от облачных вычислений к работе непосредственно на персональных устройствах. Джилей Хоу (Jilei Hou), вице-президент по инжинирингу Qualcomm Technologies, в подкасте The TWIML AI Podcast обсудил, как компания адаптирует сложные модели, такие как Stable Diffusion и LLM (большие языковые модели), для работы «на грани» (on-device).

🔬 Информационная теория как фундамент ИИ 0:54

Джилей Хоу отмечает, что современная архитектура ИИ глубоко укоренена в теории информации и обработке сигналов. По его словам, такие понятия, как KL-дивергенция (мера различия между двумя распределениями вероятностей), изначально возникли в теории информации, а затем стали фундаментальными объектами при обучении нейронных сетей.

В Qualcomm этот подход стал основой для исследований в области сжатия данных. Исследовательская группа Qualcomm AI Research, сформированная около 2018 года, объединяет 200–300 специалистов, чья работа сфокусирована на трёх ключевых направлениях:

Энергоэффективность: перенос рабочих нагрузок машинного обучения на устройство для снижения зависимости от облака.
Персонализация: адаптация моделей под нужды и предпочтения конкретного пользователя.
Квантование: преобразование данных моделей (например, из формата fp32 или fp16) в более компактные и эффективные форматы для мобильных процессоров.

🎨 Stable Diffusion на смартфоне: вызовы и решения 13:26

Запуск Stable Diffusion на граничных устройствах стал важной вехой для индустрии. По мнению Джилея Хоу, это критически важно по трем причинам:

Конфиденциальность: личные промпты и контент пользователя остаются на устройстве и не передаются в облако.
Экономия: перенос вычислений на миллиарды устройств позволяет амортизировать затраты на инференс, которые становятся непомерно высокими для облачных провайдеров при массовом использовании.
Надежность: работа устройства не зависит от стабильности интернет-соединения или загруженности облачных серверов.

Главным техническим вызовом стал размер модели. Если типичные ИИ-задачи на мобильных устройствах требуют менее 100 млн параметров, то Stable Diffusion оперирует 1,1 млрд параметров. Для решения проблемы латентности (задержки) Qualcomm применила продвинутые методы квантования, такие как Adaround. Эта технология позволяет квантовать веса модели до 8 бит без переобучения, обеспечивая при этом качество, эквивалентное более высоким форматам за счет «магического» прироста отношения сигнал/шум на 4–6 дБ. Благодаря этому компания смогла добиться генерации изображения менее чем за 13 секунд и ставит цель сократить это время до 5 секунд.

🤖 LLM против LVM: разная природа «зверя» 26:01

Джилей Хоу разделяет генеративные модели на два типа: LVM (языково-визуальные модели, такие как Stable Diffusion) и LLM (текстовые модели). Работа с ними требует разного подхода:

LVM: требуют высокой точности передачи пикселей, что диктует особые требования к разрядности данных.
LLM: оперируют абстракциями (токенами), что позволяет более агрессивно использовать сжатие (квантование до 4 бит и ниже), так как текстовые представления менее требовательны к битности, чем визуальные.

По словам эксперта, в ближайшем будущем мы увидим появление новых инструментов для эффективной компиляции графов вычислений, которые позволят запускать полноценные LLM на мобильных устройствах.

🧠 Будущее: Hybrid AI и System 2 37:21

Джилей Хоу считает, что будущее за концепцией Hybrid AI — динамическим распределением задач между устройством и облаком. Edge-устройство берет на себя основные нагрузки, а облако подключается только в случае выполнения сложных, нестандартных запросов.

Кроме того, команда Qualcomm работает над направлением, которое Хоу называет «System 2» (отсылая к концепции Даниэля Канемана). Если «System 1» — это мгновенное распознавание образов, то «System 2» — это когнитивный процесс, включающий логическое рассуждение, планирование и рефлексию. Внедрение визуальной модальности в LLM позволит моделям «понимать» реальный мир через камеру, что даст им контекст для более глубокого диалога с пользователем.