# Джилей Хоу (Qualcomm): «ИИ будущего — это гибрид устройства и облака»

Источник: https://www.youtube.com/watch?v=mdQloAHFOSg
Канал: The TWIML AI Podcast with Sam Charrington
Опубликовано: 12.06.2023

---

## Будущее ИИ на граничных устройствах: взгляд эксперта Qualcomm
[[JUMP:0:00]]

Генеративный искусственный интеллект совершает революцию в том, как мы взаимодействуем с технологиями, переходя от облачных вычислений к работе непосредственно на персональных устройствах. Джилей Хоу (Jilei Hou), вице-президент по инжинирингу Qualcomm Technologies, в подкасте The TWIML AI Podcast обсудил, как компания адаптирует сложные модели, такие как Stable Diffusion и LLM (большие языковые модели), для работы «на грани» (on-device).

### 🔬 Информационная теория как фундамент ИИ
[[JUMP:0:54]]

Джилей Хоу отмечает, что современная архитектура ИИ глубоко укоренена в теории информации и обработке сигналов. По его словам, такие понятия, как KL-дивергенция (мера различия между двумя распределениями вероятностей), изначально возникли в теории информации, а затем стали фундаментальными объектами при обучении нейронных сетей.

В Qualcomm этот подход стал основой для исследований в области сжатия данных. Исследовательская группа Qualcomm AI Research, сформированная около 2018 года, объединяет 200–300 специалистов, чья работа сфокусирована на трёх ключевых направлениях:

*   **Энергоэффективность:** перенос рабочих нагрузок машинного обучения на устройство для снижения зависимости от облака.
*   **Персонализация:** адаптация моделей под нужды и предпочтения конкретного пользователя.
*   **Квантование:** преобразование данных моделей (например, из формата fp32 или fp16) в более компактные и эффективные форматы для мобильных процессоров.

### 🎨 Stable Diffusion на смартфоне: вызовы и решения
[[JUMP:13:26]]

Запуск Stable Diffusion на граничных устройствах стал важной вехой для индустрии. По мнению Джилея Хоу, это критически важно по трем причинам:

1.  **Конфиденциальность:** личные промпты и контент пользователя остаются на устройстве и не передаются в облако.
2.  **Экономия:** перенос вычислений на миллиарды устройств позволяет амортизировать затраты на инференс, которые становятся непомерно высокими для облачных провайдеров при массовом использовании.
3.  **Надежность:** работа устройства не зависит от стабильности интернет-соединения или загруженности облачных серверов.

Главным техническим вызовом стал размер модели. Если типичные ИИ-задачи на мобильных устройствах требуют менее 100 млн параметров, то Stable Diffusion оперирует 1,1 млрд параметров. Для решения проблемы латентности (задержки) Qualcomm применила продвинутые методы квантования, такие как **Adaround**. Эта технология позволяет квантовать веса модели до 8 бит без переобучения, обеспечивая при этом качество, эквивалентное более высоким форматам за счет «магического» прироста отношения сигнал/шум на 4–6 дБ. Благодаря этому компания смогла добиться генерации изображения менее чем за 13 секунд и ставит цель сократить это время до 5 секунд.

### 🤖 LLM против LVM: разная природа «зверя»
[[JUMP:26:01]]

Джилей Хоу разделяет генеративные модели на два типа: LVM (языково-визуальные модели, такие как Stable Diffusion) и LLM (текстовые модели). Работа с ними требует разного подхода:

*   **LVM:** требуют высокой точности передачи пикселей, что диктует особые требования к разрядности данных.
*   **LLM:** оперируют абстракциями (токенами), что позволяет более агрессивно использовать сжатие (квантование до 4 бит и ниже), так как текстовые представления менее требовательны к битности, чем визуальные.

По словам эксперта, в ближайшем будущем мы увидим появление новых инструментов для эффективной компиляции графов вычислений, которые позволят запускать полноценные LLM на мобильных устройствах.

### 🧠 Будущее: Hybrid AI и System 2
[[JUMP:37:21]]

Джилей Хоу считает, что будущее за концепцией **Hybrid AI** — динамическим распределением задач между устройством и облаком. Edge-устройство берет на себя основные нагрузки, а облако подключается только в случае выполнения сложных, нестандартных запросов.

Кроме того, команда Qualcomm работает над направлением, которое Хоу называет **«System 2»** (отсылая к концепции Даниэля Канемана). Если «System 1» — это мгновенное распознавание образов, то «System 2» — это когнитивный процесс, включающий логическое рассуждение, планирование и рефлексию. Внедрение визуальной модальности в LLM позволит моделям «понимать» реальный мир через камеру, что даст им контекст для более глубокого диалога с пользователем.