# Фатих Порикли о будущем ИИ: от автономных авто до мобильного ИИ

Источник: https://www.youtube.com/watch?v=NtQxtJRgpEA
Канал: The TWIML AI Podcast
Опубликовано: 26.06.2023

---

## Инновации в компьютерном зрении: Оптимизация данных и архитектур от Qualcomm AI

[[JUMP:2:55]]

Исследовательская команда Qualcomm AI представила ряд передовых разработок на конференции CVPR, сфокусировавшись на двух ключевых направлениях: эффективном использовании данных для обучения и создании оптимизированных архитектур нейронных сетей. Как отмечает Фатих Порикли, старший директор по технологиям Qualcomm AI, современный прогресс в области компьютерного зрения и генеративного ИИ требует решений, которые не только показывают высокую точность, но и способны эффективно работать на граничных (edge) устройствах — смартфонах и мобильных гаджетах.

### 📊 Максимизация потенциала данных
[[JUMP:3:06]]

Одной из главных проблем машинного обучения является нехватка размеченных данных, особенно для таких задач, как оценка движения (optical flow). Исследователи предложили инновационные методы аугментации, которые позволяют обходиться меньшим количеством реальных меток.

* **Distract Flow**: Метод генерации семантически осмысленных «отвлекающих факторов» (distractions) в видеопотоке, что заставляет модель обучаться устойчивости к шумам, не требуя разметки ground truth.
* **Прогрессивная случайная свертка**: Идея, при которой изображения подвергаются семантически значимым искажениям, что повышает репрезентативность моделей.
* **Read-De-Trans**: Использование генеративно-состязательных сетей (GAN) для аугментации данных в латентном пространстве, что критично для задач определения направления взгляда.
* **Генеративная супервизия**: Применение условной генерации изображений для создания синтетических примеров, повышающих точность задач сегментации и оценки глубины.

### 🏗️ Оптимизированные архитектуры для граничных устройств
[[JUMP:7:12]]

Для работы на смартфонах ИИ-модели должны быть низкопотребляющими и экономными с точки зрения памяти, сохраняя при этом точность «тяжелых» серверных систем.

* **X3KD (Cross-Model, Cross-Stage, Cross-Task Knowledge Distillation)**: Комплексный подход к дистилляции знаний для 3D-детекции объектов, позволяющий переносить знания с «учителя» (модели с доступом к данным LiDAR) на «ученика» (модель, работающую только с камерами).
* **E-TTA (Efficient Test Time Adaptation)**: Технология адаптации модели в реальном времени, которая предотвращает «катастрофическое забывание» (catastrophic forgetting) и минимизирует требования к памяти.
* **Dance (Network Expansion)**: Алгоритм, позволяющий расширять возможности классификаторов для новых классов объектов с сохранением баланса между точностью и размером модели.
* **Zero-Shot 3D Part Segmentation**: Инновационный метод сегментации частей 3D-объектов (например, деталей стула или птицы) без необходимости в предварительной разметке данных, использующий мощь языково-визуальных моделей.

### 🤖 Генеративный ИИ на вашем смартфоне
[[JUMP:48:31]]

Важным достижением стала демонстрация работы модели ControlNet непосредственно на мобильном устройстве. В отличие от классического Stable Diffusion, где генерация идет из случайного шума, ControlNet позволяет пользователю задавать структуру (позу, контуры, глубину) с помощью референсного изображения.

По словам Фатиха Порикли, компании удалось оптимизировать эту массивную модель (1,5 млрд параметров) таким образом, что она генерирует качественное изображение менее чем за 5 секунд на Android-смартфоне. Это не только обеспечивает высокую скорость, но и гарантирует приватность пользователя, так как обработка происходит локально, без обращения к облачным серверам.