# Фатих Порикли: «Зрение занимает 75% активности мозга, и мы учим ИИ тому же»

Источник: https://www.youtube.com/watch?v=07E08AXY4Fc
Канал: The TWIML AI Podcast
Опубликовано: 20.06.2022

---

В новом выпуске **The TWIML AI Podcast** ведущий Сэм Черрингтон обсуждает с Фатихом Порикли, старшим директором по ИИ в Qualcomm, последние прорывы в области компьютерного зрения, представленные на конференции CVPR. В центре внимания — интеграция трансформеров в задачи панорамной сегментации, инновации в оценке оптического потока и методы обратного рендеринга для создания реалистичных VR/AR-пространств.

## 🧠 От биологии к алгоритмам: почему зрение — ключ к ИИ
[[JUMP:00:50]]

Фатих Порикли, имеющий богатый опыт как в академической среде (в качестве профессора), так и в индустрии, подчеркивает фундаментальную важность визуального восприятия. По его словам, около 70–75% электрической активности человеческого мозга посвящено обработке визуальной информации [02:11]. Зрение — это не просто сенсорный ввод, а основной механизм понимания мира.

Эволюция компьютерного зрения, по мнению Порикли, прошла два этапа:

1.  **Конвенциональные решения (25–30 лет назад):** Инженерные подходы, основанные на математическом описании механизмов человеческого восприятия [03:02].
2.  **Эпоха ИИ:** Современные методы, где алгоритмы обучаются естественным образом, извлекая закономерности напрямую из данных и наблюдений за окружающей средой [03:28].

Область интересов исследователя охватывает не только классические изображения и видео, но и 3D-облака точек, а также радиочастотные (RF) сигналы, которые он называет «невидимым светом» [04:20].

## 🧩 Панорамная сегментация: объединение вещей и материи
[[JUMP:07:11]]

Одним из ключевых достижений, представленных на CVPR, стала работа «Panoptic Instance and Semantic Relations» (PISR). Порикли объясняет суть панорамной сегментации через разделение мира на две категории:

*   **Things (Вещи):** Исчисляемые объекты (люди, машины, чашки) [07:26].
*   **Stuff (Материя/вещество):** Неисчисляемые элементы фона (небо, дорога, трава) [07:39].

Ранее эти задачи решались раздельно: семантическая сегментация занималась фоном, а инстанс-сегментация — отдельными объектами. Традиционные методы часто использовали «многоэтапные» (multi-shot) подходы, сначала выделяя рамки (bounding boxes), а затем сегментируя содержимое внутри них [12:07].

### Роль трансформеров в сегментации
Команда Фатиха Порикли предложила внедрить механизмы трансформеров (self-attention) непосредственно в процесс сегментации. Проблема обычных трансформеров заключалась в том, что они могли путать похожие объекты (например, двух людей, стоящих рядом), считая их одним и тем же «типом» пикселей [10:59].

Инновация PISR заключается в следующем:

*   Система работает в режиме **end-to-end**, где семантическая и инстанс-сегментация поддерживают и уточняют друг друга внутри одной сети [14:19].
*   Блок трансформера можно вставить как «модуль» (плагин) практически в любую существующую архитектуру [15:38]. Исследователи протестировали это на более чем 15 алгоритмах, и во всех случаях точность возрастала [15:51].
*   Механизм внимания позволяет сети фокусироваться на критически важных деталях (например, колесе или двери при распознавании машины) и игнорировать нерелевантный контекст [09:52].

## 🏎️ Оптический поток и проблема нехватки данных
[[JUMP:28:44]]

Оптический поток — это задача определения того, где каждый пиксель текущего кадра находился в предыдущем [28:58]. Это критически важно для автономного вождения и XR-гарнитур, так как позволяет вычислять движение камеры и объектов в сцене.

Главная сложность здесь — отсутствие огромных размеченных датасетов для реальных видео. Найти «истинную траекторию» каждого пикселя в реальности практически невозможно [31:31]. В работе «Imposing Consistency for Optical Flow Estimation» команда предложила решение:

1.  **Самообучение (Self-supervised learning):** Использование трансформаций (повороты, искажения, изменение цвета), где параметры изменения известны заранее [32:10].
2.  **Анализ окклюзий (скрытых зон):** Если рука движется перед лицом, часть пикселей исчезает или появляется. Сеть научили автоматически идентифицировать такие зоны окклюзии, чтобы они не искажали процесс обучения [33:38].

Порикли утверждает, что их решение заняло верхние строчки в авторитетных бенчмарках **KITTI** и **Sintel**, конкурируя с более чем 200 другими алгоритмами [36:18]. Сейчас Qualcomm работает над тем, чтобы эти ресурсоемкие вычисления могли выполняться на мобильных устройствах в реальном времени [37:36].

## 🏠 Обратный рендеринг: создание цифровых двойников
[[JUMP:38:46]]

Третий важный проект касается **инверсного (обратного) рендеринга**. Обычный рендеринг создает картинку из 3D-модели. Обратный рендеринг делает обратное: берет одну фотографию интерьера и восстанавливает его физические параметры [39:38]:

*   Направление и интенсивность источников света.
*   Форму комнаты и 3D-геометрию объектов.
*   Материалы поверхностей (кожа, металл, дерево).

Это позволяет, например, вставить виртуальный стул на фото комнаты так, чтобы его тени и отражения были абсолютно естественными [43:10]. Особая сложность заключается в определении положения источников света, которые не попали в кадр (например, окна за спиной фотографа) [45:10]. Использование трансформеров в этой задаче помогло системе лучше «понимать», какие части изображения дают подсказки о глобальном освещении.

## 📡 Будущее: ИИ на базе Wi-Fi сигналов
[[JUMP:47:10]]

Фатих Порикли также анонсировал на CVPR воркшоп, посвященный **беспроводному ИИ-восприятию (Wireless AI Perception)**. Речь идет об использовании сигналов Wi-Fi, 5G и терагерцовых частот для «зрения» без камер.

*   **Точность:** Сигналы Wi-Fi позволяют отслеживать положение человека с точностью до 10 см [49:09].
*   **Приватность и безопасность:** Система может распознать позу человека или факт его падения (что важно для пожилых людей), не используя видеокамеры, которые могут нарушать приватность [49:35].
*   **Мультимодальность:** Будущее за интеграцией камер и радиосигналов, которые дополняют друг друга в условиях плохой видимости или сложных интерьеров [48:04].