Фатих Порикли: «Зрение занимает 75% активности мозга, и мы учим ИИ тому же»

В новом выпуске The TWIML AI Podcast ведущий Сэм Черрингтон обсуждает с Фатихом Порикли, старшим директором по ИИ в Qualcomm, последние прорывы в области компьютерного зрения, представленные на конференции CVPR. В центре внимания — интеграция трансформеров в задачи панорамной сегментации, инновации в оценке оптического потока и методы обратного рендеринга для создания реалистичных VR/AR-пространств.

🧠 От биологии к алгоритмам: почему зрение — ключ к ИИ 0:50

Фатих Порикли, имеющий богатый опыт как в академической среде (в качестве профессора), так и в индустрии, подчеркивает фундаментальную важность визуального восприятия. По его словам, около 70–75% электрической активности человеческого мозга посвящено обработке визуальной информации . Зрение — это не просто сенсорный ввод, а основной механизм понимания мира.

Эволюция компьютерного зрения, по мнению Порикли, прошла два этапа:

Конвенциональные решения (25–30 лет назад): Инженерные подходы, основанные на математическом описании механизмов человеческого восприятия .
Эпоха ИИ: Современные методы, где алгоритмы обучаются естественным образом, извлекая закономерности напрямую из данных и наблюдений за окружающей средой .

Область интересов исследователя охватывает не только классические изображения и видео, но и 3D-облака точек, а также радиочастотные (RF) сигналы, которые он называет «невидимым светом» .

🧩 Панорамная сегментация: объединение вещей и материи 7:11

Одним из ключевых достижений, представленных на CVPR, стала работа «Panoptic Instance and Semantic Relations» (PISR). Порикли объясняет суть панорамной сегментации через разделение мира на две категории:

Things (Вещи): Исчисляемые объекты (люди, машины, чашки) .
Stuff (Материя/вещество): Неисчисляемые элементы фона (небо, дорога, трава) .

Ранее эти задачи решались раздельно: семантическая сегментация занималась фоном, а инстанс-сегментация — отдельными объектами. Традиционные методы часто использовали «многоэтапные» (multi-shot) подходы, сначала выделяя рамки (bounding boxes), а затем сегментируя содержимое внутри них .

Роль трансформеров в сегментации

Команда Фатиха Порикли предложила внедрить механизмы трансформеров (self-attention) непосредственно в процесс сегментации. Проблема обычных трансформеров заключалась в том, что они могли путать похожие объекты (например, двух людей, стоящих рядом), считая их одним и тем же «типом» пикселей .

Инновация PISR заключается в следующем:

Система работает в режиме end-to-end, где семантическая и инстанс-сегментация поддерживают и уточняют друг друга внутри одной сети .
Блок трансформера можно вставить как «модуль» (плагин) практически в любую существующую архитектуру . Исследователи протестировали это на более чем 15 алгоритмах, и во всех случаях точность возрастала .
Механизм внимания позволяет сети фокусироваться на критически важных деталях (например, колесе или двери при распознавании машины) и игнорировать нерелевантный контекст .

🏎️ Оптический поток и проблема нехватки данных 28:44

Оптический поток — это задача определения того, где каждый пиксель текущего кадра находился в предыдущем . Это критически важно для автономного вождения и XR-гарнитур, так как позволяет вычислять движение камеры и объектов в сцене.

Главная сложность здесь — отсутствие огромных размеченных датасетов для реальных видео. Найти «истинную траекторию» каждого пикселя в реальности практически невозможно . В работе «Imposing Consistency for Optical Flow Estimation» команда предложила решение:

Самообучение (Self-supervised learning): Использование трансформаций (повороты, искажения, изменение цвета), где параметры изменения известны заранее .
Анализ окклюзий (скрытых зон): Если рука движется перед лицом, часть пикселей исчезает или появляется. Сеть научили автоматически идентифицировать такие зоны окклюзии, чтобы они не искажали процесс обучения .

Порикли утверждает, что их решение заняло верхние строчки в авторитетных бенчмарках KITTI и Sintel, конкурируя с более чем 200 другими алгоритмами . Сейчас Qualcomm работает над тем, чтобы эти ресурсоемкие вычисления могли выполняться на мобильных устройствах в реальном времени .

🏠 Обратный рендеринг: создание цифровых двойников 38:46

Третий важный проект касается инверсного (обратного) рендеринга. Обычный рендеринг создает картинку из 3D-модели. Обратный рендеринг делает обратное: берет одну фотографию интерьера и восстанавливает его физические параметры :

Направление и интенсивность источников света.
Форму комнаты и 3D-геометрию объектов.
Материалы поверхностей (кожа, металл, дерево).

Это позволяет, например, вставить виртуальный стул на фото комнаты так, чтобы его тени и отражения были абсолютно естественными . Особая сложность заключается в определении положения источников света, которые не попали в кадр (например, окна за спиной фотографа) . Использование трансформеров в этой задаче помогло системе лучше «понимать», какие части изображения дают подсказки о глобальном освещении.

📡 Будущее: ИИ на базе Wi-Fi сигналов 47:10

Фатих Порикли также анонсировал на CVPR воркшоп, посвященный беспроводному ИИ-восприятию (Wireless AI Perception). Речь идет об использовании сигналов Wi-Fi, 5G и терагерцовых частот для «зрения» без камер.

Точность: Сигналы Wi-Fi позволяют отслеживать положение человека с точностью до 10 см .
Приватность и безопасность: Система может распознать позу человека или факт его падения (что важно для пожилых людей), не используя видеокамеры, которые могут нарушать приватность .
Мультимодальность: Будущее за интеграцией камер и радиосигналов, которые дополняют друг друга в условиях плохой видимости или сложных интерьеров .