В новом выпуске The TWIML AI Podcast ведущий Сэм Черрингтон обсуждает с Фатихом Порикли, старшим директором по ИИ в Qualcomm, последние прорывы в области компьютерного зрения, представленные на конференции CVPR. В центре внимания — интеграция трансформеров в задачи панорамной сегментации, инновации в оценке оптического потока и методы обратного рендеринга для создания реалистичных VR/AR-пространств.
🧠 От биологии к алгоритмам: почему зрение — ключ к ИИ 0:50
Фатих Порикли, имеющий богатый опыт как в академической среде (в качестве профессора), так и в индустрии, подчеркивает фундаментальную важность визуального восприятия. По его словам, около 70–75% электрической активности человеческого мозга посвящено обработке визуальной информации . Зрение — это не просто сенсорный ввод, а основной механизм понимания мира.
Эволюция компьютерного зрения, по мнению Порикли, прошла два этапа:
- Конвенциональные решения (25–30 лет назад): Инженерные подходы, основанные на математическом описании механизмов человеческого восприятия .
- Эпоха ИИ: Современные методы, где алгоритмы обучаются естественным образом, извлекая закономерности напрямую из данных и наблюдений за окружающей средой .
Область интересов исследователя охватывает не только классические изображения и видео, но и 3D-облака точек, а также радиочастотные (RF) сигналы, которые он называет «невидимым светом» .
🧩 Панорамная сегментация: объединение вещей и материи 7:11
Одним из ключевых достижений, представленных на CVPR, стала работа «Panoptic Instance and Semantic Relations» (PISR). Порикли объясняет суть панорамной сегментации через разделение мира на две категории:
- Things (Вещи): Исчисляемые объекты (люди, машины, чашки) .
- Stuff (Материя/вещество): Неисчисляемые элементы фона (небо, дорога, трава) .
Ранее эти задачи решались раздельно: семантическая сегментация занималась фоном, а инстанс-сегментация — отдельными объектами. Традиционные методы часто использовали «многоэтапные» (multi-shot) подходы, сначала выделяя рамки (bounding boxes), а затем сегментируя содержимое внутри них .
Роль трансформеров в сегментации
Команда Фатиха Порикли предложила внедрить механизмы трансформеров (self-attention) непосредственно в процесс сегментации. Проблема обычных трансформеров заключалась в том, что они могли путать похожие объекты (например, двух людей, стоящих рядом), считая их одним и тем же «типом» пикселей .
Инновация PISR заключается в следующем:
- Система работает в режиме end-to-end, где семантическая и инстанс-сегментация поддерживают и уточняют друг друга внутри одной сети .
- Блок трансформера можно вставить как «модуль» (плагин) практически в любую существующую архитектуру . Исследователи протестировали это на более чем 15 алгоритмах, и во всех случаях точность возрастала .
- Механизм внимания позволяет сети фокусироваться на критически важных деталях (например, колесе или двери при распознавании машины) и игнорировать нерелевантный контекст .
🏎️ Оптический поток и проблема нехватки данных 28:44
Оптический поток — это задача определения того, где каждый пиксель текущего кадра находился в предыдущем . Это критически важно для автономного вождения и XR-гарнитур, так как позволяет вычислять движение камеры и объектов в сцене.
Главная сложность здесь — отсутствие огромных размеченных датасетов для реальных видео. Найти «истинную траекторию» каждого пикселя в реальности практически невозможно . В работе «Imposing Consistency for Optical Flow Estimation» команда предложила решение:
- Самообучение (Self-supervised learning): Использование трансформаций (повороты, искажения, изменение цвета), где параметры изменения известны заранее .
- Анализ окклюзий (скрытых зон): Если рука движется перед лицом, часть пикселей исчезает или появляется. Сеть научили автоматически идентифицировать такие зоны окклюзии, чтобы они не искажали процесс обучения .
Порикли утверждает, что их решение заняло верхние строчки в авторитетных бенчмарках KITTI и Sintel, конкурируя с более чем 200 другими алгоритмами . Сейчас Qualcomm работает над тем, чтобы эти ресурсоемкие вычисления могли выполняться на мобильных устройствах в реальном времени .
🏠 Обратный рендеринг: создание цифровых двойников 38:46
Третий важный проект касается инверсного (обратного) рендеринга. Обычный рендеринг создает картинку из 3D-модели. Обратный рендеринг делает обратное: берет одну фотографию интерьера и восстанавливает его физические параметры :
- Направление и интенсивность источников света.
- Форму комнаты и 3D-геометрию объектов.
- Материалы поверхностей (кожа, металл, дерево).
Это позволяет, например, вставить виртуальный стул на фото комнаты так, чтобы его тени и отражения были абсолютно естественными . Особая сложность заключается в определении положения источников света, которые не попали в кадр (например, окна за спиной фотографа) . Использование трансформеров в этой задаче помогло системе лучше «понимать», какие части изображения дают подсказки о глобальном освещении.
📡 Будущее: ИИ на базе Wi-Fi сигналов 47:10
Фатих Порикли также анонсировал на CVPR воркшоп, посвященный беспроводному ИИ-восприятию (Wireless AI Perception). Речь идет об использовании сигналов Wi-Fi, 5G и терагерцовых частот для «зрения» без камер.
- Точность: Сигналы Wi-Fi позволяют отслеживать положение человека с точностью до 10 см .
- Приватность и безопасность: Система может распознать позу человека или факт его падения (что важно для пожилых людей), не используя видеокамеры, которые могут нарушать приватность .
- Мультимодальность: Будущее за интеграцией камер и радиосигналов, которые дополняют друг друга в условиях плохой видимости или сложных интерьеров .