Фатих Порикли: «Зрение занимает 75% активности мозга, и мы учим ИИ тому же»

The TWIML AI Podcast 595 54 мин 4 мин 20.06.2022
Главное

В новом выпуске The TWIML AI Podcast ведущий Сэм Черрингтон обсуждает с Фатихом Порикли, старшим директором по ИИ в Qualcomm, последние прорывы в области компьютерного зрения, представленные на конференции CVPR. В центре внимания — интеграция трансформеров в задачи панорамной сегментации, инновации в оценке оптического потока и методы обратного рендеринга для создания реалистичных VR/AR-пространств.

🧠 От биологии к алгоритмам: почему зрение — ключ к ИИ 0:50

Фатих Порикли, имеющий богатый опыт как в академической среде (в качестве профессора), так и в индустрии, подчеркивает фундаментальную важность визуального восприятия. По его словам, около 70–75% электрической активности человеческого мозга посвящено обработке визуальной информации . Зрение — это не просто сенсорный ввод, а основной механизм понимания мира.

Эволюция компьютерного зрения, по мнению Порикли, прошла два этапа:

  1. Конвенциональные решения (25–30 лет назад): Инженерные подходы, основанные на математическом описании механизмов человеческого восприятия .
  2. Эпоха ИИ: Современные методы, где алгоритмы обучаются естественным образом, извлекая закономерности напрямую из данных и наблюдений за окружающей средой .

Область интересов исследователя охватывает не только классические изображения и видео, но и 3D-облака точек, а также радиочастотные (RF) сигналы, которые он называет «невидимым светом» .

🧩 Панорамная сегментация: объединение вещей и материи 7:11

Одним из ключевых достижений, представленных на CVPR, стала работа «Panoptic Instance and Semantic Relations» (PISR). Порикли объясняет суть панорамной сегментации через разделение мира на две категории:

Ранее эти задачи решались раздельно: семантическая сегментация занималась фоном, а инстанс-сегментация — отдельными объектами. Традиционные методы часто использовали «многоэтапные» (multi-shot) подходы, сначала выделяя рамки (bounding boxes), а затем сегментируя содержимое внутри них .

Роль трансформеров в сегментации

Команда Фатиха Порикли предложила внедрить механизмы трансформеров (self-attention) непосредственно в процесс сегментации. Проблема обычных трансформеров заключалась в том, что они могли путать похожие объекты (например, двух людей, стоящих рядом), считая их одним и тем же «типом» пикселей .

Инновация PISR заключается в следующем:

🏎️ Оптический поток и проблема нехватки данных 28:44

Оптический поток — это задача определения того, где каждый пиксель текущего кадра находился в предыдущем . Это критически важно для автономного вождения и XR-гарнитур, так как позволяет вычислять движение камеры и объектов в сцене.

Главная сложность здесь — отсутствие огромных размеченных датасетов для реальных видео. Найти «истинную траекторию» каждого пикселя в реальности практически невозможно . В работе «Imposing Consistency for Optical Flow Estimation» команда предложила решение:

  1. Самообучение (Self-supervised learning): Использование трансформаций (повороты, искажения, изменение цвета), где параметры изменения известны заранее .
  2. Анализ окклюзий (скрытых зон): Если рука движется перед лицом, часть пикселей исчезает или появляется. Сеть научили автоматически идентифицировать такие зоны окклюзии, чтобы они не искажали процесс обучения .

Порикли утверждает, что их решение заняло верхние строчки в авторитетных бенчмарках KITTI и Sintel, конкурируя с более чем 200 другими алгоритмами . Сейчас Qualcomm работает над тем, чтобы эти ресурсоемкие вычисления могли выполняться на мобильных устройствах в реальном времени .

🏠 Обратный рендеринг: создание цифровых двойников 38:46

Третий важный проект касается инверсного (обратного) рендеринга. Обычный рендеринг создает картинку из 3D-модели. Обратный рендеринг делает обратное: берет одну фотографию интерьера и восстанавливает его физические параметры :

Это позволяет, например, вставить виртуальный стул на фото комнаты так, чтобы его тени и отражения были абсолютно естественными . Особая сложность заключается в определении положения источников света, которые не попали в кадр (например, окна за спиной фотографа) . Использование трансформеров в этой задаче помогло системе лучше «понимать», какие части изображения дают подсказки о глобальном освещении.

📡 Будущее: ИИ на базе Wi-Fi сигналов 47:10

Фатих Порикли также анонсировал на CVPR воркшоп, посвященный беспроводному ИИ-восприятию (Wireless AI Perception). Речь идет об использовании сигналов Wi-Fi, 5G и терагерцовых частот для «зрения» без камер.

💬 Цитаты

«Если мы рассмотрим электрическую активность человеческого мозга, то, возможно, 70–75% того, что мы потребляем, посвящено визуальному восприятию.»

Фатих Порикли 02:11

«Панорамная сегментация — одна из самых сложных задач в компьютерном зрении. Даже двум людям трудно договориться о границах объектов.»

Фатих Порикли 19:02
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Панорамная сегментация
Метод классификации каждого пикселя изображения, объединяющий выделение отдельных объектов и фоновых структур.
Оптический поток
Векторное поле, описывающее видимое движение объектов между двумя последовательными кадрами видео.
Обратный рендеринг
Процесс восстановления физических свойств сцены (света, материалов, геометрии) на основе готового изображения.
Трансформеры (в зрении)
Архитектура нейросетей, использующая механизм внимания для определения значимости разных частей изображения относительно друг друга.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Qualcomm Panoptic Segmentation Vision Transformers Optical Flow Fatih Porikli