Джорджия Гкиоксари: «3D-пространство — ключ к истинному пониманию объектов»

Будущее 3D-восприятия: зачем PyTorch 3D меняет правила игры в компьютерном зрении 7:04

Джорджия Гкиоксари, исследователь ИИ в Facebook AI Research (FAIR), рассказывает о том, как переход от плоских 2D-изображений к 3D-пространству может кардинально изменить возможности машинного зрения. В беседе с подкастом The TWIML AI Podcast Гкиоксари объясняет, почему традиционные подходы с использованием 2D-сеток ограничивают понимание мира компьютерами и как созданная ею библиотека PyTorch 3D помогает преодолеть этот барьер, делая 3D-вычисления эффективными и дифференцируемыми.

🌌 Эволюция компьютерного зрения: от 2D к 3D 7:04

До 2012 года основной технологией в распознавании объектов были деформируемые модели частей (DPM), которые отличались сложностью и низкой эффективностью. С приходом глубокого обучения всё стало более модульным и простым, однако большинство современных моделей до сих пор работают в 2D-плоскости.

Ограничения 2D: Модели обучаются на размеченных изображениях, где аннотаторы просто отмечают границы объектов («bounding box») или сегментируют их, что, по мнению Гкиоксари, является лишь имитацией работы человека, а не истинным пониманием геометрии.
Преимущества 3D: Рассуждения в 3D-пространстве позволяют компьютерам лучше понимать консистентность объектов и их границы, что может привести к более качественному распознаванию даже тех объектов, которые система видит впервые.

🛠 PyTorch 3D: Инструментарий для новой эры 8:51

Библиотека PyTorch 3D возникла из необходимости работать с 3D-данными так же эффективно, как PyTorch работает с 2D-сетками. Основная сложность 3D-данных, таких как облака точек (point clouds) или меши, заключается в их графовой структуре, для которой требовались специфические вычислительные методы.

Дифференцируемость: Ключевая особенность библиотеки — дифференцируемые операторы. Это позволяет встраивать 3D-рассуждения в любую часть нейронной сети, включая концы цепочек рендеринга.
Оптимизация: Для достижения высокой производительности потребовалась разработка низкоуровневых CUDA-ядер. По словам Гкиоксари, это сократило время обучения некоторых моделей с двух недель до трех часов.
Сферы применения: Библиотека активно используется в робототехнике, графических приложениях, медицинских исследованиях (например, для реконструкции зубов) и задачах по синтезу новых ракурсов (novel view synthesis).

🧠 Латентное 3D-пространство и «дикие» данные 12:43

Гкиоксари подчеркивает важность использования 3D-данных не только «в явном виде», но и в «латентном 3D-пространстве» внутри сети. В качестве примера приводится совместная работа с Оливией Уайлс, Риком Зелиски и Джастином Джонсоном, где для задачи синтеза новых ракурсов потребовалось внедрить 3D-геометрию, так как простые GAN-модели не могли обеспечить геометрическую целостность сцены.

Одним из самых больших вызовов для индустрии, по мнению исследователя, остается масштабирование этих технологий до уровня работы с миллионами изображений, полученных «в диких условиях» (in the wild).

🎓 Будущее академических конференций: CVPR 2021 31:39

Джорджия Гкиоксари выступает программным сопредседателем конференции CVPR 2021. Она отмечает колоссальный рост интереса к области: число заявок на участие выросло с нескольких сотен десять лет назад до ожидаемых 10 000 в 2021 году.

Проблемы масштаба: С ростом сообщества становится всё труднее поддерживать качество рецензирования и этическую атмосферу.
Виртуальный формат: Учитывая масштаб, конференция, вероятнее всего, будет проходить в виртуальном или гибридном формате.

По словам Гкиоксари, успех конференции зависит от коллективных усилий всего научного сообщества.