# Джорджия Гкиоксари: «3D-пространство — ключ к истинному пониманию объектов»

Источник: https://www.youtube.com/watch?v=aDB0qitJxFE
Канал: The TWIML AI Podcast
Опубликовано: 25.09.2020

---

## Будущее 3D-восприятия: зачем PyTorch 3D меняет правила игры в компьютерном зрении

[[JUMP:07:04]]

Джорджия Гкиоксари, исследователь ИИ в Facebook AI Research (FAIR), рассказывает о том, как переход от плоских 2D-изображений к 3D-пространству может кардинально изменить возможности машинного зрения. В беседе с подкастом The TWIML AI Podcast Гкиоксари объясняет, почему традиционные подходы с использованием 2D-сеток ограничивают понимание мира компьютерами и как созданная ею библиотека PyTorch 3D помогает преодолеть этот барьер, делая 3D-вычисления эффективными и дифференцируемыми.

### 🌌 Эволюция компьютерного зрения: от 2D к 3D

[[JUMP:07:04]]

До 2012 года основной технологией в распознавании объектов были деформируемые модели частей (DPM), которые отличались сложностью и низкой эффективностью. С приходом глубокого обучения всё стало более модульным и простым, однако большинство современных моделей до сих пор работают в 2D-плоскости.

*   **Ограничения 2D:** Модели обучаются на размеченных изображениях, где аннотаторы просто отмечают границы объектов («bounding box») или сегментируют их, что, по мнению Гкиоксари, является лишь имитацией работы человека, а не истинным пониманием геометрии.
*   **Преимущества 3D:** Рассуждения в 3D-пространстве позволяют компьютерам лучше понимать консистентность объектов и их границы, что может привести к более качественному распознаванию даже тех объектов, которые система видит впервые.

### 🛠 PyTorch 3D: Инструментарий для новой эры

[[JUMP:08:51]]

Библиотека PyTorch 3D возникла из необходимости работать с 3D-данными так же эффективно, как PyTorch работает с 2D-сетками. Основная сложность 3D-данных, таких как облака точек (point clouds) или меши, заключается в их графовой структуре, для которой требовались специфические вычислительные методы.

*   **Дифференцируемость:** Ключевая особенность библиотеки — дифференцируемые операторы. Это позволяет встраивать 3D-рассуждения в любую часть нейронной сети, включая концы цепочек рендеринга.
*   **Оптимизация:** Для достижения высокой производительности потребовалась разработка низкоуровневых CUDA-ядер. По словам Гкиоксари, это сократило время обучения некоторых моделей с двух недель до трех часов.
*   **Сферы применения:** Библиотека активно используется в робототехнике, графических приложениях, медицинских исследованиях (например, для реконструкции зубов) и задачах по синтезу новых ракурсов (novel view synthesis).

### 🧠 Латентное 3D-пространство и «дикие» данные

[[JUMP:12:43]]

Гкиоксари подчеркивает важность использования 3D-данных не только «в явном виде», но и в «латентном 3D-пространстве» внутри сети. В качестве примера приводится совместная работа с Оливией Уайлс, Риком Зелиски и Джастином Джонсоном, где для задачи синтеза новых ракурсов потребовалось внедрить 3D-геометрию, так как простые GAN-модели не могли обеспечить геометрическую целостность сцены.

Одним из самых больших вызовов для индустрии, по мнению исследователя, остается масштабирование этих технологий до уровня работы с миллионами изображений, полученных «в диких условиях» (in the wild).

### 🎓 Будущее академических конференций: CVPR 2021

[[JUMP:31:39]]

Джорджия Гкиоксари выступает программным сопредседателем конференции CVPR 2021. Она отмечает колоссальный рост интереса к области: число заявок на участие выросло с нескольких сотен десять лет назад до ожидаемых 10 000 в 2021 году.

*   **Проблемы масштаба:** С ростом сообщества становится всё труднее поддерживать качество рецензирования и этическую атмосферу.
*   **Виртуальный формат:** Учитывая масштаб, конференция, вероятнее всего, будет проходить в виртуальном или гибридном формате.

По словам Гкиоксари, успех конференции зависит от коллективных усилий всего научного сообщества.