Джорджия Гкиоксари: «3D-пространство — ключ к истинному пониманию объектов»

The TWIML AI Podcast 1,3 тыс. 39 мин 2 мин 25.09.2020
Главное

Будущее 3D-восприятия: зачем PyTorch 3D меняет правила игры в компьютерном зрении 7:04

Джорджия Гкиоксари, исследователь ИИ в Facebook AI Research (FAIR), рассказывает о том, как переход от плоских 2D-изображений к 3D-пространству может кардинально изменить возможности машинного зрения. В беседе с подкастом The TWIML AI Podcast Гкиоксари объясняет, почему традиционные подходы с использованием 2D-сеток ограничивают понимание мира компьютерами и как созданная ею библиотека PyTorch 3D помогает преодолеть этот барьер, делая 3D-вычисления эффективными и дифференцируемыми.

🌌 Эволюция компьютерного зрения: от 2D к 3D 7:04

До 2012 года основной технологией в распознавании объектов были деформируемые модели частей (DPM), которые отличались сложностью и низкой эффективностью. С приходом глубокого обучения всё стало более модульным и простым, однако большинство современных моделей до сих пор работают в 2D-плоскости.

🛠 PyTorch 3D: Инструментарий для новой эры 8:51

Библиотека PyTorch 3D возникла из необходимости работать с 3D-данными так же эффективно, как PyTorch работает с 2D-сетками. Основная сложность 3D-данных, таких как облака точек (point clouds) или меши, заключается в их графовой структуре, для которой требовались специфические вычислительные методы.

🧠 Латентное 3D-пространство и «дикие» данные 12:43

Гкиоксари подчеркивает важность использования 3D-данных не только «в явном виде», но и в «латентном 3D-пространстве» внутри сети. В качестве примера приводится совместная работа с Оливией Уайлс, Риком Зелиски и Джастином Джонсоном, где для задачи синтеза новых ракурсов потребовалось внедрить 3D-геометрию, так как простые GAN-модели не могли обеспечить геометрическую целостность сцены.

Одним из самых больших вызовов для индустрии, по мнению исследователя, остается масштабирование этих технологий до уровня работы с миллионами изображений, полученных «в диких условиях» (in the wild).

🎓 Будущее академических конференций: CVPR 2021 31:39

Джорджия Гкиоксари выступает программным сопредседателем конференции CVPR 2021. Она отмечает колоссальный рост интереса к области: число заявок на участие выросло с нескольких сотен десять лет назад до ожидаемых 10 000 в 2021 году.

По словам Гкиоксари, успех конференции зависит от коллективных усилий всего научного сообщества.

💬 Цитаты

«Машины делают прогнозы на 2D-плоскости, как будто весь мир проецируется на 2D.»

Джорджия Гкиоксари 07:17

«Всего один человек, ведущий себя неподобающе, может испортить впечатление всей конференции.»

Джорджия Гкиоксари 35:47
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Дифференцируемый рендеринг
Технология визуализации, позволяющая прокидывать градиенты через процесс рендеринга для обучения нейросетей.
Меш (Mesh)
Трехмерная сетка, состоящая из вершин и ребер, описывающая форму объекта.
DPM (Deformable Part Models)
Устаревший до эпохи глубокого обучения метод распознавания объектов, основанный на составных частях модели.
Novel View Synthesis
Задача компьютерного зрения по генерации изображения сцены с ракурса, который не был представлен в исходных данных.
📊 Цифры
🗓 Хронология
  1. 2016 Джорджия Гкиоксари завершила PhD в Беркли.
  2. Январь 2020 Состоялся официальный запуск библиотеки PyTorch 3D.
  3. Июнь 2021 Проведение конференции CVPR 2021, где Гкиоксари выступает программным сопредседателем.
⚖️ Другая сторона
Искусственный интеллект PyTorch 3D Georgia Gkioxari Computer Vision Deep Learning CVPR