Эволюция 3D-видения: от вокселей к нейронным полям

Stanford Online 14,4 тыс. 1 ч 11 мин 2 мин 02.09.2025
Главное

🖥️ Эволюция 3D-видения: от вокселей до нейронных полей 0:00

Развитие методов компьютерного зрения для 3D-объектов прошло путь от попыток применить традиционные алгоритмы к сложным геометрическим данным до использования мощных нейронных сетей, способных обучаться непосредственно на 2D-изображениях. В данной лекции профессор Стэнфордского университета Цзяцзюнь Ву (Jiajun Wu) разбирает, как глубокое обучение изменило подходы к представлению 3D-данных, их генерации, реконструкции и рендерингу, акцентируя внимание на фундаментальном переходе от явных представлений к неявным функциям.

🧩 Способы представления 3D-объектов 1:39

В отличие от 2D-изображений, которые являются матрицами пикселей, 3D-объекты многогранны: они обладают геометрией, текстурами и материалами. Цзяцзюнь Ву выделяет два основных типа представлений:

Важной промежуточной формой являются воксели (voxels) — 3D-матрицы, которые можно рассматривать как аналог пикселей. Хотя они просты для понимания и реализации в нейросетях, они крайне неэффективны при использовании памяти и вычислительных мощностей.

🧠 Глубокое обучение в 3D 28:16

Первые попытки применить глубокое обучение к 3D-данным заключались в использовании 2D-свёрточных нейросетей, обученных на огромных наборах данных типа ImageNet. Для этого 3D-объекты просто рендерились в 2D-проекции с разных ракурсов.

Позже исследователи перешли к «родным» 3D-методам:

  1. Volumetric CNNs: Прямое расширение 2D-свёрток на 3D-сетки вокселей.
  2. PointNet: Архитектура, предложенная командой Лео Гибаса, которая позволила работать непосредственно с облаками точек. Её ключевое достоинство — инвариантность к перестановкам точек (permutation invariance), что критически важно для неупорядоченных данных.

🌐 Нейронные поля и современный тренд 55:07

Прорыв произошел, когда нейронные сети стали использовать как неявные функции для представления геометрии и внешнего вида. Вместо того чтобы хранить воксельную сетку, нейросеть обучается отвечать на запрос: «находится ли данная точка внутри объекта?» или «какова плотность и цвет в этой точке пространства?».

В заключение Цзяцзюнь Ву отметил, что современные исследования смещаются в сторону использования больших языковых моделей (LLM) для генерации программ, которые синтезируют 3D-структуры и описывают связи между частями объектов, что позволяет объединить семантическое понимание мира с точной геометрической проработкой.

💬 Цитаты

«Неявные представления — это не просто геометрия, это теперь и цвет, и текстура, и радиация объектов.»

Цзяцзюнь Ву 18:43

«Для NeRF рендеринг — это дифференцируемый процесс, поэтому мы учимся напрямую по 2D-фотографиям.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Point Cloud
Набор точек в 3D-пространстве, описывающий поверхность объекта.
Voxel
Аналог пикселя в 3D-пространстве, элементарный объем в 3D-матрице.
NeRF
Метод представления сцены как непрерывного нейронного поля яркости.
Gaussian Splatting
Метод рендеринга сцен через набор 3D-гауссовых примитивов, обеспечивающий высокую производительность.
Differentiable Rendering
Техника рендеринга, позволяющая вычислять градиенты и обучать нейросети на основе разницы между рендером и 2D-фото.
📊 Цифры
🗓 Хронология
  1. 2012 Появление AlexNet, ставшей катализатором современного глубокого обучения.
  2. 2014-2015 Первые работы по применению CNN к 3D-вокселям.
  3. 2017 Выход статьи PointNet.
  4. 2020 Представление технологии NeRF.
  5. 2023 Появление Gaussian Splatting.
⚖️ Другая сторона
Искусственный интеллект NeRF PointNet Gaussian Splatting 3D Vision Jiajun Wu