Эволюция 3D-видения: от вокселей к нейронным полям

🖥️ Эволюция 3D-видения: от вокселей до нейронных полей 0:00

Развитие методов компьютерного зрения для 3D-объектов прошло путь от попыток применить традиционные алгоритмы к сложным геометрическим данным до использования мощных нейронных сетей, способных обучаться непосредственно на 2D-изображениях. В данной лекции профессор Стэнфордского университета Цзяцзюнь Ву (Jiajun Wu) разбирает, как глубокое обучение изменило подходы к представлению 3D-данных, их генерации, реконструкции и рендерингу, акцентируя внимание на фундаментальном переходе от явных представлений к неявным функциям.

🧩 Способы представления 3D-объектов 1:39

В отличие от 2D-изображений, которые являются матрицами пикселей, 3D-объекты многогранны: они обладают геометрией, текстурами и материалами. Цзяцзюнь Ву выделяет два основных типа представлений:

Явные (explicit): Прямое представление частей объекта. Сюда входят облака точек (point clouds), где объект описывается как набор координат $x, y, z$, и полигональные сетки (polygon meshes), добавляющие информацию о связях (лицах и поверхностях) между точками. Меши являются стандартом в компьютерной графике, так как поддерживают такие операции, как подразделение (subdivision) и упрощение.
Неявные (implicit): Описание геометрии через математические функции или ограничения. Объект определяется как совокупность точек, удовлетворяющих уравнению $f(x, y, z) = 0$. Эти представления позволяют легко объединять объекты (union) или находить их пересечения.

Важной промежуточной формой являются воксели (voxels) — 3D-матрицы, которые можно рассматривать как аналог пикселей. Хотя они просты для понимания и реализации в нейросетях, они крайне неэффективны при использовании памяти и вычислительных мощностей.

🧠 Глубокое обучение в 3D 28:16

Первые попытки применить глубокое обучение к 3D-данным заключались в использовании 2D-свёрточных нейросетей, обученных на огромных наборах данных типа ImageNet. Для этого 3D-объекты просто рендерились в 2D-проекции с разных ракурсов.

Позже исследователи перешли к «родным» 3D-методам:

Volumetric CNNs: Прямое расширение 2D-свёрток на 3D-сетки вокселей.
PointNet: Архитектура, предложенная командой Лео Гибаса, которая позволила работать непосредственно с облаками точек. Её ключевое достоинство — инвариантность к перестановкам точек (permutation invariance), что критически важно для неупорядоченных данных.

🌐 Нейронные поля и современный тренд 55:07

Прорыв произошел, когда нейронные сети стали использовать как неявные функции для представления геометрии и внешнего вида. Вместо того чтобы хранить воксельную сетку, нейросеть обучается отвечать на запрос: «находится ли данная точка внутри объекта?» или «какова плотность и цвет в этой точке пространства?».

NeRF (Neural Radiance Fields): Позволил обучаться непосредственно на 2D-изображениях, используя дифференцируемые функции объёмного рендеринга. Нейросеть моделирует не только плотность, но и излучение (radiance) в зависимости от направления взгляда.
Gaussian Splatting: Современное решение проблемы медленного рендеринга в NeRF. Вместо плотной выборки точек по всему пространству, модель использует набор 3D-гауссовых «блобов» (облаков), что ускоряет рендеринг в тысячи раз при сохранении высокого качества.

В заключение Цзяцзюнь Ву отметил, что современные исследования смещаются в сторону использования больших языковых моделей (LLM) для генерации программ, которые синтезируют 3D-структуры и описывают связи между частями объектов, что позволяет объединить семантическое понимание мира с точной геометрической проработкой.