# Эволюция 3D-видения: от вокселей к нейронным полям

Источник: https://www.youtube.com/watch?v=7lxrKDKtykM
Канал: Stanford Online
Опубликовано: 02.09.2025

---

## 🖥️ Эволюция 3D-видения: от вокселей до нейронных полей

[[JUMP:00:00]]

Развитие методов компьютерного зрения для 3D-объектов прошло путь от попыток применить традиционные алгоритмы к сложным геометрическим данным до использования мощных нейронных сетей, способных обучаться непосредственно на 2D-изображениях. В данной лекции профессор Стэнфордского университета Цзяцзюнь Ву (Jiajun Wu) разбирает, как глубокое обучение изменило подходы к представлению 3D-данных, их генерации, реконструкции и рендерингу, акцентируя внимание на фундаментальном переходе от явных представлений к неявным функциям.

### 🧩 Способы представления 3D-объектов
[[JUMP:01:39]]

В отличие от 2D-изображений, которые являются матрицами пикселей, 3D-объекты многогранны: они обладают геометрией, текстурами и материалами. Цзяцзюнь Ву выделяет два основных типа представлений:

*   **Явные (explicit):** Прямое представление частей объекта. Сюда входят облака точек (point clouds), где объект описывается как набор координат $x, y, z$, и полигональные сетки (polygon meshes), добавляющие информацию о связях (лицах и поверхностях) между точками. Меши являются стандартом в компьютерной графике, так как поддерживают такие операции, как подразделение (subdivision) и упрощение.
*   **Неявные (implicit):** Описание геометрии через математические функции или ограничения. Объект определяется как совокупность точек, удовлетворяющих уравнению $f(x, y, z) = 0$. Эти представления позволяют легко объединять объекты (union) или находить их пересечения.

Важной промежуточной формой являются воксели (voxels) — 3D-матрицы, которые можно рассматривать как аналог пикселей. Хотя они просты для понимания и реализации в нейросетях, они крайне неэффективны при использовании памяти и вычислительных мощностей.

### 🧠 Глубокое обучение в 3D
[[JUMP:28:16]]

Первые попытки применить глубокое обучение к 3D-данным заключались в использовании 2D-свёрточных нейросетей, обученных на огромных наборах данных типа ImageNet. Для этого 3D-объекты просто рендерились в 2D-проекции с разных ракурсов. 

Позже исследователи перешли к «родным» 3D-методам:

1.  **Volumetric CNNs:** Прямое расширение 2D-свёрток на 3D-сетки вокселей.
2.  **PointNet:** Архитектура, предложенная командой Лео Гибаса, которая позволила работать непосредственно с облаками точек. Её ключевое достоинство — инвариантность к перестановкам точек (permutation invariance), что критически важно для неупорядоченных данных.

### 🌐 Нейронные поля и современный тренд
[[JUMP:55:07]]

Прорыв произошел, когда нейронные сети стали использовать как **неявные функции** для представления геометрии и внешнего вида. Вместо того чтобы хранить воксельную сетку, нейросеть обучается отвечать на запрос: «находится ли данная точка внутри объекта?» или «какова плотность и цвет в этой точке пространства?».

*   **NeRF (Neural Radiance Fields):** Позволил обучаться непосредственно на 2D-изображениях, используя дифференцируемые функции объёмного рендеринга. Нейросеть моделирует не только плотность, но и излучение (radiance) в зависимости от направления взгляда.
*   **Gaussian Splatting:** Современное решение проблемы медленного рендеринга в NeRF. Вместо плотной выборки точек по всему пространству, модель использует набор 3D-гауссовых «блобов» (облаков), что ускоряет рендеринг в тысячи раз при сохранении высокого качества.

В заключение Цзяцзюнь Ву отметил, что современные исследования смещаются в сторону использования больших языковых моделей (LLM) для генерации программ, которые синтезируют 3D-структуры и описывают связи между частями объектов, что позволяет объединить семантическое понимание мира с точной геометрической проработкой.