Технологии Gradient Spaces: трехмерная реконструкция эволюционирующих зданий

Stanford Online 4,7 тыс. 50 мин 8 мин 14.11.2024
Главное

Стенфордский онлайн-семинар представил подробный разбор технологических решений от исследовательской лаборатории Gradient Spaces, посвященных созданию и динамическому обновлению трехмерных цифровых копий меняющихся интерьеров. В центре внимания — концепция «живых сцен» (Living Scenes), позволяющая роботам и интеллектуальным системам эффективно отслеживать эволюцию зданий и пространств во времени. Предложенные подходы призваны в будущем радикально сократить расходы на переделки в строительной индустрии и ускорить переход к экономике замкнутого цикла.

🌐 Лаборатория Gradient Spaces: на стыке физического и цифрового миров 0:09

Лаборатория Gradient Spaces функционирует на базе департамента гражданской и экологической инженерии (Civil and Environmental Engineering) Стенфордского университета. Примечательно, что большая часть исследовательской команды имеет бэкграунд не в традиционном строительстве, а в робототехнике и компьютерных науках. Ученые используют передовые алгоритмы компьютерного зрения для решения застарелых проблем строительной отрасли.

Ключевая задача группы заключается в том, чтобы научить ИИ понимать структуру пространств, логику их возведения и особенности изменения во времени. Конечная цель этих изысканий — создание устойчивой, инклюзивной и адаптивной застроенной среды, ориентированной на потребности человека. Интерфейсы, находящиеся на стыке физического и цифрового миров (включая технологии VR и AR), спикер называет «градиентными реальностями» (gradient realities) — именно это словосочетание и дало имя лаборатории.

🏢 Концепция «живых сцен» и трехмерная реконструкция в моменте 1:34

По мнению докладчика, современные здания можно сравнить с живыми организмами, поскольку они непрерывно развиваются и меняются на протяжении всего жизненного цикла. Любым автономным агентам или роботам, действующим в реальных условиях, критически важно уметь картировать и понимать окружающую обстановку для навигации и выполнения задач. Сбор и сопоставление пространственно-временных данных, полученных автономными системами в разные периоды времени, открывают путь к созданию полноценных развивающихся моделей интерьеров. Накопление таких данных позволяет последовательно повышать геометрическую полноту и точность карт.

Прежде чем перейти к анализу долгосрочных изменений, спикер выделила две важные работы лаборатории, фиксирующие состояние пространства в конкретный момент времени.

🔄 Проект Living Scenes: отслеживание редких и хаотичных изменений 6:29

Для работы с эволюционирующими интерьерами лаборатория представила проект Living Scenes, получивший статус «spotlight» на профильной конференции 2024 года. В рамках исследования авторы дали более строгое определение «живой сцене»: это среда, где происходят нерегулярные изменения, а наблюдения агентов являются редкими (sparse) — например, с интервалом в две недели или месяц. Цель метода — на основе разрозненных 3D-облаков точек локализовать объекты и реконструировать их на уровне отдельных экземпляров.

Технологический процесс включает в себя сопоставление экземпляров (instance matching), пространственную регистрацию облаков точек каждого объекта и финальную реконструкцию геометрии. Разработанная архитектура уникальна тем, что одна нейросетевая модель решает все три задачи благодаря использованию двух разных пространств эмбеддингов на базе векторного нейронного кодировщика (vector neuron encoder).

Эквивариантное пространство отвечает за определение позы и ориентации объектов, а инвариантное — за их чистую геометрию и форму. Встроенный BSDF-кодировщик позволяет осуществлять достраивание формы (shape completion) для невидимых или затененных частей мебели, опираясь на заложенные геометрические паттерны категорий. Модель обучалась исключительно на синтетических CAD-моделях из базы данных ShapeNet по 7 категориям объектов. Несмотря на это, ИИ продемонстрировал успешную работу в режиме zero-shot (без дообучения) на зашумленном реальном датасете 3RScan. Практические тесты подтвердили, что накопление данных из нескольких временных точек последовательно снижает ошибку позиционирования и повышает точность геометрии.

📊 SGAligner: выравнивание 3D-графов сцен вместо работы с вокселями 11:23

Альтернативным решением проблемы меняющихся сред стало использование трехмерных графов сцен (3D scene graphs). Эту работу представил исследователь Саян (Sayan) на конференции ICCV 2023. Спикер отметила, что классические низкоуровневые карты (сетки вокселей, облака точек) привязывают семантические метки непосредственно к метрической геометрии. Из-за этого робот ожидает увидеть стул в строго определенных координатах, что ухудшает способность систем генерализироваться при малейших перестановках. В свою очередь, 3D-графы сцен позволяют алгоритмам принимать решения на более абстрактном, семантическом уровне, являются крайне легковесными и обеспечивают конфиденциальность данных.

Разработанный метод SGAligner берет за основу графы сцен и сопоставляет их узлы, помогая «сшивать» трехмерные карты, полученные от одного или нескольких роботов в разное время. Традиционные алгоритмы регистрации облаков точек опираются на локальные дескрипторы и неизбежно пасуют в условиях минимального пространственного перекрытия или изменений. Алгоритм SGAligner интерпретирует графы сцен как мультимодальные графы знаний. Они включают в себя:

Нейросеть использует раздельные кодировщики для формы облаков точек, общей структуры комнат и мета-атрибутов, сводя их в единое пространство эмбеддингов. Модель доказала свою устойчивость к шуму: при использовании автоматически предсказанных графов вместо идеальных (ground truth) падение точности оказалось минимальным. В условиях экстремально низкого перекрытия кадров (от 10% до 30%) SGAligner продемонстрировал стабильное сопоставление узлов. На этапе финальной сборки алгоритм выравнивает индивидуальные объекты, а не сцену целиком, что привело к улучшению метрики расстояния Чамфера (chamfer distance) на 49% и снижению ошибки трансляции на 40%. При нулевом перекрытии система распознает несвязанные участки в 3 раза быстрее существующих аналогов.

🏗️ Проект Nothing Stands Still: вызов радикальных изменений на стройплощадках 21:43

Если предыдущие модели проектировались под стандартные перестановки мебели, то для фиксации радикальных перестроек аспирант Тао Сун (Tao Sun) создал проект Nothing Stands Still. Спикер подчеркнула, что доступные ИИ-сообществу датасеты пространственно-временных изменений ограничены масштабами одной комнаты или рутинными действиями людей. Алгоритмы для беспилотных автомобилей также создаются в расчете на статичность окружения (дорога и здания неизменны, движутся лишь отдельные машины или пешеходы). Строительные площадки ломают эти паттерны: здесь за короткое время кардинально меняются геометрия, топология и внешний вид всего пространства.

Проект Nothing Stands Still задумывался как масштабный бенчмарк и новый открытый датасет. Ученые в течение нескольких месяцев сканировали шесть реальных строительных объектов с помощью лазерных сканеров на штативах. В фокус внимания попал этап возведения внутренних перегородок и LAYOUT-коммуникаций. Пространство на глазах трансформируется из пустого бетонного периметра в сложный лабиринт со стенами, утеплителями, трубами и вентиляционными коробами.

Задача ИИ в таких условиях — безошибочно находить соответствия между редкими статичными элементами (полами, перекрытиями) и отсекать строительную динамику. Ситуацию осложняет визуальная монохромность среды (все вокруг серое или коричневое) и обилие повторяющихся элементов. Например, металлические или деревянные строительные стойки (studs) внутри стен расположены на расстоянии нескольких дюймах друг от друга и выглядят идентично, из-за чего стандартные алгоритмы сопоставления путаются и совершают ошибки. Первичное тестирование показало, что на сегодняшний день практически ни одна серийная модель регистрации облаков точек не способна адекватно справиться с этим вызовом, что открывает огромное поле для новых исследований.

🌿 Экономика замкнутого цикла и скрытые миллиарды строительной индустрии 29:16

В завершение лекции спикер детально обосновала экономическую и экологическую важность цифровизации строительных процессов. Разработка детальных пространственно-временных моделей критически необходима для развития экономики замкнутого цикла (circular economy). Точные 3D-копии позволяют повторно использовать строительные материалы сносимых объектов при проектировании новых зданий. Ситуация усугубляется тем, что для подавляющего большинства строений на планете полностью отсутствует актуальная цифровая документация: программное обеспечение CAD стало массовым только после 1980-х годов, а до этого момента на Земле уже были возведены миллиарды зданий.

Спикер привела несколько тревожных статистических фактов, характеризующих современную строительную индустрию:

По мнению исследователей из Gradient Spaces, повсеместное внедрение систем умного пространственно-временного анализа способно радикально повысить безопасность рабочих мест и защитить ресурсы планеты от истощения.

💬 Ответы на вопросы: CAD-модели, сенсоры и физика процессов 32:20

В рамках сессии вопросов и ответов спикер раскрыла ряд прикладных аспект технологии. Говоря о демонтаже зданий, она пояснила, что знание точных габаритов панелей, воздуховодов или окон позволяет архитекторам закладывать эти готовые элементы в первичные чертежи новых проектов, экономя ресурсы. При этом она признала, что ИИ-модели дают лишь предварительную гипотезу: перед физическим сносом всегда потребуется очный инструментальный осмотр инженеров, поскольку скрытый столетний износ материалов за стенами невозможно определить по одним лишь фотографиям.

Комментируя вопрос о сравнении облаков точек со стандартными CAD или BIM-моделями, докладчик заявила, что чисто геометрическое сопоставление напрямую не работает. Сканируемое облако точек всегда страдает от неполноты данных, реальный масштаб зданий может иметь погрешности относительно чертежа, а уровень детализации физического мира слишком абстрагирован в CAD-программах. Более того, на промежуточных этапах возведения стен пошаговых BIM-моделей просто не существует в природе. В этой области семантическое выравнивание через 3D-графы сцен выглядит намного более многообещающим.

Отвечая на технические вопросы аудитории, спикер уточнила следующие детали:

💬 Цитаты

«Мы можем сравнить здания с живыми организмами, что означает, что они эволюционируют с течением времени.»

Представитель Gradient Spaces 01:46

«Около 50% стоимости строительства увеличивается из-за переделок, क्योंकि вы построили что-то неправильно.»

Представитель Gradient Spaces 31:14
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
3D Gaussian Splatting
Метод трехмерной реконструкции сцен с использованием облаков ориентированных гауссовых сфер для фотореалистичного рендеринга.
Граф сцены (Scene Graph)
Иерархическая структура данных, представляющая объекты в пространстве, их семантические атрибуты и взаимосвязи между собой.
Замыкание цикла (Loop Closure)
Процесс в робототехнике, при котором алгоритм распознает ранее посещенное место и корректирует накопленную ошибку вычисления траектории.
Расстояние Чамфера (Chamfer Distance)
Метрика для оценки сходства между двумя облаками точек путем вычисления среднего расстояния от каждой точки до ближайшей точки в другом множестве.
📊 Цифры
⚖️ Другая сторона
Технологии и IT Gradient Spaces Living Scenes 3D Gaussian Splatting SGAligner 3RScan