Как заставить базовые 2D-модели размечать 3D-данные лидаров без участия человека

Семинар Стэнфордского университета, представленный платформой Stanford Online, был посвящён передовым методам восприятия для автономных агентов. Исследовательница из компании NVIDIA Лаура рассказала о разработке инновационных подходов к трёхмерной сегментации и трекингу объектов в открытом мире без использования ручной разметки. В основе предложенных решений лежит синергия двумерных базовых моделей зрения и алгоритмов машинного обучения для работы с лидарными данными.

🌐 Вызов открытого мира: почему классический подход больше не работает 0:09

Переход от привычных закрытых систем к восприятию открытого мира (open-world vocabulary) диктуется необходимостью распознавать абсолютно любые объекты на пути беспилотного транспорта. По мнению Лауры, современные автономные агенты опираются на три ключевых технологических столпа:

Восприятие (Perception): детальное понимание того, что именно окружает робота в данный момент.
Движение объектов (Object motion): отслеживание перемещения любых элементов сцены, а не только автомобилей и пешеходов.
Локализация (Localization): определение собственного положения робота даже в условиях монотонной и повторяющейся городской архитектуры.

Как отмечает исследовательница, классическое машинное обучение ранжирует задачи восприятия от простых к сложным параллельно с ростом числа распознаваемых классов. На базовом уровне находится семантическая сегментация, присваивающая класс каждому пикселю. Для ограниченного набора классов (дорога, машины, деревья) давно существуют качественные датасеты, а обучение с учителем работает безотказно. Отрасль способна масштабировать этот подход до тысяч классов благодаря специализированным базам данных, таким как LVIS.

Однако для полноценного понимания контекста требуется панорамная (паноптическая) сегментация, разделяющая конкретные экземпляры внутри одного класса. Добавление временной шкалы превращает задачу в трекинг видеопотока, где каждому объекту присваивается сквозной идентификатор (ID) на протяжении всех кадров. По словам Лауры, отслеживание объектов не представляет сложности, пока они хорошо видны, но в условиях плотного потока, взаимных перекрытий (окклюзий) и визуального сходства задача резко усложняется.

Настоящим вызовом становится перенос этих процессов в трёхмерное и даже четырёхмерное пространство (3D + время). По мнению спикера, ручная разметка 4D-данных для паноптической сегментации в открытом мире абсолютно нереализуема. Во время своей постдок-программы Лаура лично занималась аннотированием видеороликов и разметкой ограничивающих рамок (bounding boxes) для проекта MOTChallenge. Она вспоминает, что этот процесс невероятно монотонен: разметка одного пешехода на протяжении 1000 кадров не даёт модели никакого нового разнообразия во внешнем виде, но требует колоссальных человеческих ресурсов. Объём данных для ручной аннотации разнородных движений мгновенно разрастается до неподъёмных масштабов, что заставляет искать альтернативные автоматизированные подходы.

🚗 Технология SAL: как перенести знания двумерных моделей в 3D-лидары 8:26

Вместо полного отказа от накопленных баз данных Лаура предлагает использовать их для генерации так называемых псевдолейблов (pseudo labels). Первым вектором исследований её команды стал алгоритм SAL (Segment Anything in Lidar), сфокусированный на локализации трёхмерных объектов на основе их внешнего вида и присвоении им семантических меток с помощью текстовых подсказок.

В качестве демонстрации возможностей системы был продемонстрирован ролик, где алгоритм безошибочно выделяет синие контейнеры для мусора и жёлтые пожарные гидранты. По словам Лауры, встретить такие объекты в стандартных обучающих выборках можно лишь считанные разы — например, во всем их датасете было всего два пожарных гидранта, однако модель успешно зафиксировала их на валидационных кадрах. Внутри компании NVIDIA также проводились эксперименты по ручной разметке трёхмерных последовательностей, но этот опыт оказался крайне болезненным и неэффективным для промышленного масштабирования.

Архитектура SAL функционирует как комплексный движок псевдоразметки и самостоятельная модель. Процесс обучения строится следующим образом:

Неразмеченные, но предварительно откалиброванные данные с камер и лидаров поступают в модуль генерации псевдолейблов.
Модель SAM (Segment Anything Model) формирует точные двумерные маски сегментации на изображениях.
Базовая модель CLIP присваивает полученным маскам семантические значения.
Движок проецирует накопленные 2D-данные в трёхмерное пространство лидара.

В результате сама модель SAL обучается выполнять сегментацию "вслепую" (zero-shot segmentation) исключительно по лидарному облаку точек и текстовым промптам. На этапе тестирования и реальной эксплуатации видеокамеры системе больше не требуются.

Нейросетевая структура SAL базируется на подходе Mask2Former. Трансформерный декодер принимает наборы объектных запросов (object queries) и преобразует их в трёхмерные маски с оценкой достоверности. Главное нововведение команды Лауры заключается в том, что объектные запросы предсказывают специальный CLIP-токен. Этот токен выравнивается с эмбеддингом, полученным из текстового описания (например, слова "автомобиль"). По мнению авторов, это изящный способ перенести семантическое пространство CLIP в 3D-домен.

🧮 Преодоление «эффекта кровотечения» и магия зашумлённых данных 14:39

Прямое геометрическое проецирование двумерных масок в 3D сопряжено с серьёзными техническими трудностями. Из-за разности ракурсов камеры и лидара (лидар обычно установлен на крыше выше объективов) возникает "эффект кровотечения" (bleeding effects). Точки лазерного сканирования ложно проецируются сквозь объект, уходя на десятки метров назад и размываясь по фоновым постройкам.

Для очистки данных команда Лауры применила классический алгоритм плотностной кластеризации DBSCAN. По словам исследовательницы, этот простой шаг отсекает очевидные геометрические аномалии — например, когда точки машины "улетают" на плоскую стену здания в 10 метрах позади неё. DBSCAN помогает качественно обособить кусты, дорожное полотно и контуры автомобилей.

Большинство научных групп, работающих с интерьерами помещений, завершают исследование на этапе фильтрации проекций. Однако Лаура подчёркивает, что именно последующее обучение нейросети на базе этих псевдолейблов даёт колоссальный синергетический эффект. Результаты экспериментов наглядно иллюстрируют этот тезис:

Использование только спроецированных масок SAM даёт скромный показатель метрики качества паноптической сегментации PQ в районе 42.
Добавление фильтрации DBSCAN поднимает точность до 48.
Финальное обучение модели SAL на базе этих зашумлённых меток совершает качественный скачок, увеличивая PQ до 70.

«Модель фактически учится аккумулировать чистый полезный сигнал из огромного массива зашумлённых данных. Добиться точности в 70% одними лишь сырыми псевдолейблами принципиально невозможно», — объясняет Лаура.

При этом детальный анализ выявил важный нюанс: если оценивать работу SAL в режиме "семантического оракула" (когда геометрия масок идеальна, а токены CLIP не используются), качество трёхмерной сегментации оказывается безупречным даже без привлечения ручных меток. Но как только подключается реальная семантика CLIP, общие показатели точности снижаются и пока отстают от полностью контролируемых supervised-моделей. По мнению Лауры, это указывает на необходимость разделения процессов локализации и распознавания, где семантическую часть в будущем могут взять на себя продвинутые методы поиска (retrieval).

🎮 Интерактивный стресс-тест и ловушки промпт-инжиниринга 21:37

В ходе семинара Лаура провела "живую" демонстрацию работы SAL на случайных дорожных сценах. На этапе инференса алгоритм обрабатывает исключительно лидарное облако точек. Текстовый запрос "car" мгновенно подсветил все автомобили, хотя в некоторых зонах всё же наблюдались остаточные шумы. Промпт "persons" успешно выделил пешеходов на тротуарах.

При вводе запроса "traffic lights" система обнаружила светофоры, однако Лаура признала наличие ложных срабатываний. Поскольку лидар фиксирует прежде всего геометрию, нейросеть склонна путать опорные столбы светофоров и дорожных знаков. Запрос "storefront" частично выделил витрины магазинов, но из-за ограничений лидара их геометрия слишком схожа со стандартными стенами зданий, что затрудняет семантическую дифференциацию.

Отвечая на вопрос аудитории о возможности обработки сложных кондициональных промптов (например, "машина, поворачивающая направо"), Лаура ответила отрицательно. Текущая сборка SAL не поддерживает распознавание взаимосвязей объектов. Для реализации подобного функционала, по мнению гостьи, необходимо выстраивать динамический граф сцены (dynamic scene graph) и обучать его с помощью графовых нейросетей (GNN).

Дополнительные сложности создаёт высокая чувствительность к формулировкам. Спикер пожаловалась на "капризный API" текстовых моделей: изменение запроса с единственного числа на множественное ("car" вместо "cars") способно выдать совершенно другой результат сегментации. Для минимизации таких сбоев инженеры NVIDIA используют перекрёстную проверку запросов (cross-check). Например, при разделении понятий "дорога" и "тротуар" система вычисляет метрику IoU (Intersection over Union), что позволяет стабилизировать итоговые маски.

В качестве забавной иллюстрации Лаура вспомнила архивные кадры наводнения в Сиэтле, где из-за разлива воды на проезжей части оказалась живая рыба. Именно пример с "лососем на дороге" долгое время мотивировал её команду развивать отслеживание аномальных объектов в открытом мире, поскольку предусмотреть появление рыбы в стандартном дорожном датасете невозможно.

При дефиците кругового обзора камер инженеры прибегают к созданию так называемой "фрустум-модели Франкенштейна" (Franken frustum). Разработчики искусственно перекрывают и склеивают различные облака точек без явной семантической связи, чтобы обучить модель выдавать полноценное 360-градусное покрытие, даже если физическая камера смотрит только вперёд. Примечательно, что SAL демонстрирует стабильную работу даже на лидарных снимках, сделанных в глубокой темноте ночных улищ.

Лаура особо подчеркнула, что SAL не задумывался как инструмент для установки непосредственно внутрь беспилотного автомобиля, ведь никто не будет писать текстовые запросы во время движения. Это мощное решение для автоматической разметки колоссальных архивов данных. По её словам, если компании из миллиарда часов записанного вождения потребуется оперативно вычленить редкие ситуации — например, "дерево посреди дороги", — SAL справится с этой задачей за секунды.

🤖 Метод «Что движется вместе — принадлежит одному»: графовые сети в действии 33:58

Поскольку текстовые подсказки бессильны перед неопознанными обломками и неописанным дорожным мусором (debris), команда Лауры разработала второй, полностью комплементарный метод, получивший название «Что движется вместе — принадлежит одному» (What moves together belongs together). Его фундаментальная идея заключается в отказе от семантики: алгоритм ищет кластеры лидарных точек, демонстрирующих синфазное смещение в пространстве, и упаковывает их в обособленные сущности.

Данный подход базируется на кинематической псевдоразметке. Системе требуется лишь небольшой объём предварительно аннотированных лидарных треков, после чего она способна поглощать терабайты сырых неразмеченных данных. Конечная цель — натренировать стандартный детектор объектов исключительно на наблюдениях за подвижными элементами сцены.

Генерация псевдолейблов в рамках этого метода состоит из следующих этапов:

Лидарная последовательность проходит предобработку для вычисления векторов сценного потока (scene flow).
На основе потока формируются пространственные траектории точек, которые обычно оказываются довольно короткими.
Траектории группируются в единые кластеры.

По мнению Лауры, попытка настроить кластеризацию траекторий вручную через DBSCAN обречена на провал, поскольку физические масштабы объектов несопоставимы: легковые машины огромны, а пешеходы крайне малы, и подобрать универсальные гиперпараметры невозможно. Поэтому команда внедрила обучение кластеризации с помощью графовых нейросетей (GNN).

В созданном графе вершины (nodes) представляют собой траектории отдельных лидарных точек, а рёбра (edges) обозначают вероятную связь между ними. Посредством механизма передачи сообщений (message passing) вершины обмениваются эмбеддингами, накапливая контекстуальные знания о поведении всего окружения. На финальной стадии GNN решает задачу бинарной классификации рёбер:

Активное ребро (Active edge): подтверждает, что две траектории принадлежат одному физическому объекту.
Неактивное ребро (Inactive edge): указывает на отсутствие кинематической связи.

Последующая фильтрация методом корреляционной кластеризации позволяет автоматически выстраивать точные трёхмерные ограничивающие рамки (bounding boxes).

📉 Результаты тестов и взгляд в будущее беспилотных технологий 39:54

Тестирование графового метода на популярных датасетах Waymo и Argoverse показало впечатляющие результаты. Несмотря на наличие определённого разрыва в точности между моделью на идеальной ручной разметке и решением на псевдолейблах, графовый подход драматически превзошёл классический DBSCAN.

Важнейшим преимуществом обученной GNN стала высокая способность к генерализации. Настройки DBSCAN приходится скрупулёзно подбирать под специфику конкретного сенсора и датасета, тогда как графовая модель, обученная на данных Waymo, без какой-либо адаптации успешно запустилась на массивах Argoverse. Более того, нейросеть продемонстрировала способность обнаруживать новые классы: будучи обученной на траекториях легковых автомобилей, она корректно идентифицировала и очертила контуры крупных автобусов и грузовиков.

«Главный месседж обоих наших проектов: если у вас есть горы неразмеченных данных, просто сгенерируйте миллиарды бесплатных псевдолейблов, какими бы зашумлёнными они ни были, и натравите на них модель. Нейросеть сама отфильтрует мусор и выдаст достойный базовый уровень», — резюмирует Лаура.

В финальной сессии вопросов и ответов Лаура дала экспертную оценку ряду актуальных технологических трендов:

Потенциал SAM 2: вышедшая недавно модель SAM 2 отлично справляется с краткосрочным трекингом масок между кадрами, но пасует на длинных дистанциях при глухих окклюзиях и в плотной толпе. Команда NVIDIA уже интегрировала SAM 2 в свои 4D-эксперименты для повышения геометрической связности.
Распознавание сбитых животных (roadkill): отвечая на каверзный вопрос о различении живой кошки и сбитого животного на асфальте, Лаура отметила, что для беспилотника эта тонкая семантика вторична. Автомобилю важнее вовремя зафиксировать сам геометрический факт препятствия на дороге и безопасно объехать его по дуге в любом случае.
Эволюция лидаров: появление FMCW-лидаров (с частотной модуляцией), способных мгновенно измерять скорость точек за счёт эффекта Доплера, существенно упростит жизнь 4D-моделям, однако сам предложенный архитектурный пайплайн останется неизменным.
Связь с симуляторами NVIDIA: в компании существует огромный интерес к автоматической конвертации лидарных сканов реального мира в форматы OpenUSD и интеграции их в симуляционную среду Isaac Sim для робототехники. Разрабатываемая следующая итерация под названием 4D SAL будет включать в себя не только временной трекинг, но и функцию «достраивания объектов» (object completion) для воссоздания скрытых окклюзиями невидимых частей трёхмерных сцен.