Как виртуальный синтез аномалий VOS помогает беспилотникам распознавать неизвестные объекты

В новом интервью на канале известного ИИ-исследователя Янника Кильхера (Yannic Kilcher) авторы нашумевшей научной работы Шэрон Ли (Sharon Li) и Шуан Ду (Shuang Du) подробно рассказали о созданной ими технологии Virtual Outlier Synthesis (VOS). Этот метод позволяет нейросетям эффективно распознавать объекты, которых не было в обучающей выборке, решая критическую проблему безопасности для систем автономного вождения. Исследователи раскрыли не только математическую суть алгоритма, но и внутреннюю кухню научной работы, включая трудности сходимости моделей и то, почему классические бенчмарки больше не отражают реальность.

🚗 От классификации к реальному миру: зачем распознавать то, чего не знаешь 2:08

Проблема обнаружения объектов, выходящих за рамки обучающей выборки (out-of-distribution, OOD), долгое время тестировалась на искусственных и упрощенных сценариях. Как отмечает Шэрон Ли, ранее в академической среде стандартным подходом было обучение модели на датасете CIFAR-10 с последующей проверкой на совершенно других изображениях, например, номерах домов из SVHN. По её мнению, такие бенчмарки сейчас выглядят слишком искусственно, хотя ИИ-сообществу потребовались годы, чтобы добиться на них стабильного снижения доли ложноположительных срабатываний.

Сегодня фокус исследований смещается в сторону систем компьютерного зрения для беспилотного транспорта, где задачи намного сложнее. В реальных условиях беспилотный автомобиль никогда не столкнется со сценой, где есть только один идеально отцентрированный объект, как в CIFAR-10. Напротив, в кадре одновременно находится множество объектов, часть из которых хорошо знакома модели, а часть — абсолютно уникальна.

В качестве иллюстрации Шэрон Ли приводит Рисунок 1 из их научной статьи. На этом изображении одновременно зафиксированы обычный легковой автомобиль и лось, вышедший на дорогу. Если машина является стандартным объектом из обучающей выборки, то лесной зверь для модели оказывается полной неожиданностью. Именно поэтому оценивать неопределенность на уровне всего кадра неэффективно — алгоритм обязан локализовать и категоризировать аномалии точечно, на уровне конкретных объектов.

💡 Генезис идеи: от внешних данных к виртуальному синтезу 8:18

Разработанный метод VOS стал логическим продолжением предыдущего исследования авторов, представленного на конференции NeurIPS в 2020 году и посвященного энергетическому подходу к OOD-детекции. Та работа опиралась на концепцию регуляризации энергии, стремясь выстроить такую энергетическую поверхность, где знакомые распределения данных были бы четко отделимы от незнакомых.

Однако у старого подхода было фундаментальное ограничение: он требовал использования техники Outlier Exposure, то есть демонстрации модели реальных внешних датасетов с аномалиями, не пересекающимися с основным обучением. В контексте детекции объектов перенос этой методики невозможен. По словам Шэрон Ли, для этого исследователям пришлось бы вручную размечать и отсматривать колоссальные объемы изображений, гарантируя, что ни один элемент на уровне объектов не совпадет с обучающими паттернами. Такой процесс сбора данных является экономически и физически неподъемным.

Это препятствие и натолкнуло команду на мысль: если внешних данных взять негде, их нужно сгенерировать на основе имеющейся информации. Ведущий Янник Кильхер заметил, что данная логика перекликается с философией известного ученого Яна Лекуна (Yann LeCun), который активно продвигает обучение на основе энергетических моделей, где энергия «выталкивается» вверх в точках аномалий и «вжимается» вниз там, где присутствуют реальные данные. Шэрон Ли полностью согласилась с этой аналогией, подтвердив, что их работа вдохновлена именно этим подходом.

🧬 Магия латентного пространства: как устроен алгоритм VOS 12:09

Янник Кильхер высказал сомнение, которое часто звучит от скептиков: гипотеза о том, что сложные высокоразмерные данные можно адекватно описать простой смесью гауссиан, кажется сомнительной. Шэрон Ли ответила на эту критику, призвав разделять физическое пиксельное пространство и скрытые признаки модели.

Главная инновация VOS заключается в том, что синтез виртуальных аномалий происходит не в исходном пространстве пикселей, а в латентном (скрытом) пространстве признаков, извлекаемых из предпоследнего слоя нейросети. Это пространство обладает значительно меньшей размерностью. Опыт прошлых исследований показывает, что попытки обучать генеративно-состязательные сети (GAN) для создания аномальных картинок в высоком разрешении упираются в проблемы со сходимостью и стабильностью. Переход в латентное пространство делает математическую задачу вычислительно разрешимой.

Авторы признают, что предположение о распределении признаков в виде смеси гауссиан (GMM) является в определенной степени упрощением реального ландшафта плотности данных. Тем не менее, как утверждает Шэрон Ли, даже при таком допущении алгоритм позволяет проводить контролируемый синтез виртуальных выбросов и обучать модель сквозным методом (end-to-end). Эмпирические результаты показывают, что эта простая схема работает на удивление эффективно.

📉 Функция потерь и принуждение бэкбона к определённости 18:17

В процессе интервью спикеры детально разобрали устройство функции потерь неопределенности (uncertainty loss). В отличие от классического обучения с учителем на базе кросс-энтропии, фреймворк VOS сочетает в себе элементы дискриминативного подхода и оценки плотности распределения.

При этом алгоритму не требуется идеально точно высчитывать плотность вероятности для каждой точки. Как пояснила Шэрон Ли, задача упрощается: модели достаточно определить так называемые линии уровня (level sets) энергетической функции, которых хватит для надежного разграничения известных и неизвестных объектов.

Янник Кильхер предположил, что введение подобной функции потерь влияет исключительно на финальный классификационный слой. Однако Шэрон Ли скорректировала это представление, подчеркнув сквозной характер обучения:

Сигнал ошибки от функции потерь неопределенности проходит через обратное распространение (backpropagation) по всей сети.
Градиенты меняют веса всего сверточного бэкбона (архитектурной основы) детектора.
Целевая функция принудительно разводит показатели энергии по разные стороны от нулевой отметки.

В результате такого комплексного воздействия вся цепочка извлечения признаков адаптируется и перестраивает латентное пространство таким образом, чтобы распределения известных и неизвестных классов гарантированно становились разделимыми.

📊 Эксперименты и компромиссы: безопасность без потери точности 22:25

Внедрение жестких регуляризаторов в нейросети часто приводит к побочным эффектам, снижая точность распознавания основных классов. Однако авторы VOS уверяют, что им удалось избежать этого компромисса.

Согласно данным из Таблицы 1 их статьи, точность локализации и классификации (метрика mAP) на классических наборах Pascal VOC и Berkeley Deep Drive практически не изменилась по сравнению со стандартной моделью Faster R-CNN без OOD-модуля. Алгоритм VOS фактически создает дополнительный слой безопасности, отсекая чужеродные объекты, но не ухудшает качество работы с привычной дорожной обстановкой.

В рамках абляционных исследований (сравнительных тестов отдельных компонентов) ученые сопоставили латентный синтез на базе гауссиан с альтернативными подходами:

Генерация аномалий с помощью GAN-моделей на уровне пикселей.
Применение метода MixUp (интерполяция изображений).
Использование случайного шума.

Все эти варианты показали худшие результаты по сравнению с VOS.

Отвечая на вопрос о выборе конкретного слоя для съема признаков, Шуан Ду объяснил, почему они отказались от работы с ранними слоями нейросети. Проведенные тесты, вынесенные в приложение к статье, показали падение эффективности при переносе синтеза вглубь архитектуры. По мнению Шуана Ду, более поздние слои сети обладают более высокой семантической избирательностью и дискриминативностью. Именно на предпоследнем слое средние эмбеддинги классов и их ковариационные матрицы формируют наиболее качественную структуру, необходимую для генерации репрезентативных виртуальных выбросов.

🛠️ За кулисами исследования: почему алгоритм не работал «из коробки» 30:02

Научная работа редко идет гладко, и авторы охотно поделились трудностями, возникшими при создании VOS. Шуан Ду проделал огромную техническую работу, столкнувшись с полным отсутствием готовой методологии тестирования. Команде пришлось самостоятельно собирать, фильтровать и верифицировать тестовые изображения OOD-объектов, поскольку для систем детекции (в отличие от классификации) готовой инфраструктуры не существовало.

Главным же методологическим тупиком долгое время оставалась проблема сходимости ИИ-модели. При запуске обучения с нуля, когда функция потерь неопределенности работала с самой первой эпохи, сеть попросту отказывалась сходиться, выдавая неудовлетворительные результаты.

Причину этого сбоя исследователи поняли, проанализировав динамику обучения. На начальных этапах латентное пространство признаков еще не сформировано, веса распределены хаотично, а значит, любые попытки оценить плотность распределения и отранжировать ковариационные матрицы дают ошибочные ориентиры для синтеза. Модель пыталась строить виртуальные аномалии вокруг хаоса.

Решением стало введение гиперпараметра «стартовой эпохи» (starting epoch). Авторы сознательно отложили включение OOD-регуляризатора на более поздний этап обучения, давая бэкбону возможность сначала сформировать устойчивые латентные представления для основных классов. Только после стабилизации пространства признаков запускался алгоритм VOS, что мгновенно решило проблему сходимости.

В завершение беседы исследователи отметили, что исходный код проекта полностью открыт и опубликован в репозитории, благодаря чему любой желающий может воспроизвести их результаты и применить технологию виртуального синтеза в своих проектах.