Виртуальные аномалии: как метод VOS учит ИИ распознавать данные вне распределения

Компьютерное зрение достигло впечатляющих успехов, однако у современных нейросетей остается «ахиллесова пята»: они катастрофически не умеют признавать свое незнание. Метод Virtual Outlier Synthesis (VOS), предложенный исследователями, позволяет моделям не просто классифицировать объекты, но и эффективно выявлять данные, выходящие за рамки обучающей выборки (Out-of-Distribution, OOD). Ведущий канала Янник Килчер (Yannic Kilcher) подробно разбирает архитектуру этого решения, отмечая как его блестящие результаты на бенчмарках, так и ряд спорных теоретических допущений.

🚀 Проблема «самоуверенного» незнания 4:01

Современные нейросети-детекторы часто демонстрируют ложную уверенность при встрече с объектами, которых не было в обучающем наборе . Классический пример: система распознавания образов на беспилотном автомобиле может идентифицировать лося как «пешехода» с очень высоким коэффициентом уверенности . Это происходит потому, что стандартные классификаторы обучены лишь проводить линейные границы между известными классами.

Янник Килчер объясняет механику этой ошибки:

Дискриминативная природа: Сеть стремится максимально отдалить один класс от другого. Если объект находится далеко от границ всех известных классов, классификатор может ошибочно присвоить ему метку одного из них с максимальной вероятностью, просто потому что этот объект «еще меньше похож на другие» .
Отсутствие вероятностной модели: Традиционные классификаторы не моделируют распределение самих данных. В идеале сеть должна выдавать низкую уверенность везде, где она не видела примеров при обучении, но на практике «зона уверенности» бесконечно простирается за пределы реальных данных .

🧬 Технология Virtual Outlier Synthesis (VOS) 10:39

Вместо того чтобы пытаться собрать огромную базу «неправильных» изображений или генерировать сложные реалистичные картинки (что вычислительно дорого), авторы статьи предлагают синтезировать аномалии (аутлайеры) не в пространстве пикселей, а в латентном пространстве признаков .

Метод VOS строится на нескольких ключевых компонентах:

Генератор предложений (Proposal Generator): Первая стадия детектора ищет любые объекты в кадре («объектность»), не заботясь об их конкретном классе .
Гауссовская модель (GMM): В предпоследнем слое сети для каждого класса строится многомерное распределение Гаусса на основе обучающих данных .
Синтез виртуальных аномалий: Система берет эти распределения и намеренно сэмплирует точки из областей с низкой вероятностью (на краях «колокола» Гаусса). Это и есть «виртуальные аутлайеры» — точки, которые похожи на реальные данные, но ими не являются .

Такой подход позволяет обучать классификатор не только разделять классы A и B, но и проводить границу между «знакомым» и «незнакомым» .

📉 Функция потерь и энергетическая модель 26:31

Одной из самых инновационных частей работы является использование так называемой «свободной энергии» (free energy) для оценки неопределенности. Килчер отмечает, что авторы опираются на логарифмическую функцию раздела (log partition function), которая находится в знаменателе софтмакса .

Принцип работы этой функции в VOS:

Связь с физикой: Отрицательное значение этой функции называют свободной энергией. Исследования показали, что она является эффективным индикатором для обнаружения данных вне распределения .
Механика обучения: Исследователи вводят дополнительную функцию потерь (uncertainty loss). Она заставляет модель минимизировать энергию (повышать уверенность) для реальных данных и максимизировать её для синтезированных виртуальных аномалий .
Результат: В итоге сеть учится формировать компактные области уверенности вокруг реальных кластеров данных, а всё пространство за их пределами помечать как зону высокой неопределенности .

🧐 Критика и открытые вопросы 20:53

Несмотря на впечатляющие цифры (заметное снижение False Positive Rate на бенчмарках вроде Pascal VOC), Янник выражает скепсис относительно теоретического фундамента работы.

Основные пункты критики:

Допущение о нормальности: Авторы предполагают, что в латентном пространстве признаки распределены по Гауссу и имеют общую ковариационную матрицу . Янник считает это «смелым» (wild) допущением, которое часто не соблюдается в сложных высокоразмерных данных .
Проблема «глубоких» ошибок: Если на ранних уровнях нейросети лось уже был ошибочно принят за собаку из-за схожих признаков (четыре ноги, шерсть), то метод VOS не поможет, так как на финальном слое этот объект уже будет находиться глубоко внутри кластера «собак» .
Визуализация (UMAP): Килчер критикует использование UMAP-проекций как доказательства гауссовости данных. По его мнению, то, что данные выглядят кучно на двумерном графике, не гарантирует их правильную структуру в исходном пространстве признаков .

Янник резюмирует, что метод фактически превращает дискриминативную модель в подобие генеративной, что требует значительно больше ресурсов и может конфликтовать с основной задачей классификации . Однако он признает, что эмпирические результаты говорят сами за себя — система действительно работает лучше аналогов .