Виртуальные аномалии: как метод VOS учит ИИ распознавать данные вне распределения

Yannic Kilcher 14,3 тыс. 35 мин 3 мин 13.03.2022
Главное

Компьютерное зрение достигло впечатляющих успехов, однако у современных нейросетей остается «ахиллесова пята»: они катастрофически не умеют признавать свое незнание. Метод Virtual Outlier Synthesis (VOS), предложенный исследователями, позволяет моделям не просто классифицировать объекты, но и эффективно выявлять данные, выходящие за рамки обучающей выборки (Out-of-Distribution, OOD). Ведущий канала Янник Килчер (Yannic Kilcher) подробно разбирает архитектуру этого решения, отмечая как его блестящие результаты на бенчмарках, так и ряд спорных теоретических допущений.

🚀 Проблема «самоуверенного» незнания 4:01

Современные нейросети-детекторы часто демонстрируют ложную уверенность при встрече с объектами, которых не было в обучающем наборе . Классический пример: система распознавания образов на беспилотном автомобиле может идентифицировать лося как «пешехода» с очень высоким коэффициентом уверенности . Это происходит потому, что стандартные классификаторы обучены лишь проводить линейные границы между известными классами.

Янник Килчер объясняет механику этой ошибки:

🧬 Технология Virtual Outlier Synthesis (VOS) 10:39

Вместо того чтобы пытаться собрать огромную базу «неправильных» изображений или генерировать сложные реалистичные картинки (что вычислительно дорого), авторы статьи предлагают синтезировать аномалии (аутлайеры) не в пространстве пикселей, а в латентном пространстве признаков .

Метод VOS строится на нескольких ключевых компонентах:

  1. Генератор предложений (Proposal Generator): Первая стадия детектора ищет любые объекты в кадре («объектность»), не заботясь об их конкретном классе .
  2. Гауссовская модель (GMM): В предпоследнем слое сети для каждого класса строится многомерное распределение Гаусса на основе обучающих данных .
  3. Синтез виртуальных аномалий: Система берет эти распределения и намеренно сэмплирует точки из областей с низкой вероятностью (на краях «колокола» Гаусса). Это и есть «виртуальные аутлайеры» — точки, которые похожи на реальные данные, но ими не являются .

Такой подход позволяет обучать классификатор не только разделять классы A и B, но и проводить границу между «знакомым» и «незнакомым» .

📉 Функция потерь и энергетическая модель 26:31

Одной из самых инновационных частей работы является использование так называемой «свободной энергии» (free energy) для оценки неопределенности. Килчер отмечает, что авторы опираются на логарифмическую функцию раздела (log partition function), которая находится в знаменателе софтмакса .

Принцип работы этой функции в VOS:

🧐 Критика и открытые вопросы 20:53

Несмотря на впечатляющие цифры (заметное снижение False Positive Rate на бенчмарках вроде Pascal VOC), Янник выражает скепсис относительно теоретического фундамента работы.

Основные пункты критики:

Янник резюмирует, что метод фактически превращает дискриминативную модель в подобие генеративной, что требует значительно больше ресурсов и может конфликтовать с основной задачей классификации . Однако он признает, что эмпирические результаты говорят сами за себя — система действительно работает лучше аналогов .

💬 Цитаты

«Наши текущие сети часто с трудом справляются с неизвестным и присваивают высокую вероятность входным данным вне распределения.»

Янник Килчер 06:27

«Идеально было бы, если бы сеть была уверена там, где есть обучающие данные, но выдавала низкую уверенность в местах, которых она никогда не видела.»

Янник Килчер 08:42
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Out-of-Distribution (OOD)
Данные, которые существенно отличаются от тех, на которых обучалась нейросеть (например, новый класс объектов).
Латентное пространство (Feature Space)
Абстрактное многомерное пространство, в котором нейросеть представляет признаки объектов перед классификацией.
Функция свободной энергии
Математическая мера, используемая в VOS для определения того, насколько входной объект соответствует выученному распределению.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Virtual Outlier Synthesis Out-of-Distribution Обнаружение объектов Янник Кильхер