Янник Кильхер о VOS: «Метод работает, но вопросы остались»

🧠 Борьба с «неизвестным»: Virtual Outlier Synthesis (VOS) 4:01

В современном машинном обучении одна из критических проблем — распознавание данных, которые выходят за рамки обучающей выборки (out-of-distribution, OOD). Ведущий канала Янник Кильхер (Yannic Kilcher) детально разобрал работу «Learning What You Don't Know by Virtual Outlier Synthesis», авторы которой — Шифан До, Цзюнин Ван, Му Тай и Ишань Ли — предлагают новый метод генерации «виртуальных выбросов» для повышения безопасности нейросетей.

🚫 Проблема «высокой уверенности» в неизвестном 6:27

Традиционные классификаторы обучаются разделять классы внутри заданного набора данных. Янник Кильхер отмечает, что в пространстве признаков это выглядит как проведение линейных границ.

Риск: Если нейросеть видит объект, который она не изучала (например, лось, если модель обучалась только на автомобилях и пешеходах), она всё равно пытается классифицировать его как что-то известное.
Иллюзия уверенности: Поскольку модель не «знает» о существовании пустого пространства, она зачастую выдает аномально высокий коэффициент уверенности для ошибочно классифицированного объекта.

Кильхер указывает, что создание полноценной генеративной модели, которая «знала» бы, где данных нет, требует огромных вычислительных ресурсов и может негативно повлиять на основную задачу классификации.

🛠 Метод VOS: синтез виртуальных выбросов 16:58

Авторы статьи предлагают более изящное решение: генерировать «виртуальные выбросы» (virtual outliers) непосредственно в латентном пространстве (предпоследний слой сети), а не в исходном пиксельном пространстве.

Гауссово моделирование: В процессе обучения модель вычисляет эмпирическое среднее значение и ковариацию для каждого класса, предполагая, что данные распределены по многомерному нормальному закону.
Сэмплирование: Из этих распределений синтезируются точки, которые находятся «далеко» от центров классов (с низкой вероятностью).
Обучение классификатора: Сеть учится проводить границы не только между известными классами, но и отсекать эти виртуальные выбросы.

📉 Математика уверенности и функция потерь 27:11

В качестве меры неопределенности используется так называемая «свободная энергия» (отрицательная логарифмическая функция раздела).

Цель: Обучить модель максимизировать уверенность на реальных данных и минимизировать её на синтетических выбросах.
Реализация: При добавлении этого компонента в общую функцию потерь (вместе с классификацией и локализацией объектов) нейросеть учится выдавать низкий «score» для любого входа, который не попадает в плотные зоны обучающего распределения.

🧪 Критика и вопросы от Янника Кильхера 22:55

Несмотря на успешные результаты на бенчмарках (например, уменьшение числа ложноположительных срабатываний), Янник Кильхер высказывает ряд сомнений:

Гауссово допущение: Кильхер считает «диким» предположение о том, что данные в латентном пространстве действительно распределены по Гауссу, даже если UMAP-визуализация создает такое визуальное впечатление.
Проблема ранних слоев: Если нейросеть «путает» объект (например, лось) с собакой еще на низких уровнях обработки признаков, то к моменту попадания в последний слой он будет лежать внутри «кластера собак», и метод VOS его не обнаружит.
Сложность: Разделение «своих» данных и выбросов — задача, по сложности эквивалентная построению полноценной генеративной модели, что ставит под вопрос масштабируемость метода.

В заключение, Янник Кильхер отмечает, что, несмотря на теоретические вопросы, метод демонстрирует высокую практическую эффективность, что делает его крайне интересным инструментом для систем, где цена ошибки (safety-critical applications) очень высока.