В новом интервью на канале известного ИИ-исследователя Янника Кильхера (Yannic Kilcher) авторы нашумевшей научной работы Шэрон Ли (Sharon Li) и Шуан Ду (Shuang Du) подробно рассказали о созданной ими технологии Virtual Outlier Synthesis (VOS). Этот метод позволяет нейросетям эффективно распознавать объекты, которых не было в обучающей выборке, решая критическую проблему безопасности для систем автономного вождения. Исследователи раскрыли не только математическую суть алгоритма, но и внутреннюю кухню научной работы, включая трудности сходимости моделей и то, почему классические бенчмарки больше не отражают реальность.
🚗 От классификации к реальному миру: зачем распознавать то, чего не знаешь 2:08
Проблема обнаружения объектов, выходящих за рамки обучающей выборки (out-of-distribution, OOD), долгое время тестировалась на искусственных и упрощенных сценариях. Как отмечает Шэрон Ли, ранее в академической среде стандартным подходом было обучение модели на датасете CIFAR-10 с последующей проверкой на совершенно других изображениях, например, номерах домов из SVHN. По её мнению, такие бенчмарки сейчас выглядят слишком искусственно, хотя ИИ-сообществу потребовались годы, чтобы добиться на них стабильного снижения доли ложноположительных срабатываний.
Сегодня фокус исследований смещается в сторону систем компьютерного зрения для беспилотного транспорта, где задачи намного сложнее. В реальных условиях беспилотный автомобиль никогда не столкнется со сценой, где есть только один идеально отцентрированный объект, как в CIFAR-10. Напротив, в кадре одновременно находится множество объектов, часть из которых хорошо знакома модели, а часть — абсолютно уникальна.
В качестве иллюстрации Шэрон Ли приводит Рисунок 1 из их научной статьи. На этом изображении одновременно зафиксированы обычный легковой автомобиль и лось, вышедший на дорогу. Если машина является стандартным объектом из обучающей выборки, то лесной зверь для модели оказывается полной неожиданностью. Именно поэтому оценивать неопределенность на уровне всего кадра неэффективно — алгоритм обязан локализовать и категоризировать аномалии точечно, на уровне конкретных объектов.
💡 Генезис идеи: от внешних данных к виртуальному синтезу 8:18
Разработанный метод VOS стал логическим продолжением предыдущего исследования авторов, представленного на конференции NeurIPS в 2020 году и посвященного энергетическому подходу к OOD-детекции. Та работа опиралась на концепцию регуляризации энергии, стремясь выстроить такую энергетическую поверхность, где знакомые распределения данных были бы четко отделимы от незнакомых.
Однако у старого подхода было фундаментальное ограничение: он требовал использования техники Outlier Exposure, то есть демонстрации модели реальных внешних датасетов с аномалиями, не пересекающимися с основным обучением. В контексте детекции объектов перенос этой методики невозможен. По словам Шэрон Ли, для этого исследователям пришлось бы вручную размечать и отсматривать колоссальные объемы изображений, гарантируя, что ни один элемент на уровне объектов не совпадет с обучающими паттернами. Такой процесс сбора данных является экономически и физически неподъемным.
Это препятствие и натолкнуло команду на мысль: если внешних данных взять негде, их нужно сгенерировать на основе имеющейся информации. Ведущий Янник Кильхер заметил, что данная логика перекликается с философией известного ученого Яна Лекуна (Yann LeCun), который активно продвигает обучение на основе энергетических моделей, где энергия «выталкивается» вверх в точках аномалий и «вжимается» вниз там, где присутствуют реальные данные. Шэрон Ли полностью согласилась с этой аналогией, подтвердив, что их работа вдохновлена именно этим подходом.
🧬 Магия латентного пространства: как устроен алгоритм VOS 12:09
Янник Кильхер высказал сомнение, которое часто звучит от скептиков: гипотеза о том, что сложные высокоразмерные данные можно адекватно описать простой смесью гауссиан, кажется сомнительной. Шэрон Ли ответила на эту критику, призвав разделять физическое пиксельное пространство и скрытые признаки модели.
Главная инновация VOS заключается в том, что синтез виртуальных аномалий происходит не в исходном пространстве пикселей, а в латентном (скрытом) пространстве признаков, извлекаемых из предпоследнего слоя нейросети. Это пространство обладает значительно меньшей размерностью. Опыт прошлых исследований показывает, что попытки обучать генеративно-состязательные сети (GAN) для создания аномальных картинок в высоком разрешении упираются в проблемы со сходимостью и стабильностью. Переход в латентное пространство делает математическую задачу вычислительно разрешимой.
Авторы признают, что предположение о распределении признаков в виде смеси гауссиан (GMM) является в определенной степени упрощением реального ландшафта плотности данных. Тем не менее, как утверждает Шэрон Ли, даже при таком допущении алгоритм позволяет проводить контролируемый синтез виртуальных выбросов и обучать модель сквозным методом (end-to-end). Эмпирические результаты показывают, что эта простая схема работает на удивление эффективно.
📉 Функция потерь и принуждение бэкбона к определённости 18:17
В процессе интервью спикеры детально разобрали устройство функции потерь неопределенности (uncertainty loss). В отличие от классического обучения с учителем на базе кросс-энтропии, фреймворк VOS сочетает в себе элементы дискриминативного подхода и оценки плотности распределения.
При этом алгоритму не требуется идеально точно высчитывать плотность вероятности для каждой точки. Как пояснила Шэрон Ли, задача упрощается: модели достаточно определить так называемые линии уровня (level sets) энергетической функции, которых хватит для надежного разграничения известных и неизвестных объектов.
Янник Кильхер предположил, что введение подобной функции потерь влияет исключительно на финальный классификационный слой. Однако Шэрон Ли скорректировала это представление, подчеркнув сквозной характер обучения:
- Сигнал ошибки от функции потерь неопределенности проходит через обратное распространение (backpropagation) по всей сети.
- Градиенты меняют веса всего сверточного бэкбона (архитектурной основы) детектора.
- Целевая функция принудительно разводит показатели энергии по разные стороны от нулевой отметки.
В результате такого комплексного воздействия вся цепочка извлечения признаков адаптируется и перестраивает латентное пространство таким образом, чтобы распределения известных и неизвестных классов гарантированно становились разделимыми.
📊 Эксперименты и компромиссы: безопасность без потери точности 22:25
Внедрение жестких регуляризаторов в нейросети часто приводит к побочным эффектам, снижая точность распознавания основных классов. Однако авторы VOS уверяют, что им удалось избежать этого компромисса.
Согласно данным из Таблицы 1 их статьи, точность локализации и классификации (метрика mAP) на классических наборах Pascal VOC и Berkeley Deep Drive практически не изменилась по сравнению со стандартной моделью Faster R-CNN без OOD-модуля. Алгоритм VOS фактически создает дополнительный слой безопасности, отсекая чужеродные объекты, но не ухудшает качество работы с привычной дорожной обстановкой.
В рамках абляционных исследований (сравнительных тестов отдельных компонентов) ученые сопоставили латентный синтез на базе гауссиан с альтернативными подходами:
- Генерация аномалий с помощью GAN-моделей на уровне пикселей.
- Применение метода MixUp (интерполяция изображений).
- Использование случайного шума.
Все эти варианты показали худшие результаты по сравнению с VOS.
Отвечая на вопрос о выборе конкретного слоя для съема признаков, Шуан Ду объяснил, почему они отказались от работы с ранними слоями нейросети. Проведенные тесты, вынесенные в приложение к статье, показали падение эффективности при переносе синтеза вглубь архитектуры. По мнению Шуана Ду, более поздние слои сети обладают более высокой семантической избирательностью и дискриминативностью. Именно на предпоследнем слое средние эмбеддинги классов и их ковариационные матрицы формируют наиболее качественную структуру, необходимую для генерации репрезентативных виртуальных выбросов.
🛠️ За кулисами исследования: почему алгоритм не работал «из коробки» 30:02
Научная работа редко идет гладко, и авторы охотно поделились трудностями, возникшими при создании VOS. Шуан Ду проделал огромную техническую работу, столкнувшись с полным отсутствием готовой методологии тестирования. Команде пришлось самостоятельно собирать, фильтровать и верифицировать тестовые изображения OOD-объектов, поскольку для систем детекции (в отличие от классификации) готовой инфраструктуры не существовало.
Главным же методологическим тупиком долгое время оставалась проблема сходимости ИИ-модели. При запуске обучения с нуля, когда функция потерь неопределенности работала с самой первой эпохи, сеть попросту отказывалась сходиться, выдавая неудовлетворительные результаты.
Причину этого сбоя исследователи поняли, проанализировав динамику обучения. На начальных этапах латентное пространство признаков еще не сформировано, веса распределены хаотично, а значит, любые попытки оценить плотность распределения и отранжировать ковариационные матрицы дают ошибочные ориентиры для синтеза. Модель пыталась строить виртуальные аномалии вокруг хаоса.
Решением стало введение гиперпараметра «стартовой эпохи» (starting epoch). Авторы сознательно отложили включение OOD-регуляризатора на более поздний этап обучения, давая бэкбону возможность сначала сформировать устойчивые латентные представления для основных классов. Только после стабилизации пространства признаков запускался алгоритм VOS, что мгновенно решило проблему сходимости.
В завершение беседы исследователи отметили, что исходный код проекта полностью открыт и опубликован в репозитории, благодаря чему любой желающий может воспроизвести их результаты и применить технологию виртуального синтеза в своих проектах.