Хади Салман: «Состязательные примеры — это не баги, это признаки»

В современном машинном обучении обеспечение устойчивости систем компьютерного зрения к искажениям данных остается фундаментальным вызовом. В интервью для канала Machine Learning Street Talk исследователь из MIT Хади Салман (Hadi Salman) раскрывает парадоксальную природу состязательных атак (adversarial examples). Вместо того чтобы видеть в уязвимостях нейросетей исключительно угрозу безопасности, ученые научились использовать их для улучшения обобщающей способности моделей и даже для перепроектирования объектов реального мира под нужды искусственного интеллекта.

🎓 От хирургических роботов до резиденции в Microsoft: Путь Хади Салмана 11:53

Хади Салман начал свой академический путь в Американском университете Бейрута, где изучал математику и машиностроение. Позже он получил степень магистра в области робототехники в Университете Карнеги — Меллона под руководством профессора Хоуи Шосета (Howie Choset). Там Салман занимался применением машинного обучения для локализации опухолей в хирургической робототехнике, а также алгоритмами глубокого обучения с подкреплением для навигации роботов.

Пройдя стажировку в компании Uber, где он исследовал квантификацию неопределенности для беспилотных автомобилей, в 2018 году Салман был принят в престижную программу резиденции AI в Microsoft. Из тысяч поданных заявок конкурсный отбор прошли всего около 10 человек. За два с половиной года работы инженером-исследователем в Microsoft Research он полностью сфокусировался на проблеме состязательной устойчивости нейросетей. По словам исследователя, его всегда поражало, насколько легко минимальные изменения в многомерном пространстве пикселей могут полностью дезориентировать сложнейшие модели ИИ, отлично работающие в обычных условиях.

🐛 Ошибки или фичи? Новая парадигма состязательных примеров 2:38

Традиционно состязательные помехи воспринимались как артефакты высокой размерности или статистические флуктуации обучающей выборки. Однако во время работы в Microsoft Салман познакомился с публикациями лаборатории Александра Мондри (Aleksander Mądry) в MIT, которые перевернули его представление о данных. Первая ключевая работа — «Adversarial Examples Are Not Bugs, They Are Features» («Состязательные примеры — это не баги, это признаки»). Авторы предложили модель устойчивых и неустойчивых признаков (robust model features).

Основные тезисы этой концепции:

Устойчивые признаки (robust features) — это антропоцентричные паттерны (например, форма или геометрия объекта), которые распознаются и человеком, и машиной.
Неустойчивые признаки (non-robust features) — это высокообобщающие, но неуловимые для человеческого глаза статистические закономерности в данных.

Поскольку классический подход обучения с учителем максимизирует исключительно точность, нейросети неизбежно цепляются за любые доступные закономерности, даже если они непонятны людям. В MIT экспериментально доказали возможность разделения этих признаков с помощью состязательного обучения (adversarial training). Метод проекции градиентного спуска (PGD) накладывает ограничения на радиус вокруг исходного изображения, изолируя низкоамплитудные неустойчивые признаки.

Салман описывает шокирующий эксперимент из этой работы:

Исследователи создали датасет, где изображения собак были состязательно изменены так, что модель видела в них кошек, и перемаркировали их как «кошка».
Человек по-прежнему видел на этих снимках собак, однако нейросеть, обученная на таком модифицированном датасете, впоследствии смогла безошибочно распознавать настоящих, чистых кошек из оригинального тестового набора.

Это, как подчеркивают участники дискуссии, неопровержимо доказывает, что состязательные примеры содержатся в самих данных, а не являются случайными сбоями кода. Отрицательной стороной, по мнению Салмана, остается трагический компромисс: удаление неустойчивых признаков неизбежно снижает стандартную точность классификатора, зато выравнивает логику машины с человеческим восприятием. Дополнительно Салман ссылается на исследование Виланда Бренделя (Wieland Brendel) о склонности сверточных нейросетей (CNN) отдавать приоритет текстурам, а не формам объектов. Устойчивое обучение лишает модели этой текстурной предвзятости.

🛡️ Математическая броня: Верификация и рандомизированное сглаживание 12:45

В Microsoft Research Хади Салман внес фундаментальный вклад в методы математической сертификации устойчивости. Его первая крупная работа в этой области объединила все существовавшие ранее методы послойной выпуклой релаксации (convex relaxation) для ReLU-сетей в единый оптимизационный фреймворк. Для нахождения оптимальных границ потребовались колоссальные вычислительные ресурсы — около 150 лет процессорного времени (CPU compute). Исследование показало, что послойная выпуклая релаксация сама по себе имеет жесткие ограничения и не способна полностью закрыть разрыв с точными верификаторами (такими как смешанно-целочисленное программирование).

Второй вехой стала оптимизация метода рандомизированного сглаживания (randomized smoothing). Этот подход позволяет масштабировать сертифицированную защиту до уровня ImageNet.

Процесс устроен следующим образом:

Исходное изображение реплицируется сотни или тысячи раз.
К каждой копии добавляется случайный гауссовский шум.
Изображения пропускаются через сеть, и итоговый класс определяется большинством голосов (majority vote).

Команда Салмана предложила использовать состязательное обучение непосредственно на целевой функции сглаженного классификатора, что позволило достичь уровня точности State-of-the-Art (SOTA) на ImageNet и CIFAR-10. Позже Салман опубликовал работу «Denoised Smoothing», решившую проблему защиты предобученных классификаторов, работающих по принципу черного ящика. Исследователи создали метод, при котором перед сторонней нейросетью разворачивается кастомный шумоподавитель (denoiser). Это позволило сертифицировать и значительно повысить устойчивость коммерческих API облачного распознавания от Google, Microsoft Azure, Clarify и AWS без изменения их внутренних весов.

Главным препятствием для повсеместного внедрения такой защиты в индустрии Салман считает высокую вычислительную емкость (требуются тысячи выборок на этапе инференса) и падение стандартной точности в среднем случае. Тем не менее исследователь оптимистично заявляет, что его лаборатория в MIT завершает подготовку практической и быстрой сертифицированной защиты от состязательных патчей (adversarial patches) на масштабах ImageNet, которая не ухудшает базовые метрики.

🔄 Парадокс трансферного обучения: Почему менее точные модели работают лучше 38:43

В конце 2020 года Салман опубликовал исследование «Do adversarially robust ImageNet models transfer better?», за которое получил престижную награду (Spotlight/Oral) на конференции NeurIPS. Работа выявила удивительный парадокс в сфере переноса знаний (transfer learning). Ранее в исследовании Google (Корнблит и др.) утверждалось, что качество переноса напрямую коррелирует с точностью исходной модели на ImageNet. Однако Салман экспериментально доказал, что модели, прошедшие состязательное обучение, переносят свои репрезентации на 12 различных downstream-задач (включая классификацию, детекцию объектов и сегментацию) значительно эффективнее стандартных моделей, несмотря на то, что их собственная точность на ImageNet изначально ниже.

Салман объясняет этот феномен следующим образом: состязательное обучение выступает в качестве жесткого априорного допущения (prior), блокирующего специфичные для ImageNet «неустойчивые признаки-ярлыки». Модель вынуждена опираться на более универсальные, концептуальные человеческие формы. При переносе на новую задачу сеть просто заполняет пробелы неустойчивыми признаками целевого домена, что ускоряет и улучшает подгонку. При фиксированном уровне устойчивости повышение точности базовой модели также улучшает перенос, что примиряет выводы Салмана с результатами ученых из Google.

🎭 Великий спор о признаках: Человеческое восприятие против машинного 46:43

Результаты Салмана вызвали глубокую методологическую дискуссию среди ведущих подкаста. Янник Килхер выдвинул провокационную гипотезу: возможно, превосходство состязательно устойчивых моделей в трансферном обучении — это круговая порука и следствие того, как сами люди определяют схожесть задач. По мнению Килхера, мы выбираем медицинские или природные датасеты для переноса знаний на основе нашего человеческого, антропоцентричного понимания признаков. Существуют задачи, где неустойчивые, скрытые признаки исходной модели могли бы сработать лучше (например, детекция вредоносного ПО), но люди просто не догадываются запустить перенос с ImageNet на такие домены. Салман согласился, что это крайне тонкий и точный аргумент, отметив недавние исследования по переносу весов на медицинский датасет CheXNet, где стандартные корреляции точности не сработали.

Чтобы проиллюстрировать уязвимость ИИ перед признаками, оторванными от контекста, Тим Скарф привел аналогию с поисковыми системами. Если спросить Google: «Сколько ног у змеи?», система, обученная на миллионах структурированных текстов, выдаст конкретное число, найденное в сети. Происходит это потому, что модель намертво заучила паттерн «Сколько... -> Число», проигнорировав биологический контекст слова «змея», поскольку в обучающей выборке эти признаки никогда не сталкивались в деструктивной конфигурации. Точно так же состязательный пример — это склейка формы собаки с микроструктурой шерсти кошки; сверточная сеть просто выбирает наиболее сильный статистический сигнал (неустойчивый признак) и выдает ошибочный вердикт.

🔄 Соображения устойчивости: Взгляд Карлини и дилемма метрик 1:09:35

Обсуждая текущее состояние отрасли, Тим Скарф напомнил о крайне пессимистичном взгляде на состязательную устойчивость со стороны таких экспертов, как Николас Карлини (Nicholas Carlini) и Флориан Трамер (Florian Tramèr). Карлини систематически уничтожал сотни предложенных эмпирических защит, утверждая, что тратить 10% базовой точности ради иллюзорной безопасности бессмысленно, так как атакующий всегда найдет новую лазейку из бесконечного множества состязательных стратегий. По словам Скарфа, после беседы с ними возникает ощущение, что индустрия зашла в тупик. Салман частично соглашается с этой суровой оценкой, признавая, что даже на скромном датасете CIFAR-10 лучшие модели не могут преодолеть порог в 60–67% устойчивой точности под воздействием небольших $L_p$-возмущений.

Проблема, по мнению участников дискуссии, упирается в математическое описание близости изображений. Векторные расстояния $L_2$ или $L_\infty$ служат лишь грубыми суррогатами человеческого зрения. Две картинки могут быть бесконечно близки в метрике $L_\infty$, но абсолютно различны для человека, и наоборот. Салман утверждает, что если бы математики нашли точную метрику человеческого сходства, задача глубокого обучения была бы решена простым методом ближайших соседей (KNN). В качестве позитивного сдвига Саяк Пол упомянул использование метрики LPIPS (Learnable Perceptual Image Patch Similarity), которая опирается на перцептивное сходство и помогает моделям лучше переносить устойчивость между принципиально разными типами атак.

🛑 Безобманные примеры (Unadversarial Examples): Перепроектирование физического мира для ИИ 8:47

Эврикой в карьере Салмана стало осознание того, что феномен состязательных уязвимостей можно перевернуть с ног на голову. В работе «Unadversarial Examples: Designing Objects for Robust Vision» он задался вопросом: зачем пытаться сделать нейросети устойчивыми к хаотичному миру, если можно модифицировать сам мир, сделав его максимально понятным для ИИ?

Математическая суть метода изящна: если при создании классической состязательной атаки инженеры максимизируют функцию потерь (loss) модели методом PGD в рамках заданного радиуса, то для генерации «безобманного» примера знак меняется на противоположный — функция потерь минимизируется по отношению к правильному классу. Вместо изменения всего изображения оптимизируются накладываемые паттерны или текстуры объектов.

Человечество давно использует этот подход для собственного удобства:

Вертолетные площадки размечаются крупными контрастными буквами «H».
Взлетно-посадочные полосы оснащаются яркими огнями.
Дорожные знаки «Стоп» делаются ярко-красными и восьмиугольными, чтобы максимально эффективно активировать человеческое зрительное восприятие.

Салман предлагает делать то же самое для роботов. Например, при автоматизации посадки дронов или вертолетов в условиях суровых погодных условий (туман, снегопад) достаточно нанести на посадочную платформу сгенерированную 3D-текстуру, которую нейросеть «обожает». ИИ мгновенно и безошибочно распознает объект даже через призму жестких сдвигов распределения, с которыми не справляется стандартное компьютерное зрение. Это применимо на складах, умных кухнях или для разметки автономных магистралей.

Эксперименты показали, что оптимизировать такую текстуру можно даже под полностью случайную, случайно инициализированную нейросеть (randomly initialized model), что открывает фантастические перспективы для конфиденциальности и защиты систем от перехвата управления.

Янник Килхер предложил яркую аналогию, сравнив «безобманные примеры» с коммерческим брендингом. Вместо того чтобы заставлять человеческий мозг каждый раз анализировать качество швов, материалов и подошвы кроссовок, компания просто штампует узнаваемый логотип-галочку. Этот логотип является легальным «хаком» человеческого мозга, мгновенно вызывающим нужную ассоциацию. Точно так же текстурные паттерны Салмана служат высокоэффективными «QR-кодами» нового поколения для нейросетей, избавляя их от необходимости тратить вычислительные ресурсы на избыточный высокоуровневый анализ в критических ситуациях.