Почему состязательные примеры остаются неразрешимой проблемой машинного обучения

В эфире подкаста Machine Learning Street Talk ведущие обсудили фундаментальную уязвимость современных нейросетей перед состязательными примерами (adversarial examples). Ведущие исследователи безопасности искусственного интеллекта Николас Карлини из Google DeepMind, Виланд Брендель из Тюбингенского университета и Флориан Трамер из ETH Zurich сошлись во мнении, что эффективных методов защиты от этих атак на сегодняшний день практически не существует. Сама проблема, по словам ученых, уходит корнями в глубокие различия между человеческим и машинным восприятием данных.

🧩 Природа состязательных примеров: баги или скрытые фичи? 1:00

Состязательные примеры впервые были наглядно продемонстрированы учеными в 2013–2014 годах. Суть явления проста: минимальное, абсолютно незаметное для человеческого глаза изменение входных данных (например, пикселей на картинке) может полностью сбить с толку классификатор ИИ. Долгое время вокруг этого феномена существовал ореол мистики, а исследователи выдвигали гипотезы о несовершенстве архитектур или методов обучения.

Однако знаковая работа исследователей из MIT 2019 года под названием «Features Not Bugs» показала, что состязательные примеры являются неотъемлемым свойством самих данных. Авторы работы разделили признаки в датасетах на два типа:

Устойчивые признаки (robust features) — паттерны, которые глубоко отражают суть объекта и используются людьми при классификации.
Неустойчивые признаки (non-robust features) — высокочастотные, микроскопические закономерности, которые отлично генерализуются на тестовой выборке, но легко поддаются минимальному внешнему искажению.

Эксперименты показали, что если обучить классификатор исключительно на неустойчивых признаках, он покажет высокую точность на стандартном тестовом наборе, но будет абсолютно беззащитен перед состязательными атаками. В другом тесте ученые взяли состязательные изображения и обучили новую модель, присвоив им те ложные метки, которые выдавал атакованный классификатор. Оказалось, что полученная модель успешно классифицирует исходный, чистый тестовый набор. Это доказывает, по мнению гостей подкаста, что нейросети просто находят статистически верные, но чуждые человеку закономерности.

🛡️ Проблема защиты и фундаментальный компромисс точности 4:14

Количество возможных состязательных примеров для любой модели стремится к бесконечности. В арсенале инженеров сегодня есть несколько базовых инструментов защиты, однако все они, как утверждают участники дискуссии, являются довольно грубыми методами:

Аугментация данных (data augmentation) — семантически эквивалентные трансформации (повороты, отражения, изменение гистограммы цветов) для уменьшения переобучения.
Состязательное обучение (adversarial training) — генерация состязательных примеров в процессе обучения и принудительное указание модели игнорировать эти фичи. По мнению ведущего Тима Скарфа, это похоже на «тыканье пальцем в небо», поскольку невозможно предугадать все несчетное множество уязвимых признаков.
Рандомизированное сглаживание (randomized smoothing) — добавление большого количества случайного шума (например, гауссовского) к данным перед обучением.

Существует фундаментальный конфликт между устойчивостью ИИ и его предсказательной точностью. Виланд Брендель приводит в пример шерсть кошки: форма животного является высокоамплитудным (устойчивым) признаком, изменить который в пиксельной матрице трудно, тогда как текстура шерсти — низкоамплитудный признак. Если принудительно запретить модели анализировать текстуру шерсти, точность классификации драматически упадет. По словам Николаса Карлини, делая модели устойчивыми к состязательным атакам через обучение, исследователи неизбежно снижают их общую точность на чистых данных.

💾 Запоминание данных против обобщения в больших моделях 8:34

Интуиция исследователей подсказывает, что успех гипотезы лотерейного билета (lottery ticket hypothesis) может быть связан с тем, что нейросети просто зазубривают сложные примеры и низкочастотные атрибуты выборки. Проблема безопасности машинного обучения шире, чем просто искажение картинок. Корпорация Microsoft в документе «Failure Modes in Machine Learning» (к созданию которого причастен Джеффри Сновер, изобретатель PowerShell) выделяет целую таксономию преднамеренных сбоев:

Пертурбационные атаки (perturbation attacks);
Отравление данных (poisoning attacks);
Инверсия модели (model inversion);
Вывод о членстве в выборке (membership inference);
Кража модели (model stealing).

Николас Карлини и Флориан Трамер недавно опубликовали исследование «Extracting Training Data from Large Language Models», где доказали, что языковые модели склонны дословно запоминать огромные куски обучающих данных. В текстовых моделях запоминание меток эквивалентно запоминанию контекста. При этом Трамер отмечает философскую дуальность: с точки зрения приватности запоминание — это плохо, но для человеческого обучения меморизация конкретных примеров играет ключевую роль. Гость полагает, что способность к запоминанию может быть принципиально необходима ИИ для эффективного обучения.

🧠 Человеческое восприятие, семантика и состязательность вне зрения 24:47

Часто возникает вопрос: не кроется ли проблема уязвимости ИИ в использовании геометрических пространств вместо человеческих семантических систем? Николас Карлини призывает не слишком увлекаться антропоморфизацией и сравнением ИИ с человеком. Он подчеркивает, что состязательные примеры существуют и в тех доменах, где люди исходно некомпетентны, например, в классификации вредоносного ПО (malware). Бинарный файл либо деструктивен, либо нет — это объективная истина, независимая от человеческого мнения. Тем не менее, классификаторы вредоносного софта страдают от тех же проблем: достаточно изменить один бит в неиспользуемом участке мертвого кода, и вредоносная программа начинает распознаваться как безопасная.

Что касается реального ущерба от состязательных примеров в компьютерном зрении, Флориан Трамер считает многие популярные угрозы преувеличенными. Например, атаки на знаки «Стоп» для беспилотных автомобилей блекнут на фоне того, что эти системы и так сбоят во время дождя или снегопада. По мнению Трамера, реальный коммерческий и безопасный контекст состязательных атак сегодня существует только в двух сферах:

Визуальное блокирование рекламы (perceptual ad blocking) — когда рекламные сети пытаются слегка изменить пиксели баннера, чтобы обмануть умный блокировщик, но сохранить картинку читаемой для человека.
Модерация контента — когда злоумышленники пытаются загрузить на платформы запрещенные видеоролики, обходя автоматические фильтры за счет минимальных незаметных пертурбаций.

Ведущий подкаста Тим Скарф поделился личным опытом: его видео на китайской платформе Bilibili было заблокировано из-за мема с Винни-Пухом. Скарф в шутку пообещал в следующий раз внедрить состязательный пример прямо в видеоряд, чтобы обойти автоматическую китайскую цензуру.

📉 Феномен «обучения по кратчайшему пути» (Shortcut Learning) 34:51

Изучение состязательных примеров выводит исследователей на глобальную проблему машинного обучения — обучение по кратчайшему пути (shortcut learning). Виланд Брендель, соавтор фундаментальных работ по текстурному сдвигу в сверточных нейросетях (CNN), объясняет, что пространство математических решений для достижения высокой точности на ImageNet огромно. Однако большинство этих решений не имеют ничего общего с тем, как задачу решает человек. Нейросети просто цепляются за более простые статистические корреляции (например, текстуру фона или объекта) вместо анализа глобальной формы объектов.

Исследования Бренделя показывают пугающую тенденцию:

Любая современная архитектура (CNN, трансформеры, модели с учителем или без) совершает примерно одинаковые, систематические ошибки.
Ошибки людей и машин кардинально отличаются, между ними зафиксирован огромный когнитивный разрыв.

Показателен эксперимент ученых из Беркли, которые заставили студентов детально изучить и классифицировать 136 пород собак из ImageNet. Оказалось, что обычные люди ошибаются в собаках гораздо чаще моделей (точность лучших студентов составила около 70%). Но при этом нейросети могут совершать очевидные с точки зрения человека ошибки, путая чашку с бананом из-за текстуры. Флориан Трамер констатирует, что погоня за чистой точностью (accuracy) на фиксированных датасетах зашла в тупик, и без фундаментального изменения функций потерь мы уперлись в технологический лимит.

🎭 Кризис рецензирования и самообман в научной среде 1:06:49

Огромная часть дискуссии была посвящена методологическому кризису в академической среде. В 2019 году Карлини и Брендель опубликовали руководство по оценке состязательной устойчивости («On Evaluating Adversarial Robustness»), а затем работу об адаптивных атаках. Николас Карлини признается, что крах большинства современных систем защиты связан с банальным самообманом исследователей, и цитирует Ричарда Фейнмана: «Главное — не дурачить самого себя, а себя как раз легче всего одурачить».

По словам Карлини, в ИИ-сообществе отсутствует культура жесткой верификации безопасности. Ученый тратит месяцы на доказательство своей правоты, но в сфере безопасности он обязан провести столько же времени, пытаясь яростно опровергнуть и сломать собственную идею. Из-за нежелания авторов перепроверять код, на архивных серверах лежат десятки неэффективных работ. Трамер проверил 30 опубликованных статей о защите ИИ: 29 из них были официально взломаны, но их авторы обновили версии на архивных серверах, даже не упомянув в сносках, что их защита полностью разбита.

Ситуация усугубляется дефектами системы рецензирования. Николас Карлини рассказал абсурдную историю из личной практики:

В 2017–2018 годах он написал статью со взломом ряда защит, и сообщество ICML присудило ей награду «Best Paper».
Позже Карлини, Трамер и Брендель написали новую работу, где еще более простыми методами взломали сразу 13 опубликованных систем защиты, но конференция ICML отклонила статью.
Причиной отказа рецензенты назвали отсутствие новых идей: «Вы просто применили существующие техники, чтобы сломать существующие статьи».

Флориан Трамер подчеркивает, что академические журналы категорически отказываются публиковать статьи с негативными результатами. В итоге авторы, честно признавшие неэффективность своей защиты, остаются без публикаций, в то время как их менее тщательные коллеги получают одобрение рецензентов за аналогичные методы, просто скрывая слабые места от проверок.

🛑 Практические рекомендации для индустрии: смирение перед лицом угрозы 1:27:48

Для инженеров, которые разворачивают ИИ-пайплайны в облаках (Azure, AWS, GCP) и работают в реальном секторе экономики, у экспертов нет утешительных новостей. «Если вы внедряете модель компьютерного зрения туда, где нельзя доверять входящим данным — удачи вам, она вам понадобится», — иронизирует Флориан Трамер.

На сегодняшний день существует лишь два класса защит с хоть какими-то гарантиями: эмпирические (состязательное обучение) и сертифицированные (проверяемые математически). Но они работают в крайне узких диапазонах пертурбаций и драматически снижают точность моделей на чистых данных.

Николас Карлини предлагает прагматичный подход к безопасности ИИ, проводя аналогию с классической кибербезопасностью:

«Если спецслужбы или целое государство решат взломать мой личный компьютер, они это сделают. Я не могу выстроить защиту от угрозы такого уровня, иначе мне пришлось бы уйти жить в глухой лес. То же самое и в машинном обучении. Профессор Дейв Эванс на своих лекциях показывает слайд: в криптографии мы требуем гарантий безопасности на уровне $2^{-128}$. В системной безопасности — на уровне канареечных знаков стека $2^{-32}$. Лучшие современные защиты в машинном обучении дают гарантию порядка $2^{-1}$. Это значит, что атакующий преуспеет в половине случаев. Так зачем жертвовать 10% точности на чистых данных ради защиты, которую мотивированный хакер обойдет с пяти попыток?»

В сухом остатке, лучшая стратегия для бизнеса сегодня, по мнению Карлини, — максимизировать точность моделей на нормальном распределении данных и смириться с их уязвимостью перед направленной состязательной атакой. Если же ваш бизнес-процесс построен так, что из-за одной ошибки нейросети могут погибнуть люди — Трамер рекомендует просто отказаться от внедрения ИИ в эту систему.

Единственное, что отчасти спасает крупные корпорации вроде Google в сфере классификации вредоносного ПО — это «безопасность через неведение» (security through obscurity), когда точные фичи и архитектура облачного пайплайна полностью скрыты от глаз внешних хакеров. Слепые зоны ИИ — это неизбежный налог на использование современных технологий машинного обучения.