Янник Килхер: «Модель вмятого многообразия объясняет меньше, чем мы знали»

В детальном видеоразборе известного ИИ-исследователя Янника Килхера (Yannic Kilcher) анализируется свежая научная работа Ади Шамира, Одалии Меламед и Ориэля Бен Шмуэля, посвященная феномену состязательных примеров в машинном обучении. Авторы статьи предлагают концепцию «вмятого многообразия», призванную дать простое геометрическое объяснение уязвимости глубоких нейросетей. Однако Янник Килхер подвергает эту теорию жесткой критике, наглядно демонстрируя, что ключевой эксперимент исследователей оказался ложным коррелятом и тривиальным математическим артефактом.

🧩 Феномен состязательных атак и кризис существующих гипотез 0:00

Каждое научное исследование, посвященное состязательным примерам (adversarial examples), неизменно открывается констатацией факта: глубокие нейросети демонстрируют крайнюю хрупкость при минимальном изменении входных данных. Феномен заключается в том, что если взять изображение, которое нейросеть классифицирует с высокой точностью (например, самолет), и добавить к нему едва заметный для человеческого глаза шум, алгоритм внезапно изменит свое мнение. На выходе система может с абсолютной уверенностью заявить, что перед ней птица, банан или собака. При этом для человека картинка останется абсолютно прежней, а сам шум со стороны выглядит как случайные пиксельные искажения.

За последние восемь лет исследователи предложили множество качественных фреймворков для объяснения этой аномалии. Среди ключевых версий выделялись следующие аргументы:

Избыточная линейность или, напротив, нелинейность глубоких моделей.
Недостаточное количество обучающих примеров в выборке.
Редкие пограничные случаи, в которых алгоритмы склонны совершать ошибки.
Наличие в изображениях разделяемых «робастных» (устойчивых) и «неробастных» признаков.

Авторы разбираемой статьи — Ади Шамир, Одалия Меламед и Ориэль Бен Шмуэль — критикуют все прошлые теории, называя их «размытыми качественными идеями», которые не способны дать простое и интуитивное объяснение странным свойствам состязательных атак. По мнению Янника Килхера, такая критика звучит излишне сурово, особенно в адрес гипотезы о робастных и неробастных признаках, которая на сегодняшний день является ведущей в научном сообществе.

📉 Геометрия «вмятого многообразия»: суть новой модели 7:18

Исследователи утверждают, что в академической среде укоренился ложный ментальный образ состязательных примеров, основанный на упрощенных двумерных схемах. Согласно этому «старому» представлению, данные разных классов распределены в пространстве пикселей в виде кластеров, а обученный классификатор пытается провести разделяющую границу где-то посередине между ними. В такой парадигме состязательный пример создается путем смещения исходного изображения по направлению к центру противоположного класса. Авторы цитируют лекцию Иана Гудфеллоу, где упоминается, что вектор состязательной атаки часто направлен от центроида одного класса к центроиду другого.

В качестве альтернативы авторы выдвигают гипотезу «вмятого многообразия» (Dimpled Manifold Hypothesis), предлагая мыслить в категориях многомерных пространств. Они основываются на общепринятом факте, что реальные природные изображения занимают лишь ничтожную часть от всех возможных комбинаций пикселей, формируя низкоразмерное многообразие в огромном высокоразмерном пространстве.

Суть модели «вмятого многообразия» сводится к трем проверяемым тезисам:

Естественные изображения расположены на низкоразмерном многообразии, размерность которого значительно меньше размерности исходного пространства пикселей.
Разделяющие границы обученных нейросетей проходят в экстремальной близости от этого многообразия данных.
Градиент уверенности классификации имеет огромную норму и направлен строго перпендикулярно многообразию данных.

Согласно логике авторов, разделяющая граница нейросети буквально «накладывается» на лист многообразия данных. Однако вокруг конкретных обучающих примеров алгоритм формирует крошечные изгибы — «вмятины» (dimples), чтобы точки оказались на нужной стороне границы решения. Поскольку эти вмятины крайне мелкие, для создания состязательного примера достаточно сделать короткий шаг перпендикулярно многообразию данных. Это позволяет мгновенно пересечь границу решения классификатора при минимальном изменении пикселей.

📐 Модель растянутых признаков против «соломенного чучела» 17:22

Янник Килхер категорически не согласен с тем, как авторы описывают «старый» взгляд на проблему. По его мнению, предложенная ими схема разделения классов — это классическое «соломенное чучело», поскольку никто в современном ИИ-сообществе давно не представляет состязательные атаки столь примитивно. Специалисты прекрасно понимают, что расстояния до разделяющих границ ничтожно малы, а обычный сдвиг в сторону чужого центроида не превращает изображение кошки в полноценное изображение собаки на визуальном уровне.

В качестве контраргумента Килхер предлагает рассмотреть альтернативную концепцию, которую он условно называет «моделью растянутых признаков» (Stretchy Feature Model). Эта модель базируется на фундаментальной работе группы Александра Мадри. Суть подхода Килхера укладывается в следующие шаги:

В пространстве признаков (последний слой перед классификацией) данные разных классов отлично разделимы по нескольким мета-признакам.
Однако при проекции назад в пространство входных пикселей из-за линейных трансформаций, матриц весов и больших собственных значений масштабы этих признаков катастрофически деформируются.
Одни признаки (например, общая форма кошки) требуют огромного изменения пикселей, чтобы модель зафиксировала сдвиг.
Другие признаки (например, микроструктура кошачьей шерсти) невероятно чувствительны: минимальное изменение пикселей драматически меняет значение признака в восприятии сети.

По мнению Килхера, микроструктура шерсти — это не ошибка или баг обучения, а вполне легитимный, обобщающий признак, который нейросеть использует для классификации. Когда состязательная атака слегка модифицирует пиксели, она «перекачивает» этот чувствительный признак до такой степени, что он просто перевешивает в финальном линейном слое признак формы. Человек же, обладая иными пропорциями восприятия, замечает только форму и игнорирует пиксельные микроструктуры.

🔮 Пять «загадок» состязательного мира и их интерпретация 38:25

Авторы оригинального исследования утверждают, что их модель «вмятого многообразия» легко разрешает пять фундаментальных загадок состязательных примеров. Ниже представлены эти феномены и их критическая оценка со стороны ведущего:

Загадка смешивания (Mixture mystery): Как на микроскопическом расстоянии от любого каноничного фото кошки может существовать состязательный аналог гуакамоле? Авторы заявляют, что под реальным многообразием кошек лежит целое полупространство «псевдо-гуакамоле». Килхер указывает на слабость этого довода: модель не объясняет существование универсальных состязательных атак (когда один и тот же шум превращает любой объект в гуакамоле) и феномен переносимости атак между разными архитектурами сетей.
Загадка направления (Direction mystery): Почему состязательный шум для превращения в гуакамоле не выглядит зеленым и пюреобразным? С точки зрения авторов, это связано с ортогональным уходом с многообразия. С точки зрения Килхера, это давно объяснено разницей в фокусе внимания: люди смотрят на геометрию и контуры, а сети — на текстурные паттерны.
Загадка единообразия (Uniformity mystery): Граница решения всегда оказывается близко, независимо от выбранного изображения. По мнению Килхера, это естественное тривиальное свойство любых высокоразмерных пространств, а не уникальная заслуга модели «вмятого многообразия».
Загадка исчезающего зазора (Vanishing gap mystery): Особенности поведения моделей при классическом состязательном обучении.
Компромисс между точностью и робастностью (Accuracy-robustness trade-off): Почему защита от атак снижает общую точность на чистых тестах? Авторы считают, что попытки сгладить производные вынуждают границу решения «сильнее изгибаться», усложняя сходимость. Килхер парирует через свою модель растянутых признаков: заставляя сеть игнорировать чувствительные текстуры шерсти ради защиты от шума, мы насильно лишаем её полезного информативного признака, из-за чего общая предсказательная способность закономерно падает.

🧪 Парадокс неверных меток и крушение бритвы Оккама 51:40

Особое внимание в дискуссии уделяется знаменитому эксперименту группы Александра Мадри под названием «Adversarial Examples Are Features, Not Bugs». В ходе этого опыта исследователи создали датасет, состоящий исключительно из состязательных примеров, где изображениям (например, кошкам с состязательным шумом собаки) были присвоены заведомо «неверные» с человеческой точки зрения состязательные метки («собака»). Из выборки полностью удалили чистые исходные картинки. Нейросеть, обученная на таком искаженном датасете, в итоге показала высокую точность классификации на стандартных, чистых тестовых изображениях.

Авторы статьи про «вмятое многообразие» попытались объяснить этот парадокс с помощью двухмерных сечений пространства, заявляя, что новая граница решения просто совпадает со старой из-за гладкости самого многообразия данных. Килхер отмечает здесь логическое противоречие: авторы то утверждают, что изгибать границу вредно и сложно для оптимизации, то заставляют её огибать каждый искаженный элемент.

Главный удар по валидности исследуемой работы Килхер наносит в экспериментальной части. Авторы статьи заявляли, что их гипотезу железобетонно подтверждает эксперимент с алгоритмом PGD. Они продемонстрировали, что если заставить состязательную атаку двигаться строго по многообразию данных (используя автоэнкодер для проекции), норма необходимого шума возрастает примерно в 6 раз по сравнению с обычной атакой. Это должно было доказать, что атаки «в природе» предпочитают ортогональный уход с многообразия.

Янник Килхер полностью воспроизвел этот эксперимент с помощью библиотеки advertorch. Однако вместо реального многообразия природных изображений он спроецировал градиенты PGD на абсолютно случайное подпространство пиксельных координат размерностью 3500. Результаты оказались ошеломляющими:

Норма стандартной состязательной атаки без ограничений составила 0.7772.
Норма атаки вне случайного подпространства составила 0.7773.
Норма атаки, принудительно зажатой внутри случайного подпространства, подскочила до 6.5 (рост более чем в 8 раз).

Таким образом, якобы фундаментальное открытие авторов статьи оказалось ложным. Тот факт, что «на многообразии» атака требует большей нормы, — это не следствие уникальной геометрии данных или «вмятин» на разделяющей поверхности. Это банальное следствие проекции градиента на любое низкоразмерное подпространство. Работа Ади Шамира и коллег полностью провалила тест бритвы Оккама, выдав фундаментальное математическое свойство сокращения размерностей за глубокое свойство архитектуры нейросетей.