Эндрю Ильяс из MIT: «Состязательные атаки — это не ошибки, а признаки обучения»

Исследователь из MIT Эндрю Ильяс (Andrew Ilyas) уверен: чтобы понять, почему системы машинного обучения ведут себя нестабильно в реальных условиях, недостаточно изучать только архитектуры нейросетей. В большом интервью для Machine Learning Street Talk Ильяс раскрывает механизмы того, как обучающие данные диктуют поведение моделей, объясняет, почему состязательные (adversarial) атаки — это не ошибки, а закономерные признаки обучения, и представляет новые инструменты для измерения влияния каждой точки данных на итоговый результат.

🛠️ Целостный подход к надежности машинного обучения 1:12

Эндрю Ильяс, находясь на финальном этапе докторантуры в MIT под руководством Александра Мадри и Костаса Даскалакиса, фокусируется на «предсказуемости» систем ИИ. По его словам, надежность системы нельзя обеспечить, рассматривая её компоненты в изоляции. Процесс создания ML-системы Ильяс разделяет на четыре критических этапа:

Сбор данных: выбор модальности и источников (например, использование Flickr для ImageNet или краулинг интернета для LLM).
Подготовка датасета: принятие решений о том, какие данные включить, как их очистить и разметить.
Алгоритм обучения: всё, что превращает датасет в модель (выбор архитектуры, поиск гиперпараметров).
Развертывание (Deployment): взаимодействие модели с пользователями и потенциальными злоумышленниками.

Ильяс подчеркивает, что надежность — это «движущаяся цель», так как системы не стационарны, а пользователи постоянно находят новые способы их эксплуатации .

📉 Моделирование данных: как датасет диктует предсказания 6:36

Одной из ключевых работ Эндрю Ильяса является концепция «моделирования данных» (Data Modeling), представленная около двух лет назад . Идея заключается в том, чтобы рассматривать машинное обучение как «черный ящик» — прямую функцию от обучающего датасета к конкретному предсказанию.

Основные тезисы методики:

Цель: предсказать поведение модели на конкретном тестовом примере в зависимости от того, какие обучающие данные использовались.
Связь с теорией: метод развивает идеи функций влияния (influence functions), предложенных Панко и Перси Ляном в 2017 году , и значений Шепли (Shapley values).
Линейная аппроксимация: исследователи обнаружили, что простая линейная регрессия между составом датасета и выходом модели работает на удивление точно. На датасете CIFAR-10 корреляция между предсказаниями такой «суррогатной модели» и реальностью достигла 0.9 .

По мнению Ильяса, по мере роста ширины нейросетей и их сверхпараметризации (overparameterization), они начинают вести себя более линейно в пространстве параметров, что делает линейное моделирование данных еще более эффективным .

⚡ Track: ускорение оценки данных в 1000 раз 26:26

Оригинальный метод моделирования данных требовал обучения десятков тысяч моделей на разных подмножествах данных, что крайне дорого. Чтобы решить эту проблему, команда Ильяса разработала алгоритм Track .

Механизм работы Track:

Линеаризация нейросети: использование эмпирического нейронного тангенциального ядра (Neural Tangent Kernel, NTK). Сеть аппроксимируется как линейная функция в пространстве параметров через разложение Тейлора .
Случайные проекции: градиентные векторы современных сетей слишком велики для вычислений, поэтому Track проецирует их в меньшую размерность .
Результат: алгоритм позволяет получить ту же точность оценки влияния данных, что и регрессионные методы, но при затратах в 100–1000 раз меньше .

Интересным открытием стало то, что случайные проекции работают не просто как сжатие с потерями, а как форма регуляризации, улучшая качество оценки в определенных режимах .

📖 Атрибуция данных в языковых моделях 37:08

Эффективность Track была протестирована на датасете Ftrace, разработанном в MIT. В нем Wikipedia-абстракции (обучающие данные) связаны логическими связями с конкретными фактами (тестовые данные) .

Результаты эксперимента:

Ранее системы поиска информации (IR) превосходили все методы атрибуции данных в LLM .
Track показал более высокое соответствие логическим связям, чем предыдущие методы.
При удалении топ-100 примеров, определенных Track, модель теряла способность предсказывать факт чаще, чем при удалении примеров, определенных IR или даже размеченных вручную «фактов-оснований» .

Это открывает путь к «очистке концепций» (concept scrubbing) — точному удалению нежелательных знаний из модели без её полной перетренировки .

🦟 Состязательные примеры: не ошибки, а «неробастные фичи» 53:08

В своей знаменитой работе «Adversarial Examples are not Bugs, They are Features» Ильяс предложил радикальный взгляд на природу уязвимостей нейросетей . Традиционно считалось, что состязательные примеры — это результат переобучения или шума. Ильяс доказал обратное с помощью элегантного эксперимента:

Исследователи создали датасет, где изображения кошек были незаметно изменены (perturbed) так, чтобы модель видела в них собак, и наоборот.
Данные были переразмечены: «кошки» стали называться «собаками» в соответствии с предсказанием модели.
Новая модель, обученная на этом «абсурдном» с точки зрения человека датасете, показала 90% точности на обычных, чистых изображениях .

Вывод Ильяса: нейросети используют признаки (features), которые статистически полезны для классификации, но совершенно невидимы или не важны для человеческого зрения. Ильяс называет их «неробастными признаками» (non-robust features) . Модели не ошибаются — они просто находят кратчайшие математические пути, которые не совпадают с человеческой логикой.

🧠 Абстракция против запоминания 41:49

В дискуссии о том, обладают ли LLM разумом, Ильяс занимает осторожную позицию. Он выделяет спектр между «запоминанием на основе примеров» (exemplar-based) и обучением «абстрактным признакам» .

Наблюдение: значительная часть знаний в моделях хранится в виде конкретных примеров. Можно удалить всего 10–20 из 50 000 обучающих сэмплов, чтобы изменить предсказание модели на конкретном тесте .
Спор о разуме: Ильяс упоминает две точки зрения на масштаб данных интернета. С одной стороны, разум может «возникнуть» (emergence) из-за гигантского объема данных. С другой стороны — данных так много, что любой ответ модели уже содержится в обучающей выборке в явном виде, и никакое «рассуждение» не требуется .

Для решения этого спора необходимы инструменты, подобные Track, которые покажут, откуда именно берется конкретный ответ: является ли он «копипастой» или результатом абстрактного обобщения .

⚖️ Смещение при сборе данных и ImageNet 1:15:37

Эндрю Ильяс также исследовал, как ошибки в сборе данных влияют на финальные бенчмарки. Изучение ImageNet показало наличие систематических смещений :

Проблема Mechanical Turk: разметчиков спрашивали «Есть ли на фото объект класса X?», а не «Что на этом фото?». Если два класса похожи (например, разные породы собак), люди часто соглашались с предложенным тегом, создавая шум в данных .
Амбивалентность классов: в ImageNet есть пересекающиеся категории, такие как «галстук» (tie) и «костюм и галстук» (suit and tie). Люди не могут их различить, но модели обучаются на специфических смещениях выборки и показывают точность выше случайной, фактически «эксплуатируя» ошибки сбора данных .

В теоретической плоскости Ильяс работает над проблемой «смещения самоотбора» (self-selection bias). На примере деревни охотников и рыболовов он объясняет, что мы видим результаты только того выбора, который сделали люди (охотник не пробует ловить рыбу), что искажает статистику. Ильяс разработал алгоритм, позволяющий математически восстановить истинные параметры даже из таких неполных данных через модификацию функции потерь .