Эндрю Ильяс из MIT: «Состязательные атаки — это не ошибки, а признаки обучения»

Machine Learning Street Talk 6,2 тыс. 1 ч 27 мин 5 мин 22.08.2024
Главное

Исследователь из MIT Эндрю Ильяс (Andrew Ilyas) уверен: чтобы понять, почему системы машинного обучения ведут себя нестабильно в реальных условиях, недостаточно изучать только архитектуры нейросетей. В большом интервью для Machine Learning Street Talk Ильяс раскрывает механизмы того, как обучающие данные диктуют поведение моделей, объясняет, почему состязательные (adversarial) атаки — это не ошибки, а закономерные признаки обучения, и представляет новые инструменты для измерения влияния каждой точки данных на итоговый результат.

🛠️ Целостный подход к надежности машинного обучения 1:12

Эндрю Ильяс, находясь на финальном этапе докторантуры в MIT под руководством Александра Мадри и Костаса Даскалакиса, фокусируется на «предсказуемости» систем ИИ. По его словам, надежность системы нельзя обеспечить, рассматривая её компоненты в изоляции. Процесс создания ML-системы Ильяс разделяет на четыре критических этапа:

Ильяс подчеркивает, что надежность — это «движущаяся цель», так как системы не стационарны, а пользователи постоянно находят новые способы их эксплуатации .

📉 Моделирование данных: как датасет диктует предсказания 6:36

Одной из ключевых работ Эндрю Ильяса является концепция «моделирования данных» (Data Modeling), представленная около двух лет назад . Идея заключается в том, чтобы рассматривать машинное обучение как «черный ящик» — прямую функцию от обучающего датасета к конкретному предсказанию.

Основные тезисы методики:

  1. Цель: предсказать поведение модели на конкретном тестовом примере в зависимости от того, какие обучающие данные использовались.
  2. Связь с теорией: метод развивает идеи функций влияния (influence functions), предложенных Панко и Перси Ляном в 2017 году , и значений Шепли (Shapley values).
  3. Линейная аппроксимация: исследователи обнаружили, что простая линейная регрессия между составом датасета и выходом модели работает на удивление точно. На датасете CIFAR-10 корреляция между предсказаниями такой «суррогатной модели» и реальностью достигла 0.9 .

По мнению Ильяса, по мере роста ширины нейросетей и их сверхпараметризации (overparameterization), они начинают вести себя более линейно в пространстве параметров, что делает линейное моделирование данных еще более эффективным .

⚡ Track: ускорение оценки данных в 1000 раз 26:26

Оригинальный метод моделирования данных требовал обучения десятков тысяч моделей на разных подмножествах данных, что крайне дорого. Чтобы решить эту проблему, команда Ильяса разработала алгоритм Track .

Механизм работы Track:

Интересным открытием стало то, что случайные проекции работают не просто как сжатие с потерями, а как форма регуляризации, улучшая качество оценки в определенных режимах .

📖 Атрибуция данных в языковых моделях 37:08

Эффективность Track была протестирована на датасете Ftrace, разработанном в MIT. В нем Wikipedia-абстракции (обучающие данные) связаны логическими связями с конкретными фактами (тестовые данные) .

Результаты эксперимента:

Это открывает путь к «очистке концепций» (concept scrubbing) — точному удалению нежелательных знаний из модели без её полной перетренировки .

🦟 Состязательные примеры: не ошибки, а «неробастные фичи» 53:08

В своей знаменитой работе «Adversarial Examples are not Bugs, They are Features» Ильяс предложил радикальный взгляд на природу уязвимостей нейросетей . Традиционно считалось, что состязательные примеры — это результат переобучения или шума. Ильяс доказал обратное с помощью элегантного эксперимента:

  1. Исследователи создали датасет, где изображения кошек были незаметно изменены (perturbed) так, чтобы модель видела в них собак, и наоборот.
  2. Данные были переразмечены: «кошки» стали называться «собаками» в соответствии с предсказанием модели.
  3. Новая модель, обученная на этом «абсурдном» с точки зрения человека датасете, показала 90% точности на обычных, чистых изображениях .

Вывод Ильяса: нейросети используют признаки (features), которые статистически полезны для классификации, но совершенно невидимы или не важны для человеческого зрения. Ильяс называет их «неробастными признаками» (non-robust features) . Модели не ошибаются — они просто находят кратчайшие математические пути, которые не совпадают с человеческой логикой.

🧠 Абстракция против запоминания 41:49

В дискуссии о том, обладают ли LLM разумом, Ильяс занимает осторожную позицию. Он выделяет спектр между «запоминанием на основе примеров» (exemplar-based) и обучением «абстрактным признакам» .

Для решения этого спора необходимы инструменты, подобные Track, которые покажут, откуда именно берется конкретный ответ: является ли он «копипастой» или результатом абстрактного обобщения .

⚖️ Смещение при сборе данных и ImageNet 1:15:37

Эндрю Ильяс также исследовал, как ошибки в сборе данных влияют на финальные бенчмарки. Изучение ImageNet показало наличие систематических смещений :

В теоретической плоскости Ильяс работает над проблемой «смещения самоотбора» (self-selection bias). На примере деревни охотников и рыболовов он объясняет, что мы видим результаты только того выбора, который сделали люди (охотник не пробует ловить рыбу), что искажает статистику. Ильяс разработал алгоритм, позволяющий математически восстановить истинные параметры даже из таких неполных данных через модификацию функции потерь .

💬 Цитаты

«Состязательный пример — это очень малое возмущение естественного входа, из-за которого модель ведет себя неправильно.»

Эндрю Ильяс 03:17

«Мы показали, что состязательные примеры — это не баги, это признаки (features).»

Эндрю Ильяс 53:08

«У вас нет ни малейшего представления о том, насколько велик интернет. Любой ответ нейросети может быть просто в обучающих данных.»

Эндрю Ильяс 47:10
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Adversarial Examples
Входные данные (например, картинки), измененные минимальным образом, чтобы обмануть нейросеть.
Neural Tangent Kernel (NTK)
Математический инструмент, позволяющий анализировать обучение нейросети как линейный процесс.
Data Attribution
Процесс определения того, какие именно обучающие примеры больше всего повлияли на конкретный ответ модели.
Self-selection bias
Искажение в статистике, возникающее, когда объекты исследования сами выбирают, в какую группу им попасть.
📊 Цифры
🗓 Хронология
  1. 2015 Эндрю Ильяс начинает обучение в MIT.
  2. 2017 Выход работы Панко и Ляна о функциях влияния в нейросетях.
  3. 2018 Ильяс публикует работу о состязательных атаках типа «черный ящик».
  4. 2022 Публикация основополагающей статьи о моделировании данных (Data Modeling).
  5. 2025 Планируемое начало профессорской деятельности Ильяса в CMU.
⚖️ Другая сторона
Искусственный интеллект Эндрю Ильяс MIT Adversarial Examples Machine Learning Street Talk ImageNet