Хима Лакараджу о ловушках ИИ: как «честные» объяснения маскируют расовую дискриминацию

The TWIML AI Podcast 591 45 мин 4 мин 29.06.2020
Главное

Безопасность систем искусственного интеллекта (ИИ) часто обсуждается в контексте защиты от взлома, однако существует критическая уязвимость в самом механизме их интерпретации. В новом выпуске подкаста TWIML AI специалист по машинному обучению и профессор Гарвардского университета Хима Лакараджу совместно с ведущим Сэмом Черрингтоном обсуждают, почему популярные инструменты объяснимости ИИ легко обмануть и как это может привести к катастрофическим последствиям в юриспруденции и медицине.

⚖️ От рекомендаций рекламы к вопросам жизни и смерти 2:18

Хима Лакараджу начала свой путь в машинном обучении ещё в Индии, а в 2012 году переехала в США для получения докторской степени. По её словам, её всегда интересовали не просто алгоритмы, а их реальное применение . В сотрудничестве с экспертами по поведенческой экономике она переключилась с разработки рекламных рекомендаций на задачи «высоких ставок» (high-stakes domains), где ошибка алгоритма может стоить человеку свободы или здоровья .

Её работа сосредоточена на трех ключевых направлениях:

  1. Интерпретируемость (Interpretableness): создание методов, которые объясняют сложные модели людям, не являющимся экспертами в ИИ (врачам, судьям, соцработникам) .
  2. Справедливость (Fairness): обеспечение отсутствия дискриминационных предубеждений в алгоритмах по умолчанию.
  3. Диагностика: разработка инструментов для выявления предвзятости как в ИИ, так и в человеческих решениях .

В дискуссии поднимается важный вопрос: стоит ли вообще использовать «черные ящики» (сложные, непрозрачные модели) в критических сферах? Сэм Черрингтон напоминает о позиции Синтии Рудин, которая утверждает, что для таких задач нужно строить только изначально понятные модели . Лакараджу частично согласна, но отмечает, что в реальности исследователи часто вынуждены работать с проприетарными моделями сторонних компаний или данными, которых недостаточно для обучения прозрачной модели с высокой точностью . В таких случаях объяснение «черного ящика» остается единственным выходом .

🎭 Иллюзия справедливости: как обмануть судью 10:37

Центральной темой беседы стало недавнее исследование Химы Лакараджу, представленное на воркшопе CVPR, о пределах объяснимости. Она утверждает, что современные алгоритмы объяснения, такие как LIME и SHAP, уязвимы для преднамеренных атак .

В качестве примера исследовательница приводит эксперимент со студентами юридических факультетов Гарварда и Коннектикута . Участникам предложили оценить модель ИИ, принимающую решения об освобождении под залог.

Лакараджу подчеркивает, что люди склонны априори доверять вычислительным системам, считая их более объективными . Это позволяет манипуляторам создавать «обертки» над алгоритмами, которые выглядят честными, но сохраняют расовую или гендерную предвзятость.

🛠️ Техника атаки: как работают Adversarial Wrappers 21:55

Хима Лакараджу подробно описывает механизм атаки на популярный метод LIME. Принцип работы LIME (Local Interpretable Model-agnostic Explanations) заключается в том, что он берет конкретную точку данных, создает вокруг неё множество «возмущений» (модифицированных копий с небольшим шумом) и строит простую линейную модель, чтобы понять, какие признаки повлияли на прогноз .

Уязвимость кроется в том, что эти искусственно созданные точки (возмущения) часто выпадают из реального распределения данных — они выглядят «синтетическими» для нейросети .

Схема атаки:

  1. Создается адверсальный классификатор (враждебная оболочка).
  2. Модель определяет: является ли точка реальным данным или синтетическим возмущением от LIME .
  3. На реальных данных модель ведет себя «грязно» (использует запрещенные признаки, например, расу).
  4. Как только модель распознает запрос от LIME (синтетическую точку), она мгновенно переключается в режим «идеальной справедливости» .

В результате LIME выдает отчет о том, что модель абсолютно беспристрастна, в то время как на практике она продолжает дискриминировать людей. Сэм Черрингтон сравнил это с «дизельгейтом» Volkswagen, когда автомобили меняли показатели выбросов, распознавая ситуацию тестирования .

🏔️ Будущее надежного ИИ: компромиссы и обучение 35:42

Решение проблемы уязвимости объяснений не сводится к простому техническому патчу. Хима Лакараджу отмечает фундаментальный компромисс: если сделать возмущения LIME слишком похожими на реальные данные, объяснение станет чрезмерно зависимым от конкретного датасета и потеряет обобщающую способность .

Среди перспективных направлений защиты спикер выделяет:

Лакараджу считает, что в будущем ИИ должен не просто объяснять свои решения, но и предоставлять пути исправления (recourse) . Например, если банк отказал в кредите, алгоритм обязан четко указать, что именно человеку нужно изменить в своем профиле, чтобы получить одобрение в следующий раз. Это накладывает на разработчиков огромную ответственность и делает защиту от манипуляций приоритетом номер один для индустрии.

💬 Цитаты

«Объяснение, которое вводит в заблуждение относительно работы «черного ящика», может иметь серьезные последствия в реальном мире.»

Хима Лакараджу 12:50

«Люди подходят к объяснениям моделей с позиции априорного доверия, что делает их уязвимыми для манипуляций.»

Хима Лакараджу 19:08
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Black Box (Черный ящик)
Сложная модель ИИ (например, нейросеть), внутренняя логика которой непрозрачна для человека.
LIME
Популярный метод объяснения предсказаний моделей путем построения простых локальных аппроксимаций.
SHAP
Метод объяснения моделей ИИ, основанный на теории игр и значениях Шепли.
Recourse (Право на исправление)
Способность алгоритма объяснить пользователю, какие изменения необходимы для получения другого результата в будущем.
📊 Цифры
🗓 Хронология
  1. 2012 Хима Лакараджу переезжает в США для начала работы над докторской диссертацией.
  2. 2016 Появление фундаментальных работ по методам LIME и начало бума интерпретируемого ML.
  3. 2020 Участие Химы Лакараджу в воркшопе CVPR с докладом об уязвимостях систем объяснимости.
⚖️ Другая сторона
Искусственный интеллект Hima Lakkaraju LIME SHAP интерпретируемость ИИ адверсальные атаки