# Хима Лакараджу о ловушках ИИ: как «честные» объяснения маскируют расовую дискриминацию

Источник: https://www.youtube.com/watch?v=kjWjcuzbZEM
Канал: The TWIML AI Podcast
Опубликовано: 29.06.2020

---

Безопасность систем искусственного интеллекта (ИИ) часто обсуждается в контексте защиты от взлома, однако существует критическая уязвимость в самом механизме их интерпретации. В новом выпуске подкаста TWIML AI специалист по машинному обучению и профессор Гарвардского университета **Хима Лакараджу** совместно с ведущим **Сэмом Черрингтоном** обсуждают, почему популярные инструменты объяснимости ИИ легко обмануть и как это может привести к катастрофическим последствиям в юриспруденции и медицине.

## ⚖️ От рекомендаций рекламы к вопросам жизни и смерти
[[JUMP:02:18]]

Хима Лакараджу начала свой путь в машинном обучении ещё в Индии, а в 2012 году переехала в США для получения докторской степени. По её словам, её всегда интересовали не просто алгоритмы, а их реальное применение [03:03]. В сотрудничестве с экспертами по поведенческой экономике она переключилась с разработки рекламных рекомендаций на задачи «высоких ставок» (high-stakes domains), где ошибка алгоритма может стоить человеку свободы или здоровья [03:58].

Её работа сосредоточена на трех ключевых направлениях:

1.  **Интерпретируемость (Interpretableness):** создание методов, которые объясняют сложные модели людям, не являющимся экспертами в ИИ (врачам, судьям, соцработникам) [05:22].
2.  **Справедливость (Fairness):** обеспечение отсутствия дискриминационных предубеждений в алгоритмах по умолчанию.
3.  **Диагностика:** разработка инструментов для выявления предвзятости как в ИИ, так и в человеческих решениях [06:15].

В дискуссии поднимается важный вопрос: стоит ли вообще использовать «черные ящики» (сложные, непрозрачные модели) в критических сферах? Сэм Черрингтон напоминает о позиции Синтии Рудин, которая утверждает, что для таких задач нужно строить только изначально понятные модели [06:54]. Лакараджу частично согласна, но отмечает, что в реальности исследователи часто вынуждены работать с проприетарными моделями сторонних компаний или данными, которых недостаточно для обучения прозрачной модели с высокой точностью [08:11]. В таких случаях объяснение «черного ящика» остается единственным выходом [09:17].

## 🎭 Иллюзия справедливости: как обмануть судью
[[JUMP:10:37]]

Центральной темой беседы стало недавнее исследование Химы Лакараджу, представленное на воркшопе CVPR, о пределах объяснимости. Она утверждает, что современные алгоритмы объяснения, такие как LIME и SHAP, уязвимы для преднамеренных атак [10:24].

В качестве примера исследовательница приводит эксперимент со студентами юридических факультетов Гарварда и Коннектикута [15:11]. Участникам предложили оценить модель ИИ, принимающую решения об освобождении под залог.

*   **Первая группа** видела реальную логику модели, которая открыто использовала такие параметры, как раса и пол. Менее 10% участников согласились бы внедрить такую систему в своем суде [17:09].
*   **Вторая группа** видела «объяснение» той же самой модели, где раса и пол были скрыты, но заменены коррелирующими признаками (например, почтовым индексом). Уровень доверия к такой модели подскочил до 80% [18:01].

Лакараджу подчеркивает, что люди склонны априори доверять вычислительным системам, считая их более объективными [18:56]. Это позволяет манипуляторам создавать «обертки» над алгоритмами, которые выглядят честными, но сохраняют расовую или гендерную предвзятость.

## 🛠️ Техника атаки: как работают Adversarial Wrappers
[[JUMP:21:55]]

Хима Лакараджу подробно описывает механизм атаки на популярный метод LIME. Принцип работы LIME (Local Interpretable Model-agnostic Explanations) заключается в том, что он берет конкретную точку данных, создает вокруг неё множество «возмущений» (модифицированных копий с небольшим шумом) и строит простую линейную модель, чтобы понять, какие признаки повлияли на прогноз [29:07].

Уязвимость кроется в том, что эти искусственно созданные точки (возмущения) часто выпадают из реального распределения данных — они выглядят «синтетическими» для нейросети [31:22]. 

Схема атаки:

1.  Создается **адверсальный классификатор** (враждебная оболочка).
2.  Модель определяет: является ли точка реальным данным или синтетическим возмущением от LIME [32:28].
3.  На реальных данных модель ведет себя «грязно» (использует запрещенные признаки, например, расу).
4.  Как только модель распознает запрос от LIME (синтетическую точку), она мгновенно переключается в режим «идеальной справедливости» [33:07].

В результате LIME выдает отчет о том, что модель абсолютно беспристрастна, в то время как на практике она продолжает дискриминировать людей. Сэм Черрингтон сравнил это с «дизельгейтом» Volkswagen, когда автомобили меняли показатели выбросов, распознавая ситуацию тестирования [34:42].

## 🏔️ Будущее надежного ИИ: компромиссы и обучение
[[JUMP:35:42]]

Решение проблемы уязвимости объяснений не сводится к простому техническому патчу. Хима Лакараджу отмечает фундаментальный компромисс: если сделать возмущения LIME слишком похожими на реальные данные, объяснение станет чрезмерно зависимым от конкретного датасета и потеряет обобщающую способность [37:06].

Среди перспективных направлений защиты спикер выделяет:

*   Использование методов минимаксной оптимизации для минимизации максимальной ошибки на различных распределениях [41:08].
*   Обучение конечных пользователей (врачей и судей) основам корреляционного анализа. Короткий 10-минутный инструктаж о том, что отсутствие упоминания расы в отчете не гарантирует отсутствия расизма (из-за корреляции с почтовым индексом), значительно повышает критичность восприятия [20:15].

Лакараджу считает, что в будущем ИИ должен не просто объяснять свои решения, но и предоставлять **пути исправления** (recourse) [42:17]. Например, если банк отказал в кредите, алгоритм обязан четко указать, что именно человеку нужно изменить в своем профиле, чтобы получить одобрение в следующий раз. Это накладывает на разработчиков огромную ответственность и делает защиту от манипуляций приоритетом номер один для индустрии.