Хима Лакараджу о ловушках ИИ: как «честные» объяснения маскируют расовую дискриминацию

Безопасность систем искусственного интеллекта (ИИ) часто обсуждается в контексте защиты от взлома, однако существует критическая уязвимость в самом механизме их интерпретации. В новом выпуске подкаста TWIML AI специалист по машинному обучению и профессор Гарвардского университета Хима Лакараджу совместно с ведущим Сэмом Черрингтоном обсуждают, почему популярные инструменты объяснимости ИИ легко обмануть и как это может привести к катастрофическим последствиям в юриспруденции и медицине.

⚖️ От рекомендаций рекламы к вопросам жизни и смерти 2:18

Хима Лакараджу начала свой путь в машинном обучении ещё в Индии, а в 2012 году переехала в США для получения докторской степени. По её словам, её всегда интересовали не просто алгоритмы, а их реальное применение . В сотрудничестве с экспертами по поведенческой экономике она переключилась с разработки рекламных рекомендаций на задачи «высоких ставок» (high-stakes domains), где ошибка алгоритма может стоить человеку свободы или здоровья .

Её работа сосредоточена на трех ключевых направлениях:

Интерпретируемость (Interpretableness): создание методов, которые объясняют сложные модели людям, не являющимся экспертами в ИИ (врачам, судьям, соцработникам) .
Справедливость (Fairness): обеспечение отсутствия дискриминационных предубеждений в алгоритмах по умолчанию.
Диагностика: разработка инструментов для выявления предвзятости как в ИИ, так и в человеческих решениях .

В дискуссии поднимается важный вопрос: стоит ли вообще использовать «черные ящики» (сложные, непрозрачные модели) в критических сферах? Сэм Черрингтон напоминает о позиции Синтии Рудин, которая утверждает, что для таких задач нужно строить только изначально понятные модели . Лакараджу частично согласна, но отмечает, что в реальности исследователи часто вынуждены работать с проприетарными моделями сторонних компаний или данными, которых недостаточно для обучения прозрачной модели с высокой точностью . В таких случаях объяснение «черного ящика» остается единственным выходом .

🎭 Иллюзия справедливости: как обмануть судью 10:37

Центральной темой беседы стало недавнее исследование Химы Лакараджу, представленное на воркшопе CVPR, о пределах объяснимости. Она утверждает, что современные алгоритмы объяснения, такие как LIME и SHAP, уязвимы для преднамеренных атак .

В качестве примера исследовательница приводит эксперимент со студентами юридических факультетов Гарварда и Коннектикута . Участникам предложили оценить модель ИИ, принимающую решения об освобождении под залог.

Первая группа видела реальную логику модели, которая открыто использовала такие параметры, как раса и пол. Менее 10% участников согласились бы внедрить такую систему в своем суде .
Вторая группа видела «объяснение» той же самой модели, где раса и пол были скрыты, но заменены коррелирующими признаками (например, почтовым индексом). Уровень доверия к такой модели подскочил до 80% .

Лакараджу подчеркивает, что люди склонны априори доверять вычислительным системам, считая их более объективными . Это позволяет манипуляторам создавать «обертки» над алгоритмами, которые выглядят честными, но сохраняют расовую или гендерную предвзятость.

🛠️ Техника атаки: как работают Adversarial Wrappers 21:55

Хима Лакараджу подробно описывает механизм атаки на популярный метод LIME. Принцип работы LIME (Local Interpretable Model-agnostic Explanations) заключается в том, что он берет конкретную точку данных, создает вокруг неё множество «возмущений» (модифицированных копий с небольшим шумом) и строит простую линейную модель, чтобы понять, какие признаки повлияли на прогноз .

Уязвимость кроется в том, что эти искусственно созданные точки (возмущения) часто выпадают из реального распределения данных — они выглядят «синтетическими» для нейросети .

Схема атаки:

Создается адверсальный классификатор (враждебная оболочка).
Модель определяет: является ли точка реальным данным или синтетическим возмущением от LIME .
На реальных данных модель ведет себя «грязно» (использует запрещенные признаки, например, расу).
Как только модель распознает запрос от LIME (синтетическую точку), она мгновенно переключается в режим «идеальной справедливости» .

В результате LIME выдает отчет о том, что модель абсолютно беспристрастна, в то время как на практике она продолжает дискриминировать людей. Сэм Черрингтон сравнил это с «дизельгейтом» Volkswagen, когда автомобили меняли показатели выбросов, распознавая ситуацию тестирования .

🏔️ Будущее надежного ИИ: компромиссы и обучение 35:42

Решение проблемы уязвимости объяснений не сводится к простому техническому патчу. Хима Лакараджу отмечает фундаментальный компромисс: если сделать возмущения LIME слишком похожими на реальные данные, объяснение станет чрезмерно зависимым от конкретного датасета и потеряет обобщающую способность .

Среди перспективных направлений защиты спикер выделяет:

Использование методов минимаксной оптимизации для минимизации максимальной ошибки на различных распределениях .
Обучение конечных пользователей (врачей и судей) основам корреляционного анализа. Короткий 10-минутный инструктаж о том, что отсутствие упоминания расы в отчете не гарантирует отсутствия расизма (из-за корреляции с почтовым индексом), значительно повышает критичность восприятия .

Лакараджу считает, что в будущем ИИ должен не просто объяснять свои решения, но и предоставлять пути исправления (recourse) . Например, если банк отказал в кредите, алгоритм обязан четко указать, что именно человеку нужно изменить в своем профиле, чтобы получить одобрение в следующий раз. Это накладывает на разработчиков огромную ответственность и делает защиту от манипуляций приоритетом номер один для индустрии.