Как законы о конфиденциальности мешают обучению непредвзятых нейросетей

The TWIML AI Podcast 511 41 мин 5 мин 10.07.2023
Главное

Развитие технологий компьютерного зрения обострило скрытое противоречие между защитой конфиденциальности данных и требованиями к справедливости алгоритмов. В новом выпуске подкаста The TWIML AI Podcast эксперт по правовым вопросам и этике ИИ Элис Сян подробно разбирает, почему современные юридические рамки мешают обучению непредвзятых нейросетей. По мнению исследовательницы, жесткие ограничения на сбор биометрии парадоксальным образом лишают инженеров инструментов борьбы с дискриминацией меньшинств.

⚖️ От «дикого запада» к корпоративной этике 0:00

Элис Сян совмещает в Sony Group две ключевые роли: руководителя исследовательской лаборатории по этике ИИ в Sony AI и глобального главы по управлению ИИ. Ее академический бэкграунд уникален для этой индустрии — она специалист в области права, статистики и экономики. Свой путь в сфере этики алгоритмов она начала около девяти лет назад, когда занималась разработкой своей первой коммерческой модели машинного обучения. В то время терминология вокруг непредвзятости, подотчетности и прозрачности (FAT) еще не устоялась, а самого понятия «алгоритмическая предвзятость» практически не существовало в научной литературе.

Сегодня Сян выстраивает комплаенс и образовательные инициативы во множестве разнородных подразделений Sony. Роль этики искусственного интеллекта в компании напрямую связана с ее глобальной миссией — наполнять мир эмоциями и расширять возможности человеческого творчества.

Однако специфика подразделений сильно различается:

Каждый из этих доменов пересекается с технологиями искусственного интеллекта уникальным образом, сталкиваясь со специфическими этическими вызовами и уровнями рисков.

🏛️ Правовой разрыв: почему антидискриминационные законы мешают ИИ 4:39

По словам Элис Сян, междисциплинарный подход критически важен, поскольку чисто технические решения проблем предвзятости часто натыкаются на непреодолимые юридические барьеры. В своей научной работе «Примирение правовых и технических подходов к алгоритмической предвзятости» (Reconciling legal and technical approaches to algorithmic bias) она подробно описала эволюцию антидискриминационного законодательства США. Исторически оно опиралось на доктрину против субординации (anti-subordination), нацеленную на активный демонтаж существующих социальных иерархий. Однако со временем Верховный суд США сместился в сторону доктрины антиклассификации (anti-classification), пропагандирующей принцип расовой и гендерной «слепоты» правовых норм.

Этот юридический сдвиг порождает фундаментальный конфликт с методами ИИ-разработки. Американские суды крайне негативно относятся к любым программам позитивной дискриминации (affirmative action), которые включают формализованный, количественный учет преимуществ для тех или иных групп населения. При этом в сфере компьютерного зрения и машинного обучения действовать без точных количественных метрик невозможно. Большинство академических методов борьбы с предвзятостью алгоритмов сводятся к внедрению систем баллов, квот или жесткой перебалансировке результатов работы моделей.

Гостья подчеркивает, что единственный способ исправить смещение в эмпирических данных — это открыто зафиксировать существующие перекосы. Для этого разработчикам необходим прямой доступ к конфиденциальным демографическим характеристикам пользователей, что напрямую противоречит современным трендам правовой защиты приватности.

👁️ Дилемма компьютерного зрения: быть невидимым или искаженным 10:07

В докладе для конференции CVPR, основанном на исследовании «Быть увиденным против быть неверно увиденным» (Being seen versus mis-seen), Сян обращает внимание на глубокое противоречие между защитой частной жизни и концепцией справедливости в компьютерном зрении. Практики в индустрии постоянно сталкиваются с дефицитом качественных, этично собранных и репрезентативных данных. Еще в 2018 году авторы знаменитого исследования Gender Shades наглядно доказали, что некорректная работа алгоритмов распознавания лиц в отношении женщин и расовых меньшинств напрямую вызвана отсутствием их репрезентации в обучающих выборках. Почти все базовые датасеты в компьютерном зрении исторически перекошены в сторону белых мужчин. Спустя пять лет ситуация, по оценке гостьи, остается довольно безрадостной: новых крупных стандартизированных наборов данных, решающих эту проблему, на рынке так и не появилось.

Эта диспропорция создает опасную правовую асимметрию:

В результате компании предпочитают полностью оптимизировать процессы под требования приватности, отбрасывая задачи обеспечения расового или гендерного разнообразия систем на второй план.

🚗 Беспилотники на дорогах и кризис реалистичных данных 19:37

Концепция «согласия пользователя» (opt-in), продвигаемая многими правозащитниками, часто оказывается нереализуемой в условиях реального физического мира. Ярким примером здесь выступают беспилотные автомобили, которым критически важно безошибочно распознавать пешеходов любых рас и телосложений на дорогах. Чтобы обучить такую модель, инженерам необходимы огромные массивы естественных, спонтанных уличных съемок. Очевидно, что беспилотник не может останавливаться перед каждым прохожим, чтобы подписать у него отказ от претензий и выплатить компенсацию — это полностью разрушило бы реализм собираемых данных, превратив обычных людей в позирующих актеров.

Из-за жестких различий в законодательстве о приватности в разных регионах мира возникает географический перекос. Как утверждает Сян, ИИ-компании предпочитают собирать визуальные данные в тех юрисдикциях, где регуляторные требования мягче. Это рождает новую несправедливость, поскольку одни регионы и этносы оказываются избыточно представленными в глобальных ИИ-моделях, а другие — полностью исключенными из процесса обучения.

🛡️ Обучение базовых моделей против тотальной слежки 26:22

Чтобы преодолеть «приватный нигилизм», Элис Сян предлагает регуляторам и разработчикам четко разграничивать типы использования данных. Существует принципиальная разница между простым поглощением (ingestion) изображений для тренировки фундаментальных моделей и созданием референтных наборов (reference sets) для идентификации лиц. Когда нейросеть обучается на миллионах картинок из интернета распознавать базовые категории объектов и типы человеческих лиц, она не создает прямой угрозы слежки за конкретным человеком.

Настоящие риски для конфиденциальности, по мнению эксперта, начинаются на этапе развертывания систем, когда изображение конкретного гражданина привязывается к его имени и паспорту в государственной или коммерческой базе данных (например, базе водительских удостоверений) для трекинга. Сян уверена, что регуляторные барьеры должны быть максимально жесткими именно в точках соприкосновения с референтными базами данных, тогда как для процессов общего неперсонифицированного обучения базовых моделей правила сбора данных ради общественной справедливости ИИ могут быть более гибкими. К сожалению, готовящиеся нормативные акты, такие как Европейский закон об ИИ (EU AI Act), просто накладывают новые слои обязательств поверх старых законов, игнорируя этот системный конфликт.

🧬 Оценка разнообразия без демографических меток 36:10

Пока законодатели ищут компромиссы, исследовательская группа Sony AI разрабатывает технические методы, позволяющие оценивать разнообразие датасетов в обход сбора чувствительных демографических меток. На недавней конференции ICLR команда представила работу, посвященную вычислению метрик сходства и разнообразия человеческих лиц на основе субъективного восприятия.

Инженеры отказались от классического аннотирования расы или гендера. Вместо этого они обучили модель на базе человеческих суждений о сходстве, предъявляя разметчикам тройки (триплеты) фотографий разных людей с единственным вопросом: «Кто из этих троих наименее похож на двух других?». Люди выносили вердикты, не пытаясь классифицировать кого-то по расовому или национальному признаку. В результате исследователи получили алгоритм, способный присваивать большим массивам неразмеченных картинок индекс разнообразия исключительно по визуальным различиям лиц, что позволяет валидировать сбалансированность обучающих выборок без нарушения жестких законов о защите персональных данных.

💬 Цитаты

«В сфере защиты приватности право наказывает за то, что человека «видят», но у нас нет защиты от того, что его «видят неверно».»

«Если у вас нет меток демографических признаков людей, как вы ответите на вопрос, разнообразен ли ваш датасет?»

👥 Спикеры
📖 Термины
Алгоритмическая справедливость (Algorithmic fairness)
Область исследований ИИ, направленная на выявление и минимизацию дискриминации и системных искажений в работе моделей.
Антиклассификация (Anti-classification)
Правовой подход, требующий абсолютного игнорирования защищаемых признаков (раса, гендер) при принятии решений.
Референтный набор (Reference set)
База данных идентифицированных пользователей, с которой сопоставляются биометрические данные при развертывании ИИ.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Элис Сян Sony AI The TWIML AI Podcast компьютерное зрение алгоритмическая справедливость