Развитие технологий компьютерного зрения обострило скрытое противоречие между защитой конфиденциальности данных и требованиями к справедливости алгоритмов. В новом выпуске подкаста The TWIML AI Podcast эксперт по правовым вопросам и этике ИИ Элис Сян подробно разбирает, почему современные юридические рамки мешают обучению непредвзятых нейросетей. По мнению исследовательницы, жесткие ограничения на сбор биометрии парадоксальным образом лишают инженеров инструментов борьбы с дискриминацией меньшинств.
⚖️ От «дикого запада» к корпоративной этике 0:00
Элис Сян совмещает в Sony Group две ключевые роли: руководителя исследовательской лаборатории по этике ИИ в Sony AI и глобального главы по управлению ИИ. Ее академический бэкграунд уникален для этой индустрии — она специалист в области права, статистики и экономики. Свой путь в сфере этики алгоритмов она начала около девяти лет назад, когда занималась разработкой своей первой коммерческой модели машинного обучения. В то время терминология вокруг непредвзятости, подотчетности и прозрачности (FAT) еще не устоялась, а самого понятия «алгоритмическая предвзятость» практически не существовало в научной литературе.
Сегодня Сян выстраивает комплаенс и образовательные инициативы во множестве разнородных подразделений Sony. Роль этики искусственного интеллекта в компании напрямую связана с ее глобальной миссией — наполнять мир эмоциями и расширять возможности человеческого творчества.
Однако специфика подразделений сильно различается:
- Производство потребительской электроники (камеры, наушники, робототехника).
- Индустрия развлечений (музыкальные лейблы и кинокомпания Sony Pictures Entertainment).
- Игровой сектор (экосистема PlayStation).
- Крупные финансовые структуры, оперирующие на рынке Японии.
Каждый из этих доменов пересекается с технологиями искусственного интеллекта уникальным образом, сталкиваясь со специфическими этическими вызовами и уровнями рисков.
🏛️ Правовой разрыв: почему антидискриминационные законы мешают ИИ 4:39
По словам Элис Сян, междисциплинарный подход критически важен, поскольку чисто технические решения проблем предвзятости часто натыкаются на непреодолимые юридические барьеры. В своей научной работе «Примирение правовых и технических подходов к алгоритмической предвзятости» (Reconciling legal and technical approaches to algorithmic bias) она подробно описала эволюцию антидискриминационного законодательства США. Исторически оно опиралось на доктрину против субординации (anti-subordination), нацеленную на активный демонтаж существующих социальных иерархий. Однако со временем Верховный суд США сместился в сторону доктрины антиклассификации (anti-classification), пропагандирующей принцип расовой и гендерной «слепоты» правовых норм.
Этот юридический сдвиг порождает фундаментальный конфликт с методами ИИ-разработки. Американские суды крайне негативно относятся к любым программам позитивной дискриминации (affirmative action), которые включают формализованный, количественный учет преимуществ для тех или иных групп населения. При этом в сфере компьютерного зрения и машинного обучения действовать без точных количественных метрик невозможно. Большинство академических методов борьбы с предвзятостью алгоритмов сводятся к внедрению систем баллов, квот или жесткой перебалансировке результатов работы моделей.
Гостья подчеркивает, что единственный способ исправить смещение в эмпирических данных — это открыто зафиксировать существующие перекосы. Для этого разработчикам необходим прямой доступ к конфиденциальным демографическим характеристикам пользователей, что напрямую противоречит современным трендам правовой защиты приватности.
👁️ Дилемма компьютерного зрения: быть невидимым или искаженным 10:07
В докладе для конференции CVPR, основанном на исследовании «Быть увиденным против быть неверно увиденным» (Being seen versus mis-seen), Сян обращает внимание на глубокое противоречие между защитой частной жизни и концепцией справедливости в компьютерном зрении. Практики в индустрии постоянно сталкиваются с дефицитом качественных, этично собранных и репрезентативных данных. Еще в 2018 году авторы знаменитого исследования Gender Shades наглядно доказали, что некорректная работа алгоритмов распознавания лиц в отношении женщин и расовых меньшинств напрямую вызвана отсутствием их репрезентации в обучающих выборках. Почти все базовые датасеты в компьютерном зрении исторически перекошены в сторону белых мужчин. Спустя пять лет ситуация, по оценке гостьи, остается довольно безрадостной: новых крупных стандартизированных наборов данных, решающих эту проблему, на рынке так и не появилось.
Эта диспропорция создает опасную правовую асимметрию:
- Защита от невидимости (unseen) — законы о конфиденциальности жестко карают за сбор данных без явного согласия, поощряя стремление людей оставаться скрытыми.
- Защита от искажения (mis-seen) — механизмы ответственности за ложные аресты, некорректную идентификацию или дискриминационные выводы ИИ до сих пор практически не развиты.
В результате компании предпочитают полностью оптимизировать процессы под требования приватности, отбрасывая задачи обеспечения расового или гендерного разнообразия систем на второй план.
🚗 Беспилотники на дорогах и кризис реалистичных данных 19:37
Концепция «согласия пользователя» (opt-in), продвигаемая многими правозащитниками, часто оказывается нереализуемой в условиях реального физического мира. Ярким примером здесь выступают беспилотные автомобили, которым критически важно безошибочно распознавать пешеходов любых рас и телосложений на дорогах. Чтобы обучить такую модель, инженерам необходимы огромные массивы естественных, спонтанных уличных съемок. Очевидно, что беспилотник не может останавливаться перед каждым прохожим, чтобы подписать у него отказ от претензий и выплатить компенсацию — это полностью разрушило бы реализм собираемых данных, превратив обычных людей в позирующих актеров.
Из-за жестких различий в законодательстве о приватности в разных регионах мира возникает географический перекос. Как утверждает Сян, ИИ-компании предпочитают собирать визуальные данные в тех юрисдикциях, где регуляторные требования мягче. Это рождает новую несправедливость, поскольку одни регионы и этносы оказываются избыточно представленными в глобальных ИИ-моделях, а другие — полностью исключенными из процесса обучения.
🛡️ Обучение базовых моделей против тотальной слежки 26:22
Чтобы преодолеть «приватный нигилизм», Элис Сян предлагает регуляторам и разработчикам четко разграничивать типы использования данных. Существует принципиальная разница между простым поглощением (ingestion) изображений для тренировки фундаментальных моделей и созданием референтных наборов (reference sets) для идентификации лиц. Когда нейросеть обучается на миллионах картинок из интернета распознавать базовые категории объектов и типы человеческих лиц, она не создает прямой угрозы слежки за конкретным человеком.
Настоящие риски для конфиденциальности, по мнению эксперта, начинаются на этапе развертывания систем, когда изображение конкретного гражданина привязывается к его имени и паспорту в государственной или коммерческой базе данных (например, базе водительских удостоверений) для трекинга. Сян уверена, что регуляторные барьеры должны быть максимально жесткими именно в точках соприкосновения с референтными базами данных, тогда как для процессов общего неперсонифицированного обучения базовых моделей правила сбора данных ради общественной справедливости ИИ могут быть более гибкими. К сожалению, готовящиеся нормативные акты, такие как Европейский закон об ИИ (EU AI Act), просто накладывают новые слои обязательств поверх старых законов, игнорируя этот системный конфликт.
🧬 Оценка разнообразия без демографических меток 36:10
Пока законодатели ищут компромиссы, исследовательская группа Sony AI разрабатывает технические методы, позволяющие оценивать разнообразие датасетов в обход сбора чувствительных демографических меток. На недавней конференции ICLR команда представила работу, посвященную вычислению метрик сходства и разнообразия человеческих лиц на основе субъективного восприятия.
Инженеры отказались от классического аннотирования расы или гендера. Вместо этого они обучили модель на базе человеческих суждений о сходстве, предъявляя разметчикам тройки (триплеты) фотографий разных людей с единственным вопросом: «Кто из этих троих наименее похож на двух других?». Люди выносили вердикты, не пытаясь классифицировать кого-то по расовому или национальному признаку. В результате исследователи получили алгоритм, способный присваивать большим массивам неразмеченных картинок индекс разнообразия исключительно по визуальным различиям лиц, что позволяет валидировать сбалансированность обучающих выборок без нарушения жестких законов о защите персональных данных.