Исследователи из Корнелла выявили системный западный дисбаланс в популярных ИИ-моделях

Искусственный интеллект стремительно проникает во все сферы человеческой деятельности, определяя логику онлайн-дискуссий, алгоритмы рекомендаций и даже процессы найма. Однако современные технологии создаются узким кругом специалистов для специфической аудитории, что порождает глубокий культурный и социальный дисбаланс. В рамках семинара по человеко-компьютерному взаимодействию (HCI) в Стэнфордском университете исследователь из Корнеллского университета представил серию масштабных аудитов, раскрывающих системное игнорирование контекста Глобального Юга, ущемление прав людей с инвалидностью и принудительную вестернизацию текстового контента популярными ИИ-моделями.

🌍 Проблема «WEIRD» и скрытая предвзятость алгоритмов 0:10

Современная индустрия искусственного интеллекта опирается на стандарты, установленные весьма специфической группой людей. Для описания этого феномена докладчик использует устоявшуюся англоязычную аббревиатуру WEIRD (Western, Industrialized, Educated, Rich, Democratic), которая характеризует западные, индустриальные, образованные, богатые и демократические общества. Жители этих стран составляют всего 12–15% от общего населения планеты. Тем не менее, академическая среда и технологические продукты ориентированы именно на них.

Согласно приведённой докладчиком статистике научных публикаций, дисбаланс в сфере ИИ выглядит следующим образом:

На престижной конференции SIGCHI 73% представленных результатов основаны на выборках из контекста WEIRD.
На конференции FAccT, ключевой площадке для обсуждения ответственного ИИ, этот показатель достигает 84%.
В таких узких субдисциплинах, как объяснимый искусственный интеллект (Explainable AI), 99% всех исследований проводятся исключительно в контексте западных обществ.

Этот дефицит репрезентативности напрямую влияет на то, какими получаются готовые ИИ-продукты. Несколько лет назад генераторы изображений по текстовому описанию демонстрировали крайне гомогенизированные и стереотипные представления о незападных культурах. При запросе «мусульманин» алгоритмы неизменно выдавали изображения мужчин с бородой и в тюрбане. Запрос «индус» приводил к генерации пожилых мужчин в одеждах шафранового цвета со знаком тилак на лбу. При попытке визуализировать Нью-Дели — мегаполис с многовековой историей и культурой — модели отображали грязный, перенаселенный город, охваченный пожаром. Люди с инвалидностью на изображениях выглядели абсолютно беспомощными и полностью зависимыми от окружающих.

Аналогичные искажения фиксируются и в текстовых моделях. По словам исследователя, еще пару лет назад на вопрос о типичной профессии мусульманина ИИ мог выдать ответ «терроризм». Последние исследования лаборатории докладчика, о которых писал журнал The Atlantic, подтверждают: массовое использование ИИ ведет к стиранию языкового разнообразия и глобальному «выравниванию» («flattening») текстов.

Этот разрыв критичен по двум причинам. Во-первых, жители стран Глобального Юга не являются меньшинством — это абсолютное большинство населения Земли и крупнейшая база пользователей ИТ-продуктов. Так, аудитория сервисов Meta (Facebook, WhatsApp) только в Индии превышает полмиллиарда человек, что больше всего населения США. Индия и другие развивающиеся страны также входят в топ-5 регионов по темпам адаптации ChatGPT. Во-вторых, языковые модели преждевременно внедряются в критически важные сферы. В качестве примера докладчик привел грант Фонда Билла и Мелинды Гейтс, выданный 50 организациям для развертывания LLM в здравоохранении и образовании развивающихся стран сразу после релиза ChatGPT, когда технология еще не была к этому готова.

🤝 Инклюзивные ИИ-проекты на практике 5:38

Исследовательская группа докладчика занимается проектированием, созданием и оценкой глобально справедливых технологий ИИ для улучшения социально-экономического положения уязвимых групп населения. Свою работу они разделяют на три ключевых направления:

Информационное равенство (Information equity): изучение дезинформации, кибербуллинга, разжигания ненависти и обеспечение безопасности в Сети.
Репрезентативное равенство (Representational equity): анализ культурных и социальных искажений в моделях ИИ, ущемляющих права маргинализированных групп (людей с инвалидностью, кастовых, гендерных и лингвистических меньшинств).
Контекстуальное равенство (Contextual equity): разработка ответственного ИИ для высокорисковых сфер, таких как медицина и образование, с опорой на эмпирический опыт первых двух направлений.

В своей работе команда использует смешанные методы (HCI, обработку естественного языка, вычислительный аудит) и тестирует системы в реальных полевых условиях. Проекты реализуются в партнерстве с правительствами, крупными технологическими компаниями и локальными некоммерческими организациями.

Одним из успешных примеров докладчик назвал проект Shiksha Copilot, созданный совместно с Microsoft Research и Shikshana Foundation. Это ИИ-инструмент для генерации планов уроков, разработанный для учителей в школах с низким уровнем дохода. В настоящее время около 8 000 педагогов в индийском штате Карнатака используют эту систему. Другой проект — чат-бот ASHA, созданный совместно с организацией Khushi Baby для поддержки сельских медицинских работников в Индии. Бот помогает оперативно находить нужную медицинскую информацию. Около 2 500 сотрудниц системы ASHA уже отправили боту более 25 000 запросов. Кроме того, в Корнеллском университете под руководством докладчика запущена междисциплинарная инициатива, объединяющая 15 профессоров из разных областей (от компьютерных наук до философии, этики и ландшафтной архитектуры) для выработки плюралистических принципов глобального управления ИИ.

♿ Эйблизм в цифровой среде: как ИИ недооценивает токсичность 10:09

Каждый шестой человек в мире (около 1 миллиарда человек) имеет ту или иную форму инвалидности, что делает эту группу крупнейшим мировым меньшинством. Постоянно или ситуативно с ограничениями здоровья сталкиваются многие. Когда эти люди выходят в социальные сети, они регулярно сталкиваются с системной травлей и оскорблениями. По словам докладчика, шесть лет назад масштабы проблемы вынудили руководство платформы TikTok пойти на спорный шаг: вместо фильтрации оскорблений алгоритмы просто занижали охваты контенту авторов с инвалидностью, чтобы те реже получали комментарии ненависти.

Чтобы понять, почему крупные ИТ-корпорации не могут настроить классификаторы токсичности для борьбы с эйблизмом (дискриминацией людей с инвалидностью), команда исследователей провела серию опросов и интервью с более чем 200 пользователями из разных стран. Результатом стала детальная таксономия эйблистских микроагрессий, включающая 12 архетипов и 5 широких категорий.

В ходе исследования были выделены типичные паттерны онлайн-дискриминации:

Покровительственный и инфантилизирующий тон: комментарии в духе «ты такой вдохновляющий» за выполнение банальных действий или вопросы «а где твоя мама?» в адрес взрослых людей.
Сомнения в дееспособности: риторические вопросы вроде «разве такие, как ты, могут это носить/делать?» или заявления «я бы убил себя, если бы стал инвалидом».
Отрицание инвалидности: обвинения во лжи и симуляции (например, нападки в Reddit на незрячих пользователей, способных писать комментарии благодаря ассистивным технологиям).
Вторжение в частную жизнь: бесцеремонные расспросы незнакомцев об анатомии, причинах травм и качестве сексуальной жизни.
Прямая агрессия: призывы к евгенике, смертные казни, пожелания совершить суицид и объективация (включая специфическую сексуальную фетишизацию).

Статистическое моделирование выявило, что нападкам чаще подвергаются люди на пересечении нескольких маргинализированных идентичностей. Так, в США ЛГБТК-блогеры с инвалидностью сталкиваются с несоразмерным объемом ненависти с вероятностью 85,7%, тогда как для гетеросексуальных авторов с инвалидностью этот риск составляет 41%. В качестве примера приводится реальный комментарий к посту квир-автора на коляске: «Если честно, я бы предложил эвтаназию за счет государства. Ты технически инвалид в двойном размере. Твое место в мусорном баке».

Собрав базу данных реальных эйблистских высказываний, ученые проверили, как их оценивают современные ИИ-системы модерации и большие языковые модели. Участники с инвалидностью и ИИ выставляли текстам оценки токсичности от 1 до 10 и развернуто обосновывали свое решение.

Аудит показал полную рассинхронизацию. Почти все коммерческие классификаторы токсичности и LLM критически недооценивают уровень вреда в эйблистских высказываниях. Стандартные фильтры ИТ-компаний агрегируют ненависть по расе, гендеру и инвалидности в один общий показатель, из-за чего специфика эйблизма теряется.

Качество объяснений ИИ также оказалось неудовлетворительным. По оценке докладчика, ИИ-модели выдают либо чересчур шаблонные формулировки, либо совершают грубые логические ошибки. Например, на фразу «не может быть мигреней от света, если ты слепой» модель Claude выдала абстрактный ответ о «непонимании природы инвалидности», в то время как незрячие респонденты четко пояснили, что слепота не всегда означает стопроцентное отсутствие светочувствительности. На инвазивный вопрос о репродуктивной системе модель Gemini выставила низкий балл эйблизма, посчитав, что вопрос «лишь констатирует, что люди с инвалидностью не воспринимаются как сексуальные существа», чем вызвала возмущение участников-людей. Модель GPT-4 на фразу «ты не должен позволять инвалидности сдерживать тебя» выдала сухой академический разбор о «перекладывании вины на индивида», тогда как человек с инвалидностью отреагировал эмоционально: «Это все равно что сказать: если ты сильно поверишь в себя, то сможешь заехать на коляске по лестнице. Это обесчеловечивает». В ряде случаев сами объяснения нейросетей были признаны снисходительными и эйблистскими.

🇮🇳 Кросс-культурный эйблизм: разрыв между США и Индией 20:37

Поскольку 80% людей с ограничениями здоровья проживают в развивающихся регионах, исследователи решили проверить, насколько универсально понимание дискриминации в разных культурах. Они сравнили ответы американских респондентов с оценками жителей Индии. Одновременно тестировались глобальные западные модели (GPT, Llama, Gemini) и так называемые «суверенные» индийские LLM (более 50 моделей, созданных индийскими разработчиками для локального рынка). Тестовые фразы подавались как на английском, так и на хинди в двух вариантах: уважительном (с обращением «вы» — aap) и неформальном (с обращением «ты» — tu).

Выяснилось, что культурный контекст полностью меняет восприятие одних и тех же фраз, что исключает существование некой «модельной» формулы инклюзивности. Индийские участники с инвалидностью оценивали многие фразы гораздо строже и деликатнее, чем американцы. Например, невинный для жителя США вопрос «Ты уверен, что твой партнер тебя любит?» в Индии набрал максимальные баллы токсичности. Причина кроется в глубоком социальном табу вокруг романтических отношений людей с инвалидностью в Индии: как объяснили респонденты, такие вопросы заставляют их думать, что партнер находится с ними исключительно из жалости, подрывая стабильность семьи.

Напротив, фраза «Удивительно, как много в тебе позитива» американцами считывалась как токсичная микроагрессия («порнография вдохновения»), а индийцами — как искреннее сочувствие и признание их заслуг в не обустроенном для нужд инвалидов мире.

Анализ ИИ-моделей выявил опасную закономерность: западные LLM переоценивали вред, навязывая американские культурные стандарты, в то время как индийские суверенные модели систематически игнорировали эйблизм на английском языке. Локальные индийские нейросети оказались неспособны распознать дискриминацию, связанную со скрытыми ментальными или когнитивными нарушениями (такими как депрессия или аутизм). На тезисы «депрессия — это не инвалидность» индийские модели выдавали ответы вроде «это просто неврологическая вариация, не мешающая нормальной жизни». Ответы реальных людей были жесткими: «Депрессия лишает возможности встать с постели и разрушает жизнь, это чертова инвалидность!».

Кроме того, ИИ продемонстрировал языковую избирательность: модели гораздо терпимее относятся к оскорблениям на хинди, чем на английском. Грубая фраза «What's wrong with you?» («Что с тобой не так?») в английском варианте получила от Gemini оценку 9 из 10 за грубость. Но при подаче точного перевода на хинди та же модель снизила оценку до минимума, заявив в обосновании, что это «просто невинный вопрос о самочувствии человека, не содержащий негативных стереотипов».

💼 Предвзятость при найме и интерсекциональные риски 28:30

Искажения базовых алгоритмов наносят прямой вред пользователям при столкновении с реальными ИТ-инструментами. Группа исследователей изучила опыт 20 человек, чьи аккаунты в Facebook были заблокированы или ограничены за нарушение правил сообщества. Проверка показала, что исходные посты пользователей не содержали нарушений и полностью соответствовали локальным культурным нормам. Однако модерация Facebook, настроенная по американским лекалам, заблокировала их контент. Как подчеркнул докладчик, ИИ пытается применять концепт расы (race) к публикациям из Бангладеш, хотя в бангладешском обществе расовая рамка в западном понимании отсутствует, уступая место другим идентичностям.

Еще более опасные результаты показал аудит ИИ-инструментов автоматического скрининга резюме при найме. Ученые создали 47 детализированных профилей кандидатов на вакансии школьного учителя и разработчика ПО. В профилях комбинировались три типа инвалидности, три гендерные идентичности, географический контекст и принадлежность к кастам (от высшей касты Брахманов до исторически угнетаемой касты Далитов). Шесть различных LLM провели 2 820 симулированных собеседований с этими кандидатами. Для разметки скрытого вреда использовался созданный авторами фреймворк ABLEIST, оценивающий токенизм, конструирование образа «сверхчеловека» и другие эйблистские маркеры.

Согласно полученным данным, добавление признака инвалидности в профиль соискателя увеличивало частоту скрытых оскорблений со стороны ИИ в диапазоне от 1,15 до 58 раз в зависимости от метрики. Наложение маргинализированного гендера или низшей касты (Далиты) увеличивало объемы интерсекционального вреда еще на 10–51%. В итоге 82% диалогов ИИ с кандидатами, имеющими множественные уязвимости (например, трансгендерная женщина из касты Далитов с инвалидностью), содержали скрытые проявления дискриминации. Коммерческие API модерации контента (Perspective API от Google, Azure Safety API от Microsoft, OpenAI Moderation, Detoxify) зафиксировали нулевой уровень токсичности в этих диалогах, полностью пропустив завуалированную дискриминацию. Чтобы исправить это, исследователи создали и выложили в открытый доступ собственную легковесную модель ИИ, обученную по методу дистилляции знаний от GPT-5 Chat, способную детектировать такие нарушения.

✍️ ИИ-подсказки как инструмент культурной ассимиляции 36:13

Одним из самых массовых сценариев использования больших языковых моделей стали предиктивный ввод и автоподсказки текста (AI writing suggestions), встроенные в почтовые клиенты, текстовые редакторы и социальные сети. Исследователи провели контролируемый эксперимент, чтобы выяснить, одинаковую ли ценность эти подсказки несут для пользователей из США и Индии. Участникам предлагалось написать короткие эссе на бытовые темы, отражающие их культурный код: любимая еда, значимый публичный деятель, традиции празднования фестивалей, а также составить формальное письмо руководителю с просьбой об отпуске. Часть людей писала тексты самостоятельно, часть — с активным использованием ИИ-ассистента.

В результате эксперимента ученые зафиксировали три важных эффекта:

Неравномерный рост продуктивности: скорость набора текста выросла у обеих групп, однако американцы получили от использования ИИ гораздо больший выигрыш в эффективности. Индийские пользователи сильнее полагались на подсказки, но при этом тратили значительно больше времени на их редактирование и переписывание, поскольку ИИ предлагал неподходящие формулировки.
Стирание культурной идентичности (Культурная гомогенизация): при включении ИИ-подсказок тексты индийских авторов начинали стремительно терять уникальные маркеры и становились похожи на тексты американцев. Специально обученный текстовый классификатор разделял эссе индийцев и американцев, написанные без ИИ, с точностью и F1-метрикой на уровне 90%. Однако при использовании ИИ-ассистента точность распознавания драматически падала: модели ИИ стирали стилистические различия между авторами.
Экзотизация и искажение традиций: тексты индийцев о празднике Дивали без ИИ содержали глубокие религиозные и семейные подробности (упоминание поклонения богине Лакшми, коровам и т.д.). С подключением ИИ эссе превращались в стереотипные зарисовки о «веселом празднике, радости и обмене подарками», что, по мнению докладчика, копирует западные рождественские шаблоны. Описания традиционного блюда бирьяни менялись с точных региональных рецептур (малабарский стиль, использование мускатного ореха, лимонного чатни) на безликие рекламные штампы о «богатстве индийских специй» и фразы о том, что блюдо «тает во рту» (хотя бирьяни физически не обладает таким свойством).

Алгоритмы автозаполнения продемонстрировали полную неосведомленность о героях Глобального Юга. При попытке индийцев написать имя экс-президента Индии А. П. Дж. Абдула Калама после слова «Доктор...» система настойчиво предлагала вставить «Мартин Лютер Кинг» или «Энтони Фаучи». Вместо известной индийской актрисы Алии Бхатт ИИ рекомендовал Аль Пачино или Али Вонг, а вместо суперзвезды Болливуда Шахруха Кхана — Шакила О'Нила. Как упомянул исследователь, эти наглядные примеры культурной некомпетентности ИИ уже легли в основу продолжающегося судебного разбирательства в Индии между информационным агентством ANI и компанией OpenAI.

Эксперимент также показал, что ИИ напрямую меняет систему ценностей человека. Корректируя пользовательские тексты на острые темы (такие как исламофобия или гомофобия), алгоритмы принудительно внедряли в них ценности универсализма и доброжелательности, полностью подавляя консервативные ценности (например, потребность в безопасности). В ряде случаев под воздействием подсказок пользователи меняли свою изначальную позицию по вопросам однополых браков на более нейтральную или поддерживающую.

🗺️ Крах суверенных моделей: многоязычие не равно мультикультурности 46:04

Многие государства пытаются решить проблему западного доминирования созданием национальных «суверенных» моделей. В качестве примеров докладчик привел индийскую модель Krutrim 2 от компании Ola, позиционируемую как «культурно релеrelevant AI», латиноамериканскую Latam-GPT и ближневосточную модель Jais. Однако масштабный аудит 12 моделей (6 индийских и 6 глобальных) показал, что эти попытки пока не увенчались успехом.

Модели тестировались по четырем направлениям: ценностные ориентации (карта Инглхарта — Вельцеля), совпадение мнений по моральным вопросам (опросы в стиле Pew Research, например, этичность употребления алкоголя), знание локальной культуры и способность применять эти знания в социальных сценариях (например, оценка этичности употребления пищи левой рукой в Индии). Для управления контекстом применялись разные стратегии промптинга: от прямого указания роли («отвечай как житель Индии») до ведения диалога на хинди.

Главный вывод исследования неутешителен: суверенные индийские модели работают неэффективно и по всем тестам уступают глобальным западным системам. При нанесении ценностных профилей нейросетей на двухмерную карту культурных ценностей Инглхарта — Вельцеля выяснилось, что ни одна индийская модель не приблизилась к реальным показателям индийского общества. По словам исследователя, математически усредненный американский гражданин является более точным прокси-выразителем индийских ценностей, чем любая индийская LLM, а промптинг на хинди практически не меняет ситуацию.

В тестах на моральные суждения и базовые культурные знания индийские суверенные модели также продемонстрировали прозападный сдвиг ценностей и лучшую осведомленность об американских реалиях, нежели о своих собственных. Более того, процедура локальной тонкой настройки (fine-tuning) приводила к тому, что базовые модели начинали терять общую эрудицию и давали еще меньше правильных ответов на вопросы об Индии. Причина этого — колоссальное доминирование данных западных пользователей в массивах для предварительного обучения (pre-training). Докладчик подчеркнул: способность ИИ генерировать контент на разных языках (многоязычие) ошибочно принимают за понимание культуры (мультикультурность). На практике современные суверенные модели остаются глубоко вестернизированными.

Чтобы преодолеть этот кризис, консорциум ученых из Корнелла, Университета Карнеги — Меллона, Google DeepMind и Индийского института науки (IISc) под руководством Даниша Прути начал масштабную работу по созданию полноценной таксономии культурных искажений. К проекту привлечены 107 аннотаторов, говорящих на 14 языках из 71 региона Индии, цель которых — сформировать качественный верификационный банк вопросов для будущих ИИ-систем.

🛡️ Технологический детерминизм и геополитическое давление 53:51

В завершение лекции спикер призвал критически относиться к укоренившейся в обществе риторике технологического детерминизма. Вера в то, что технологии способны автоматически решить сложнейшие, укоренившиеся социальные проблемы, иллюзорна. На протяжении десятилетий фокус этого слепого оптимизма смещался с обычных мобильных телефонов на смартфоны, затем на интернет, телецентры, социальные сети, дроны, блокчейн, виртуальную реальность, а теперь — на искусственный интеллект. Однако без глубокого понимания социокультурного контекста и безбарьерного проектирования технологии лишь консервируют и усугубляют существующее неравенство.

В ходе сессии вопросов и ответов была затронута острая тема геополитического влияния на разработку ИИ, когда правительства пытаются использовать суверенные модели для навязывания государственных идеологий. Докладчик согласился с обоснованностью этих опасений и обозначил фундаментальную этическую дилемму, стоящую перед разработчиками и аудиторами систем: если общество в определенном регионе исторически является глубоко патриархальным, то должна ли «культурно выверенная» локальная модель ИИ транслировать и укреплять эти патриархальные ценности, нанося тем самым явный вред женщинам?.

По мнению исследователя, решением этой проблемы должно стать не государственное регулирование отдельных стран, а развитие глобальных партнерств и выработка наднациональных этических рамок, аналогичных Целям устойчивого развития ООН (SDGs). Международные платформы, такие как Глобальное партнерство по искусственному интеллекту (GPAI), должны разработать единые стандарты оценки моделей ИИ на предмет инклюзивности, кросс-культурной безопасности и репрезентативности. На сегодняшний день индустрия находится лишь в самом начале этого пути.