Санни Рай о культурных нормах: как ИИ изучает стыд в Голливуде и Болливуде

Как культурные коды и социальные нормы программируют наше восприятие правильного и неправильного, и можно ли научить искусственный интеллект считывать эти негласные правила? В свежем выпуске подкаста Conversations with Tyler исследовательница в области компьютерных наук Санни Рай (Sunny Rai) представила уникальное исследование, в котором с помощью больших языковых моделей были проанализированы субтитры тысяч фильмов. Работа позволяет наглядно увидеть, как Голливуд и Болливуд по-разному транслируют концепции стыда, гордости и гендерных ролей.

📊 Масштабный анализ кинематографа с помощью больших языковых моделей 1:49

В центре дискуссии Тайлера Коуэна (Tyler Cowen) и Санни Рай оказалось уникальное исследование, охватившее огромный массив данных: соавторы работы изучили субтитры к более чем 5000 фильмов Болливуда и Голливуда. Целью работы стало квантифицирование кросс-культурных различий в изображении социальных эмоций — стыда (shame) и гордости (pride). Объединив методы поведенческих наук, психологии и возможности современных LLM, исследователи смогли детально проанализировать, кто именно испытывает эти эмоции, на кого они направлены и какие действия за собой влекут.

Главный вывод исследования подтвердил интуитивные ожидания: в болливудских картинах персонажи говорят о стыде значительно чаще, чем в американском кино. Однако ключевая ценность работы заключается в обнаружении качественных различий в механизмах работы этих эмоций в разных культурах.

🤫 Внутренний комплаенс против коллективного контроля: природа стыда 6:00

Для анализа транскриптов команда ученых разработала комплексную методологию, состоящую из двух дополняющих друг друга подходов:

Метод лингвистического анализа (Vocabulary method) с использованием специализированного словаря LIWC (Linguistic Inquiry and Word Count). Этот инструмент группирует слова по когнитивным категориям. С его помощью ученые считали частоту использования местоимений в контексте упоминания стыда.
Метод промптинга (Prompting method) с использованием мощной языковой модели GPT-4, которая анализировала окружающий диалог и определяла глубинную причину возникновения эмоции.

Благодаря LIWC удалось выяснить, что в Голливуде стыд тесно коррелирует с местоимениями первого лица («я», «мне»), а также с тревожностью и чувством вины. По словам Санни Рай, в западной культуре стыд сфокусирован на самом человеке: он возникает, когда индивид понимает, что нарушил свои этические принципы, проявил нечестность или некомпетентность. Это инструмент саморегуляции.

Напротив, в Болливуде маркеры стыда демонстрируют высокую связь с местоимениями второго лица («ты», «вы»), выражением гнева и социальными референсами (в первую очередь, упоминаниями семьи). В индийском кинематографе стыд работает как внешний регуляторный компонент, который общество использует для контроля над поведением отдельного человека. Индия представляет собой интерзависимую (взаимосвязанную) культуру: поступки детей напрямую влияют на честь родителей, и наоборот.

🎬 Стереотипы и гендерный баланс: от «Кабира Сингха» до «Разоблачения» 7:08

Как отмечает Санни Рай, в Болливуде трансляция стыда носит ярко выраженный гендерный характер и тесно переплетена с концепциями семейной чести и подчинения старшим. Исследовательница привела в пример несколько знаковых картин:

«Кабир Сингх» (Kabir Singh): В одной из сцен отец главной героини называет её «бесстыжей» только за то, что она познакомила семью со своим парнем, заявляя, что право выбора мужа принадлежит исключительно отцу.
«Дорогая Зиндаги» (Dear Zindagi): Фильм демонстрирует более тонкие нюансы — то, как близкие родственники стыдятся обсуждать ментальные проблемы и саму возможность обращения к психотерапевту.
«Пушпа 2» (Pushpa 2): Свежий блокбастер, по мнению Рай, является огромным источником социальных норм: главного героя постоянно стыдят за отсутствие имени отца, а женщин по-прежнему упрекают за то, что они подверглись насилию.

В американских же фильмах, как утверждает гостья подкаста, женщин чаще всего стыдят за «социальную распущенность» (promiscuity) или несоответствие внешним стандартам и этикету, в то время как мужчин могут подвергнуть порицанию за нежелание брать на себя ответственность (например, если мужчина не перезвонил после свидания) или продажу некачественных товаров.

⚠️ Трудности перевода и ограничения текстового анализа 17:28

В ходе беседы Тайлер Коуэн поднял важную методологическую проблему: кино — это прежде всего визуальное искусство. Исключительная опора на текстовые субтитры неизбежно создает искажения, ведь актеры могут выражать презрение или стыд мимикой, взглядом или языком тела, что полностью ускользает от текстовых моделей.

Санни Рай согласилась с этим ограничением и выделила несколько сопутствующих вызовов:

Дефицит сценариев: Идеальным решением было бы использование полноценных киносценариев с режиссерскими ремарками, но в открытом доступе их крайне мало, а для старых индийских фильмов их зачастую не существует в принципе.
Ошибки автогенерации субтитров: Автоматический перевод часто искажает смысл. Ведущий привел в пример курьезный случай из фильма «Восстание: Баллада о Мангале Пандеи» (Mangal Pandey: The Rising), где патриотический призыв «Мангал, Мангал!» (имя героя) машина перевела как «Вторник, Вторник, Вторник!».
Игнорирование песен: Песни в Болливуде метафоричны и несут огромную нормативную нагрузку (например, классическая «Laga Chunari Mein Daag»), но в текущем исследовании они были исключены из анализа из-за сложности обработки креативного текста.
Неявные санкции: Текстовый поиск по ключевым словам упускает контексты, где порицание выражается действием (например, домашним насилием) или демонстративным молчанием, как это показано на примере немого страдания вдовы Радхи в культовом фильме «Месть и закон» (Sholay).

Чтобы избежать ошибок и «вторников» вместо имен, авторам исследования пришлось вручную перепроверять случайные выборки данных.

🤖 Этика данных и культурное выравнивание искусственного интеллекта 29:27

Разрабатываемый Санни Рай метод имеет важнейшее практическое значение. В данный момент команда Всемирного банка (World Bank) внедряет этот подход для автоматического выявления вредных гендерных стереотипов в коротких видеороликах и фильмах, ориентированных на женщин и девочек в развивающихся странах.

С другой стороны, исследование поднимает фундаментальный вопрос безопасности и выравнивания (alignment) самих LLM. Современные коммерческие ИИ-модели обучаются преимущественно на западных данных. Как следствие, они по умолчанию транслируют западные ценности: приоритет индивидуального благополучия, личной карьеры и заботы о себе.

Однако, как подчеркивает Санни Рай, такие модели оказываются слепы к культурным нюансам других обществ, где от человека ожидают самопожертвования ради семьи или отказа от собственного счастья ради благополучия близких (классический троп болливудских любовных треугольников). Исследовательница призвала разработчиков ИИ внимательно анализировать данные, на которых обучаются нейросети, чтобы они случайно не перенимали и не усиливали укоренившиеся социальные перекосы и дискриминацию в отношении уязвимых слоев населения.