Санни Рай о культурных нормах: как ИИ изучает стыд в Голливуде и Болливуде

Conversations with Tyler 267 37 мин 5 мин 25.09.2025
Главное

Как культурные коды и социальные нормы программируют наше восприятие правильного и неправильного, и можно ли научить искусственный интеллект считывать эти негласные правила? В свежем выпуске подкаста Conversations with Tyler исследовательница в области компьютерных наук Санни Рай (Sunny Rai) представила уникальное исследование, в котором с помощью больших языковых моделей были проанализированы субтитры тысяч фильмов. Работа позволяет наглядно увидеть, как Голливуд и Болливуд по-разному транслируют концепции стыда, гордости и гендерных ролей.

📊 Масштабный анализ кинематографа с помощью больших языковых моделей 1:49

В центре дискуссии Тайлера Коуэна (Tyler Cowen) и Санни Рай оказалось уникальное исследование, охватившее огромный массив данных: соавторы работы изучили субтитры к более чем 5000 фильмов Болливуда и Голливуда. Целью работы стало квантифицирование кросс-культурных различий в изображении социальных эмоций — стыда (shame) и гордости (pride). Объединив методы поведенческих наук, психологии и возможности современных LLM, исследователи смогли детально проанализировать, кто именно испытывает эти эмоции, на кого они направлены и какие действия за собой влекут.

Главный вывод исследования подтвердил интуитивные ожидания: в болливудских картинах персонажи говорят о стыде значительно чаще, чем в американском кино. Однако ключевая ценность работы заключается в обнаружении качественных различий в механизмах работы этих эмоций в разных культурах.

🤫 Внутренний комплаенс против коллективного контроля: природа стыда 6:00

Для анализа транскриптов команда ученых разработала комплексную методологию, состоящую из двух дополняющих друг друга подходов:

  1. Метод лингвистического анализа (Vocabulary method) с использованием специализированного словаря LIWC (Linguistic Inquiry and Word Count). Этот инструмент группирует слова по когнитивным категориям. С его помощью ученые считали частоту использования местоимений в контексте упоминания стыда.
  2. Метод промптинга (Prompting method) с использованием мощной языковой модели GPT-4, которая анализировала окружающий диалог и определяла глубинную причину возникновения эмоции.

Благодаря LIWC удалось выяснить, что в Голливуде стыд тесно коррелирует с местоимениями первого лица («я», «мне»), а также с тревожностью и чувством вины. По словам Санни Рай, в западной культуре стыд сфокусирован на самом человеке: он возникает, когда индивид понимает, что нарушил свои этические принципы, проявил нечестность или некомпетентность. Это инструмент саморегуляции.

Напротив, в Болливуде маркеры стыда демонстрируют высокую связь с местоимениями второго лица («ты», «вы»), выражением гнева и социальными референсами (в первую очередь, упоминаниями семьи). В индийском кинематографе стыд работает как внешний регуляторный компонент, который общество использует для контроля над поведением отдельного человека. Индия представляет собой интерзависимую (взаимосвязанную) культуру: поступки детей напрямую влияют на честь родителей, и наоборот.

🎬 Стереотипы и гендерный баланс: от «Кабира Сингха» до «Разоблачения» 7:08

Как отмечает Санни Рай, в Болливуде трансляция стыда носит ярко выраженный гендерный характер и тесно переплетена с концепциями семейной чести и подчинения старшим. Исследовательница привела в пример несколько знаковых картин:

В американских же фильмах, как утверждает гостья подкаста, женщин чаще всего стыдят за «социальную распущенность» (promiscuity) или несоответствие внешним стандартам и этикету, в то время как мужчин могут подвергнуть порицанию за нежелание брать на себя ответственность (например, если мужчина не перезвонил после свидания) или продажу некачественных товаров.

⚠️ Трудности перевода и ограничения текстового анализа 17:28

В ходе беседы Тайлер Коуэн поднял важную методологическую проблему: кино — это прежде всего визуальное искусство. Исключительная опора на текстовые субтитры неизбежно создает искажения, ведь актеры могут выражать презрение или стыд мимикой, взглядом или языком тела, что полностью ускользает от текстовых моделей.

Санни Рай согласилась с этим ограничением и выделила несколько сопутствующих вызовов:

Чтобы избежать ошибок и «вторников» вместо имен, авторам исследования пришлось вручную перепроверять случайные выборки данных.

🤖 Этика данных и культурное выравнивание искусственного интеллекта 29:27

Разрабатываемый Санни Рай метод имеет важнейшее практическое значение. В данный момент команда Всемирного банка (World Bank) внедряет этот подход для автоматического выявления вредных гендерных стереотипов в коротких видеороликах и фильмах, ориентированных на женщин и девочек в развивающихся странах.

С другой стороны, исследование поднимает фундаментальный вопрос безопасности и выравнивания (alignment) самих LLM. Современные коммерческие ИИ-модели обучаются преимущественно на западных данных. Как следствие, они по умолчанию транслируют западные ценности: приоритет индивидуального благополучия, личной карьеры и заботы о себе.

Однако, как подчеркивает Санни Рай, такие модели оказываются слепы к культурным нюансам других обществ, где от человека ожидают самопожертвования ради семьи или отказа от собственного счастья ради благополучия близких (классический троп болливудских любовных треугольников). Исследовательница призвала разработчиков ИИ внимательно анализировать данные, на которых обучаются нейросети, чтобы они случайно не перенимали и не усиливали укоренившиеся социальные перекосы и дискриминацию в отношении уязвимых слоев населения.

💬 Цитаты

«В болливудских диалогах о стыде говорят гораздо чаще, чем в фильмах США.»

Тайлер Коуэн 02:56

«В случае Болливуда стыд больше похож на регуляторный компонент, он используется для контроля поведения других.»

Санни Рай 15:33

«Эти модели работают не так хорошо, когда дело касается культур, недостаточно представленных в обучающих данных.»

Санни Рай 05:07
👥 Спикеры
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
LIWC (Linguistic Inquiry and Word Count)
Программа автоматического текстового анализа, классифицирующая слова по психологическим и когнитивным категориям.
Выравнивание моделей ИИ (LLM Alignment)
Процесс настройки большой языковой модели для соответствия человеческим ценностям, нормам и правилам безопасности.
Промптинг (Prompting)
Метод взаимодействия с языковой моделью путем отправки текстовых запросов-инструкций.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Санни Рай Conversations with Tyler Large Language Models Болливуд Голливуд