От кроссовок до протестов: как компьютерное зрение анализирует мировую культуру

Компьютерное зрение долгое время фокусировалось на простых задачах: отличить кошку от собаки или распознать лицо в толпе. Однако современные технологии позволяют заглянуть глубже — в саму ткань человеческой культуры и глобальных трендов. Кавита Бала, декан факультета компьютерных наук Корнеллского университета и сооснователь стартапа GrokStyle, в беседе с Сэмом Чаррингтоном на подкасте TWIML AI обсуждает, как алгоритмы помогают антропологам изучать мир через объектив социальных сетей и спутников.

⚖️ На стыке графики и зрения: Инь и Ян визуального ИИ 1:24

Кавита Бала пришла в область компьютерного зрения из компьютерной графики, и это сформировало её уникальный взгляд на проблему . Она рассматривает графику и зрение как две стороны одной медали или «Инь и Ян» :

Компьютерная графика занимается созданием моделей мира (форм, материалов, освещения) для генерации реалистичных изображений .
Компьютерное зрение решает обратную задачу: имея изображение реального мира, алгоритм должен восстановить лежащую в его основе модель .

Связующим звеном здесь выступает человеческое восприятие. Кавита приводит в пример текстуры тканей: чтобы создать идеальный цифровой шелк или бархат, нужно понимать, как глаз отличает их друг от друга . Если мы понимаем эти механизмы, мы можем не только рендерить ткани, но и научить компьютер безошибочно распознавать их на случайных фотографиях .

🛋️ Путь от академической статьи до покупки Facebook 4:02

История стартапа Кавиты, GrokStyle, началась с исследования материалов в интерьерах домов. Изучая фотографии жилых пространств, команда заметила, что пользователи на сайтах по дизайну часто спрашивают: «Что это за столешница? Это мрамор? Где купить такое кресло?» .

Это привело к постановке задачи Fine-grained visual recognition (узкоспециализированное визуальное распознавание). В отличие от классического распознавания, которое просто понимает, что перед ним «стул», эта технология определяет конкретную модель — например, «кресло Eames» или «стол IKEA Malm» .

Технологический стек решения включал:

Сиамские нейросети (Siamese networks): архитектура для обучения вложений (embeddings) . Она позволяет сближать в векторном пространстве объекты, которые выглядят по-разному, но являются идентичными.
Преодоление визуального разрыва: самой сложной задачей было сопоставить «идеальную» фотографию из каталога на белом фоне с реальным снимком пользователя, сделанным на смартфон со странного ракурса и при плохом освещении .
Функции потерь (Loss functions): обучение строилось на том, чтобы притягивать схожие объекты и отталкивать разные. Спустя две недели обучения сеть вырабатывала «карту визуальной реальности» домена .

В 2019 году компания Facebook (ныне Meta) приобрела GrokStyle . В 2020 году соцсеть представила GrokNet — масштабированную версию этой технологии, обученную на миллиардах изображений в категориях моды, мебели и автомобилей . Цель GrokNet — сделать каждое изображение в Facebook и Instagram «пригодным для покупок» (shoppable), автоматически аннотируя все товары на снимке .

🌍 Антропология планетарного масштаба: проекты StreetStyle и GeoStyle 25:22

Когда технология распознавания объектов стала достаточно зрелой, Кавита Бала и её коллеги из Корнелла обратились к изучению культурных тенденций. По её словам, человечество сейчас записывает свою историю с беспрецедентной скоростью, создавая «планетарную камеру» через Instagram и Facebook .

Проекты StreetStyle и GeoStyle используют этот массив данных для ответов на вопросы: что люди носят, что они едят и как группируются в разных частях мира ?

Ключевые находки проектов:

Локальные стили: алгоритм без посторонней помощи выделил уникальный кластер головных уборов — гали (gele), которые носят женщины в Лагосе .
Сезонные циклы: система обнаружила кластеры тяжелых курток, которые «мигрируют» между северным и южным полушариями с разницей в шесть месяцев .
Глобальная униформа: выяснилось, что клетчатые рубашки и синие оксфорды популярны на всей планете независимо от города и сезона .
Политические и спортивные события: алгоритм зафиксировал всплеск желтых футболок в Каталонии в период протестов 2013-14 годов и массовое появление атрибутики во время Чемпионата мира по футболу .

Кавита считает, что в будущем алгоритмы смогут автоматически распознавать новые культурные события, коррелируя визуальные данные с подписями к фото и метаданными .

🛰️ Будущее: спутники и этика тотальной видимости 35:21

Следующий этап исследований Кавиты — применение аналогичных методов к спутниковым снимкам. Совместно с агрономами она изучает, как можно предсказывать урожайность, отслеживать лесные пожары, оползни и цветение водорослей . Алгоритм пытается отличить циклические изменения (сезоны) от аномалий, вызванных деятельностью человека или катастрофами .

Обсуждая будущее, ведущий Сэм Чаррингтон затронул тему приватности. Кавита Бала признает риски «антиутопического мира», подобного тому, что показан в фильме «Анон» (2018), где всё видимое человеком мгновенно снабжается цифровой информацией .

Её позиция по этическим вопросам:

Дифференциальная приватность: технологии должны развиваться параллельно с методами защиты данных. Например, для культурных исследований лица людей можно и нужно размывать — для анализа стиля важна статистика групп, а не идентичность личности .
Культурные различия: ЕС, США и Китай имеют разные подходы к регулированию приватности, и обществу необходимо выработать четкую политику с «реальными зубами» .
Отказ от запретов: Кавита считает неразумным прекращать инвестиции в технологию из-за риска её неправильного использования. Вместо этого нужно проектировать защитные механизмы на уровне алгоритмов и «доверенного оборудования» .

По мнению гостьи, если удастся решить вопросы приватности, дополненная реальность и ИИ сделают нашу жизнь богаче, предоставляя мгновенную справку о любом дереве, историческом здании или предмете одежды в реальном времени .