# От кроссовок до протестов: как компьютерное зрение анализирует мировую культуру

Источник: https://www.youtube.com/watch?v=EUXYxEjxc3Q
Канал: The TWIML AI Podcast
Опубликовано: 25.09.2020

---

Компьютерное зрение долгое время фокусировалось на простых задачах: отличить кошку от собаки или распознать лицо в толпе. Однако современные технологии позволяют заглянуть глубже — в саму ткань человеческой культуры и глобальных трендов. Кавита Бала, декан факультета компьютерных наук Корнеллского университета и сооснователь стартапа GrokStyle, в беседе с Сэмом Чаррингтоном на подкасте TWIML AI обсуждает, как алгоритмы помогают антропологам изучать мир через объектив социальных сетей и спутников.

## ⚖️ На стыке графики и зрения: Инь и Ян визуального ИИ
[[JUMP:01:24]]

Кавита Бала пришла в область компьютерного зрения из компьютерной графики, и это сформировало её уникальный взгляд на проблему [01:10]. Она рассматривает графику и зрение как две стороны одной медали или «Инь и Ян» [01:36]:

*   **Компьютерная графика** занимается созданием моделей мира (форм, материалов, освещения) для генерации реалистичных изображений [01:49].
*   **Компьютерное зрение** решает обратную задачу: имея изображение реального мира, алгоритм должен восстановить лежащую в его основе модель [01:49].

Связующим звеном здесь выступает человеческое восприятие. Кавита приводит в пример текстуры тканей: чтобы создать идеальный цифровой шелк или бархат, нужно понимать, как глаз отличает их друг от друга [02:56]. Если мы понимаем эти механизмы, мы можем не только рендерить ткани, но и научить компьютер безошибочно распознавать их на случайных фотографиях [03:23].

## 🛋️ Путь от академической статьи до покупки Facebook
[[JUMP:04:02]]

История стартапа Кавиты, GrokStyle, началась с исследования материалов в интерьерах домов. Изучая фотографии жилых пространств, команда заметила, что пользователи на сайтах по дизайну часто спрашивают: «Что это за столешница? Это мрамор? Где купить такое кресло?» [04:52].

Это привело к постановке задачи **Fine-grained visual recognition** (узкоспециализированное визуальное распознавание). В отличие от классического распознавания, которое просто понимает, что перед ним «стул», эта технология определяет конкретную модель — например, «кресло Eames» или «стол IKEA Malm» [05:05].

Технологический стек решения включал:

1.  **Сиамские нейросети (Siamese networks):** архитектура для обучения вложений (embeddings) [06:36]. Она позволяет сближать в векторном пространстве объекты, которые выглядят по-разному, но являются идентичными.
2.  **Преодоление визуального разрыва:** самой сложной задачей было сопоставить «идеальную» фотографию из каталога на белом фоне с реальным снимком пользователя, сделанным на смартфон со странного ракурса и при плохом освещении [07:43].
3.  **Функции потерь (Loss functions):** обучение строилось на том, чтобы притягивать схожие объекты и отталкивать разные. Спустя две недели обучения сеть вырабатывала «карту визуальной реальности» домена [08:08].

В 2019 году компания Facebook (ныне Meta) приобрела GrokStyle [11:22]. В 2020 году соцсеть представила GrokNet — масштабированную версию этой технологии, обученную на миллиардах изображений в категориях моды, мебели и автомобилей [11:35]. Цель GrokNet — сделать каждое изображение в Facebook и Instagram «пригодным для покупок» (shoppable), автоматически аннотируя все товары на снимке [17:58].

## 🌍 Антропология планетарного масштаба: проекты StreetStyle и GeoStyle
[[JUMP:25:22]]

Когда технология распознавания объектов стала достаточно зрелой, Кавита Бала и её коллеги из Корнелла обратились к изучению культурных тенденций. По её словам, человечество сейчас записывает свою историю с беспрецедентной скоростью, создавая «планетарную камеру» через Instagram и Facebook [26:02].

Проекты **StreetStyle** и **GeoStyle** используют этот массив данных для ответов на вопросы: что люди носят, что они едят и как группируются в разных частях мира [26:27]?

Ключевые находки проектов:

*   **Локальные стили:** алгоритм без посторонней помощи выделил уникальный кластер головных уборов — гали (gele), которые носят женщины в Лагосе [29:53].
*   **Сезонные циклы:** система обнаружила кластеры тяжелых курток, которые «мигрируют» между северным и южным полушариями с разницей в шесть месяцев [30:33].
*   **Глобальная униформа:** выяснилось, что клетчатые рубашки и синие оксфорды популярны на всей планете независимо от города и сезона [31:12].
*   **Политические и спортивные события:** алгоритм зафиксировал всплеск желтых футболок в Каталонии в период протестов 2013-14 годов и массовое появление атрибутики во время Чемпионата мира по футболу [32:06].

Кавита считает, что в будущем алгоритмы смогут автоматически распознавать новые культурные события, коррелируя визуальные данные с подписями к фото и метаданными [35:08].

## 🛰️ Будущее: спутники и этика тотальной видимости
[[JUMP:35:21]]

Следующий этап исследований Кавиты — применение аналогичных методов к спутниковым снимкам. Совместно с агрономами она изучает, как можно предсказывать урожайность, отслеживать лесные пожары, оползни и цветение водорослей [35:46]. Алгоритм пытается отличить циклические изменения (сезоны) от аномалий, вызванных деятельностью человека или катастрофами [36:25].

Обсуждая будущее, ведущий Сэм Чаррингтон затронул тему приватности. Кавита Бала признает риски «антиутопического мира», подобного тому, что показан в фильме «Анон» (2018), где всё видимое человеком мгновенно снабжается цифровой информацией [19:30].

Её позиция по этическим вопросам:

*   **Дифференциальная приватность:** технологии должны развиваться параллельно с методами защиты данных. Например, для культурных исследований лица людей можно и нужно размывать — для анализа стиля важна статистика групп, а не идентичность личности [27:57].
*   **Культурные различия:** ЕС, США и Китай имеют разные подходы к регулированию приватности, и обществу необходимо выработать четкую политику с «реальными зубами» [21:54].
*   **Отказ от запретов:** Кавита считает неразумным прекращать инвестиции в технологию из-за риска её неправильного использования. Вместо этого нужно проектировать защитные механизмы на уровне алгоритмов и «доверенного оборудования» [23:23].

По мнению гостьи, если удастся решить вопросы приватности, дополненная реальность и ИИ сделают нашу жизнь богаче, предоставляя мгновенную справку о любом дереве, историческом здании или предмете одежды в реальном времени [20:24].