От кроссовок до протестов: как компьютерное зрение анализирует мировую культуру

The TWIML AI Podcast 779 38 мин 4 мин 25.09.2020
Главное

Компьютерное зрение долгое время фокусировалось на простых задачах: отличить кошку от собаки или распознать лицо в толпе. Однако современные технологии позволяют заглянуть глубже — в саму ткань человеческой культуры и глобальных трендов. Кавита Бала, декан факультета компьютерных наук Корнеллского университета и сооснователь стартапа GrokStyle, в беседе с Сэмом Чаррингтоном на подкасте TWIML AI обсуждает, как алгоритмы помогают антропологам изучать мир через объектив социальных сетей и спутников.

⚖️ На стыке графики и зрения: Инь и Ян визуального ИИ 1:24

Кавита Бала пришла в область компьютерного зрения из компьютерной графики, и это сформировало её уникальный взгляд на проблему . Она рассматривает графику и зрение как две стороны одной медали или «Инь и Ян» :

Связующим звеном здесь выступает человеческое восприятие. Кавита приводит в пример текстуры тканей: чтобы создать идеальный цифровой шелк или бархат, нужно понимать, как глаз отличает их друг от друга . Если мы понимаем эти механизмы, мы можем не только рендерить ткани, но и научить компьютер безошибочно распознавать их на случайных фотографиях .

🛋️ Путь от академической статьи до покупки Facebook 4:02

История стартапа Кавиты, GrokStyle, началась с исследования материалов в интерьерах домов. Изучая фотографии жилых пространств, команда заметила, что пользователи на сайтах по дизайну часто спрашивают: «Что это за столешница? Это мрамор? Где купить такое кресло?» .

Это привело к постановке задачи Fine-grained visual recognition (узкоспециализированное визуальное распознавание). В отличие от классического распознавания, которое просто понимает, что перед ним «стул», эта технология определяет конкретную модель — например, «кресло Eames» или «стол IKEA Malm» .

Технологический стек решения включал:

  1. Сиамские нейросети (Siamese networks): архитектура для обучения вложений (embeddings) . Она позволяет сближать в векторном пространстве объекты, которые выглядят по-разному, но являются идентичными.
  2. Преодоление визуального разрыва: самой сложной задачей было сопоставить «идеальную» фотографию из каталога на белом фоне с реальным снимком пользователя, сделанным на смартфон со странного ракурса и при плохом освещении .
  3. Функции потерь (Loss functions): обучение строилось на том, чтобы притягивать схожие объекты и отталкивать разные. Спустя две недели обучения сеть вырабатывала «карту визуальной реальности» домена .

В 2019 году компания Facebook (ныне Meta) приобрела GrokStyle . В 2020 году соцсеть представила GrokNet — масштабированную версию этой технологии, обученную на миллиардах изображений в категориях моды, мебели и автомобилей . Цель GrokNet — сделать каждое изображение в Facebook и Instagram «пригодным для покупок» (shoppable), автоматически аннотируя все товары на снимке .

🌍 Антропология планетарного масштаба: проекты StreetStyle и GeoStyle 25:22

Когда технология распознавания объектов стала достаточно зрелой, Кавита Бала и её коллеги из Корнелла обратились к изучению культурных тенденций. По её словам, человечество сейчас записывает свою историю с беспрецедентной скоростью, создавая «планетарную камеру» через Instagram и Facebook .

Проекты StreetStyle и GeoStyle используют этот массив данных для ответов на вопросы: что люди носят, что они едят и как группируются в разных частях мира ?

Ключевые находки проектов:

Кавита считает, что в будущем алгоритмы смогут автоматически распознавать новые культурные события, коррелируя визуальные данные с подписями к фото и метаданными .

🛰️ Будущее: спутники и этика тотальной видимости 35:21

Следующий этап исследований Кавиты — применение аналогичных методов к спутниковым снимкам. Совместно с агрономами она изучает, как можно предсказывать урожайность, отслеживать лесные пожары, оползни и цветение водорослей . Алгоритм пытается отличить циклические изменения (сезоны) от аномалий, вызванных деятельностью человека или катастрофами .

Обсуждая будущее, ведущий Сэм Чаррингтон затронул тему приватности. Кавита Бала признает риски «антиутопического мира», подобного тому, что показан в фильме «Анон» (2018), где всё видимое человеком мгновенно снабжается цифровой информацией .

Её позиция по этическим вопросам:

По мнению гостьи, если удастся решить вопросы приватности, дополненная реальность и ИИ сделают нашу жизнь богаче, предоставляя мгновенную справку о любом дереве, историческом здании или предмете одежды в реальном времени .

💬 Цитаты

«Графика и зрение — это Инь и Ян. Графика строит модели мира, а зрение пытается понять, какая модель создала изображение.»

Кавита Бала 01:36

«Мы записываем себя с беспрецедентной скоростью... фактически это гигантская камера всей планеты.»

Кавита Бала 26:02

«Я не считаю разумным отказываться от инвестиций в технологию из-за опасности её неправильного использования. Нужно проектировать механизмы защиты.»

Кавита Бала 23:11
👥 Спикеры
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
Fine-grained visual recognition
Распознавание объектов на уровне конкретных подтипов или марок (не просто «собака», а «бордер-колли»).
Siamese networks
Архитектура нейросетей, используемая для сравнения двух входящих объектов и определения степени их сходства.
Embedding (Вложение)
Способ представления объекта в виде вектора чисел в многомерном пространстве, где близкие по смыслу объекты находятся рядом.
📊 Цифры
🗓 Хронология
  1. 2015 Публикация первой статьи о визуальном распознавании товаров на конференции SIGGRAPH.
  2. 2016 Начало работы над проектом StreetStyle по анализу моды через соцсети.
  3. 2019 Facebook приобретает GrokStyle.
  4. 2020 Релиз GrokNet — универсальной модели для коммерческого распознавания изображений.
⚖️ Другая сторона
Искусственный интеллект Kavita Bala Cornell University GrokStyle computer vision GrokNet