Geospatial Machine Learning with Kumar Chellapilla - 607

The TWIML AI Podcast 605 39 мин 4 мин 22.12.2022

Геопространственные данные долгое время оставались «вещью в себе» из-за колоссальных объемов, специфических форматов и необходимости сложной предварительной обработки. Однако на конференции AWS re:Invent Кумар Челлапилла, генеральный менеджер подразделения ML и AI сервисов в AWS, объявил о запуске поддержки геопространственного машинного обучения в Amazon SageMaker. Эта инициатива призвана объединить миры традиционных ГИС-специалистов и современных дата-сайентистов, автоматизируя «черную работу» по подготовке спутниковых снимков и картографических данных.

🌍 Новая эра геопространственного ML 0:40

Кумар Челлапилла, ветеран индустрии с 25-летним стажем, стоявший у истоков обучения нейросетей на GPU в Microsoft Research , отмечает фундаментальный сдвиг в области данных. Если раньше работа со спутниками была прерогативой государств и корпораций-гигантов, то сегодня отрасль переживает взрывной рост.

Согласно данным Челлапиллы, количество спутников на орбите растет экспоненциально:

Современные спутники превратились из многомиллионных «монстров» в компактные «обувные коробки» стоимостью около 100 тысяч долларов, которые сгорают в атмосфере через два года, заменяясь более совершенными моделями . Этот поток данных создает проблему «недифференцированной тяжелой работы» (undifferentiated heavy lifting), которую AWS стремится взять на себя.

🛰️ Решение проблемы «тяжелых» данных 5:04

Главная трудность работы с геоданными — их масштаб. Кумар приводит пример: фотография с iPhone весит несколько мегабайт, тогда как спутниковый снимок штата Калифорния может весить от 10 гигабайт до 10 терабайт . Традиционные модели компьютерного зрения (CV) рассчитаны на изображения в десятки мегапикселей, в то время как геопространственные данные оперируют терапикселями .

Amazon SageMaker Geospatial ML предлагает три ключевых направления упрощения работы:

  1. Доступ к данным в один клик: Интеграция с каталогами Planet Labs, Foursquare, данными Sentinel-2 и Landsat через Amazon Open Data . Больше не нужно месяцами вести переговоры о лицензировании и скачивать терабайты на локальные серверы.
  2. Автоматизация препроцессинга: Встроенные инструменты для тайлинга (разрезания огромных снимков на фрагменты), орторектификации и удаления облаков [08:45, 19:17].
  3. Специализированные алгоритмы: Например, сервис сопоставления карт (map matching), который превращает тысячи «шумных» GPS-точек с погрешностью в 10 метров в чистую траекторию движения по дорожной сети .

📈 Бизнес-кейсы: от сельского хозяйства до страхования 15:48

Технология уже находит применение в различных вертикалях. Кумар выделил несколько ключевых направлений:

🤖 Почему классическое CV не всегда подходит для спутников 19:44

Челлапилла отмечает парадокс: несмотря на десятилетие со времен триумфа AlexNet (в 2012 году), в геопространственной сфере до сих пор нет своего аналога ImageNet . Хотя такие задачи, как семантическая сегментация (например, выделение типов почв или лесных массивов), активно развиваются, специфика данных требует иных подходов.

По мнению Кумара, у геоданных есть преимущество перед обычными фото: поверхность Земли не меняется так быстро, как мода или лица людей . Это позволяет накапливать «слои» информации об одном и том же объекте десятилетиями, создавая сверхточные модели.

Интересной деталью дискуссии стало обсуждение «лени» современных разработчиков. Кумар в шутку заметил, что выпускники вузов сегодня стараются запихнуть любые данные в глубокие нейросети (Deep Net), чтобы не заниматься ручным проектированием признаков (feature engineering), и SageMaker Geospatial ML поддерживает этот тренд, предоставляя предварительно обученные модели .

🔮 Будущее: Диффузионные модели и Цифровые двойники 32:39

В будущем Челлапилла видит большой потенциал в использовании генеративных моделей для геопространственных задач :

Конечная цель AWS — конвергенция двух сообществ. ГИС-эксперты (традиционные картографы) должны освоить облачные вычисления и Jupyter Notebook, а современным дата-сайентистам пора научиться работать с координатами и спектральными каналами . Челлапилла прогнозирует, что это слияние произойдет в ближайшие 2–5 лет, превращая геопространственное ML из нишевой дисциплины в стандартный инструмент любого аналитика данных.