Элейн Нсоэси о будущем здравоохранения: как ИИ предсказывает пандемии

The TWIML AI Podcast 1,3 тыс. 45 мин 7 мин 04.08.2020
Главное

В новом выпуске подкаста The TWIML AI Podcast специалист по машинному обучению и вычислительной эпидемиологии Элейн Нсоэси рассказывает о том, как технологии меняют подходы к охране общественного здоровья. В центре внимания — использование альтернативных цифровых источников, от отзывов на Yelp и поисковых запросов в Google Trends до спутниковых снимков парковок, для прогнозирования вспышек заболеваний и анализа социального неравенства. Интервью раскрывает, почему в сфере здравоохранения простые алгоритмы зачастую оказываются эффективнее сложных нейросетевых архитектур.

🔬 Путь в вычислительную эпидемиологию: от математики до симуляции городов 0:04

Элейн Нсоэси родилась и выросла в Камеруне, а в возрасте 16 лет переехала в США. Изначально она изучала прикладную математику в бакалавриате, стремясь найти практическое применение своим знаниям в сфере здравоохранения. Во время стажировки в Национальных институтах здравоохранения (NIH) в Вашингтоне ментор посоветовала ей сфокусироваться на общей статистике, а не на биостатистике, чтобы освоить универсальные методы, применимые к любым задачам. Нсоэси окончила магистратуру по статистике в Техническом университете Виргинии (Virginia Tech).

Ее карьера в эпидемиологии началась в лаборатории, занимавшейся крупномасштабным компьютерным моделированием распространения инфекций. Исследователи воссоздавали точные цифровые копии населения городов, например Сиэтла, вплоть до уровня данных переписи. Модель полностью дублировала демографическую структуру реального города.

На этих симуляциях ученые тестировали различные сценарии ограничений, которые впоследствии стали реальностью во время пандемии COVID-19:

Вдохновившись этими исследованиями, Нсоэси защитила докторскую диссертацию (PhD) по теме прогнозирования распространения гриппа с использованием сетевых моделей.

🍔 Отзывы на Yelp и Twitter как инструмент эпидемиологического надзора 4:28

Интерес Элейн Нсоэси сфокусирован на поиске нестандартных способов использования уже существующих цифровых данных для улучшения здоровья общества. В 2014 году она обратила внимание на пользовательские отзывы о ресторанах. По ее мнению, текстовые описания личного опыта людей могут служить ценным источником информации для отслеживания болезней пищевого происхождения в режиме реального времени.

Команда Нсоэси разработала модели для интеллектуального анализа данных (data mining), которые собирали публикации на платформах Yelp и Twitter. Разработанная система позволяла местным департаментам здравоохранения (включая ведомство в Сент-Луисе, где базируется ведущий подкаста) решать две ключевые задачи:

  1. Целевые инспекции ресторанов. Если несколько пользователей одновременно жаловались на конкретное заведение, санитарные службы могли оперативно выехать с проверкой, не дожидаясь планового осмотра, чтобы остановить заражение других людей.
  2. Расследование вспышек инфекций. Появление около 10 жалоб со схожими симптомами в пределах одного города в течение нескольких дней или недели сигнализировало о возможной локальной эпидемии.

Как отмечает гостья, некоторые департаменты здравоохранения смогли обнаружить опасные вспышки отравлений, о которых граждане не сообщали по официальным каналам, исключительно благодаря мониторингу соцсетей. При этом Нсоэси подчеркивает: когда система общественного здравоохранения работает эффективно, обыватели этого не замечают — важность эпидемиологического надзора становится очевидной только в моменты крупных кризисов.

🛰️ Спутниковые снимки парковок и предсказание эпидемий гриппа 8:34

Еще одним направлением исследований стало использование спутниковых снимков высокого разрешения для ретроспективного анализа вспышек или мониторинга регионов с дефицитом официальной медицинской статистики. В рамках проекта команда Нсоэси закупила коммерческие спутниковые данные у компании Digital Globe для анализа больниц в трех странах Южной Америки: Мексике, Чили и Аргентине.

Алгоритмы подсчитывали количество автомобилей и свободных мест на больничных парковках по спутниковым кадрам. Динамика заполняемости парковочных зон сопоставлялась с официальными отчетами о распространении гриппоподобных заболеваний и простуд. Исследование показало, что переполненность парковок четко коррелирует с пиками заболеваемости в период сезонных вспышек. Нсоэси признается, что изначально сомневалась в успехе эксперимента, так как люди посещают больницы по множеству других причин, однако модель продемонстрировала высокую точность прогнозирования.

Параллельно исследовательская группа использовала открытые спутниковые снимки Google для изучения социально-экономического неравенства в шести крупных городах США. Гостья приводит данные, согласно которым разница в продолжительности жизни между соседними кварталами в одном американском штате может достигать 16–20 лет. Это обусловлено уровнем доходов, уровнем безопасности и доступом к ресурсам.

Ученые создали комплексный индекс городской среды для переписных участков (в среднем по 3 000 человек на участок). Применив сверточные нейросети (CNN) и методы переноса обучения (transfer learning), модель смогла успешно предсказывать уровень распространенности ожирения в конкретных районах на основе анализа инфраструктуры и застройки. По словам Нсоэси, рецензенты из журналов по общественному здравоохранению долго не верили результатам, заявляя, что модель «слишком хорошо предсказывает». В отличие от традиционных медицинских исследований, изолированно оценивающих наличие тротуаров или зеленых насаждений, нейросеть анализировала всю совокупность визуальных факторов одновременно, где самым сильным предиктором здоровья в итоге оказалась площадь зеленых зон.

🌍 Цифровые следы здоровья в Африке: KFC, Google Trends и народная медицина 15:24

Элейн Нсоэси активно исследует изменения в поведении и здоровье населения африканских стран, происходящие на фоне стремительной урбанизации. Она отмечает, что за последние два года во многих городах континента массово открылись американские сети быстрого питания, такие как KFC, что коренным образом меняет культуру питания и приводит к росту хронических заболеваний и избыточного веса там, где раньше это не было выраженной проблемой.

Для мониторинга этих процессов команда использовала инструмент Google Trends, проанализировав 111 различных поисковых запросов на уровне отдельных стран. Запросы, связанные с похудением, поиском фитнес-клубов или покупкой беговых дорожек, продемонстрировали прямую статистическую корреляцию с уровнем распространения ожирения в регионах.

Однако при попытке адаптировать аналогичные модели для отслеживания инфекционных заболеваний в Африке исследователи столкнулись с культурными различиями:

По мнению Нсоэси, это подчеркивает необходимость разработки контекстуализированных аналитических подходов, учитывающих локальную специфику при создании медицинских интервенций.

🦠 Эпидемиология в эпоху COVID-19: расовое и экономическое неравенство 23:44

В условиях пандемии COVID-19 профессия эпидемиолога оказалась в центре общественного внимания. Элейн Нсоэси отмечает резкий рост медийного интереса к своей работе, но признает, что публичность сопряжена с трудностями: многие ее коллеги сталкивались с жесткой критикой, давлением и даже нападками со стороны политических оппозиционных партий в странах, где они проводили исследования.

Гостья выразила удовлетворение тем, что в последние месяцы фокус дискуссии сместился на вопросы расового, этнического и экономического неравенства при распределении медицинских ресурсов. В рамках совместного исследования ученые проанализировали обезличенные данные мобильности по сотовым телефонам граждан США в периоды локдаунов. Выяснилось, что жители бедных районов значительно меньше соблюдали режим социальной дистанции по сравнению с обеспеченными слоями населения. Нсоэси объясняет это тем, что низкооплачиваемые работники чаще заняты на «критически важных предприятиях» (essential jobs) — в общественном транспорте, продуктовых магазинах — и физически не могут работать удаленно, что повышает риски их заражения и инфицирования их семей.

Дополнительным фактором уязвимости бедных слоев населения выступают сопутствующие хронические заболевания, развивающиеся из-за так называемого структурного неравенства. В бедных кварталах часто отсутствуют качественные продуктовые супермаркеты (проблема «продовольственных пустынь»), а на полках местных магазинов преобладают вредные и дешевые продукты, тогда как здоровая пища остается экономически недоступной для местного населения.

🤖 Сила простых моделей и работа на благо локальных сообществ 40:14

Опираясь на свой многолетний опыт, Элейн Нсоэси утверждает, что в прикладных задачах здравоохранения простые классические методы машинного обучения (например, алгоритм случайного леса — Random Forest) зачастую работают ничуть не хуже громоздких и ультрасовременных нейросетевых архитектур. Она рекомендует всегда начинать анализ с простейших инструментов и переходить к сложным моделям только в случае реальной необходимости.

Помимо работы с архивными датасетами, Нсоэси принимала участие в летнем проекте программы «Данные для общественного блага» (Data Science for Social Good) в Университете Вашингтона, где с помощью языковой модели BERT исследователи анализировали массив отзывов на Amazon за 7 лет для выявления опасных или ошибочно маркированных продуктов питания. Главной сложностью проекта стала очистка данных: официальные отчеты об отзывах товаров от FDA (Управления по санитарному надзору) не содержали стандартных идентификаторов Amazon (ASIN), а серийные номера кодов часто были обрезаны, из-за чего сопоставление данных превратилось в ручной кропотливый труд.

В заключение гостья рассказала о своей деятельности в организации Data Science Africa, которая проводит конференции и координирует проекты в Восточной и Западной Африке. Местные специалисты используют базовые методы ИИ для решения практических локальных задач:

Нсоэси убеждена, что технологические проекты в сфере медицины должны начинаться не с теоретических гипотез разработчиков, а с прямого диалога с сообществом и выявления их реальных повседневных проблем.

💬 Цитаты

«Если есть цифровой источник данных, я хочу знать, как мы можем использовать его для улучшения здоровья.»

Элейн Нсоэси 05:36

«В моем опыте простые методы, как правило, работают довольно хорошо, и мне не нужно переходить к сложным вещам.»

Элейн Нсоэси 41:07
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Вычислительная эпидемиология
Междисциплинарная область, использующая компьютерное моделирование, симуляции и анализ данных для изучения распространения болезней.
Случайный лес (Random Forest)
Классический алгоритм машинного обучения, основанный на использовании ансамбля решающих деревьев.
Перенос обучения (Transfer Learning)
Метод в ИИ, при котором модель, обученная для решения одной задачи, адаптируется под вторую схожую задачу.
Продовольственная пустыня (Food desert)
Район, жители которого имеют ограниченный доступ к доступным, качественным и свежим продуктам питания.
BERT
Нейросетевая модель от Google, предназначенная для обработки и понимания естественного языка.
📊 Цифры
🗓 Хронология
  1. В возрасте 16 лет Элейн Нсоэси переезжает из Камеруна в США, где начинает академический путь в области прикладной математики.
  2. 2014 год Старт проекта по интеллектуальному анализу ресторанных отзывов на Yelp для выявления пищевых отравлений.
  3. Лето 2017 года Участие в программе Университета Вашингтона по обработке больших данных Amazon и FDA с помощью модели BERT.
⚖️ Другая сторона
Искусственный интеллект Элейн Нсоэси The TWIML AI Podcast эпидемиология Machine Learning Google Trends