Эмма Маккой: «Почему Big Data без понимания причин — это путь к опасным заблуждениям»

The Royal Institution 15,9 тыс. 54 мин 5 мин 02.07.2024
Главное

Как данные могут вводить в заблуждение и почему накопление огромных массивов информации не всегда ведет к пониманию истины? В своей лекции в The Royal Institution профессор математики Эмма Маккой (Emma McCoy) разбирает ловушки статистического анализа, объясняет концепцию «темных данных» и доказывает, почему для принятия верных решений нам необходимо переходить от простого изучения корреляций к глубокому пониманию причинно-следственных связей.

📊 Парадокс изобилия: темные данные и экологический след 4:27

Современный мир одержим сбором данных, однако, по мнению Эммы Маккой, количество редко переходит в качество. Нам кажется, что чем больше информации мы сохраняем, тем точнее будут наши прогнозы, но на практике человечество сталкивается с проблемой «темных данных» (dark data) — массивов информации, которые собираются, хранятся, но никогда не используются для получения полезных выводов .

Профессор выделяет несколько критических проблем текущего подхода к данным:

В контексте развития ИИ это означает возможный сдвиг от гигантских языковых моделей (LLM) к компактным, контекстно-ориентированным моделям, которые требуют меньше ресурсов и дают более точные ответы в специфических областях .

🚴 Личный опыт: данные как средство выживания 8:56

Эмма Маккой признается в «одержимости данными», утверждая, что использует их для решения практически любых жизненных вопросов. Ее интерес к статистике ДТП возник из сугубо личного страха при езде на велосипеде из Кэмдена в Имперский колледж Лондона . Разбирая открытые датасеты, такие как Stats 19 (полицейские отчеты обо всех ДТП в Великобритании), она пришла к выводу, что интуитивное восприятие опасности часто обманчиво.

Примеры ловушек в данных о транспорте:

  1. Проблема репрезентативности: Заголовок в СМИ «Смертность среди велосипедистов в 17 раз выше, чем у автомобилистов» может быть математически верным на основе сырых данных, но он не учитывает экспозицию (время в пути, пройденное расстояние) и тип дорог .
  2. Искажения в Strava: Тепловые карты популярного приложения для спортсменов могут лгать. Сама Маккой приводит пример: она использовала Garmin в режиме «бег» во время поездок на велосипеде, потому что ей было лень переключать настройки. В итоге глобальный датасет считал ее «сверхчеловеком-бегуном», искажая реальную картину использования дорог .
  3. Визуальные артефакты: На картах ДТП Лондона можно увидеть точки в центре Темзы или в глубине Гайд-парка . Это указывает на ошибки в координатах или сообщения об инцидентах, которые технически произошли вне проезжей части (например, нелегальная езда по парковым дорожкам), что требует критической очистки данных перед анализом.

📉 Каузальность: почему корреляция — это не причина 21:45

Центральная тема лекции — причинно-следственный вывод (causal inference). Большинство методов машинного обучения сегодня настроены на поиск ассоциаций (корреляций), но они не отвечают на вопрос «почему?». По мнению профессора Маккой, непонимание этого различия ведет к ложным выводам .

Классические примеры ложных корреляций, вызванных «вмешивающимися факторами» (confounders):

Феномен потенциальных исходов

Для определения истинной причины ученые используют фреймворк Дональда Рубина — модель потенциальных исходов . Проблема в том, что мы никогда не можем наблюдать «контрфактуал». Если человек выпил таблетку от головы и боль прошла, мы не знаем, прошла бы она сама по себе без лекарства. Мы не можем повернуть время вспять и проверить альтернативный сценарий для того же самого человека в тот же момент времени .

Парадокс Симпсона на примере COVID-19

Маккой приводит пример анализа данных британской системы Test and Trace (октябрь 2020 года) . В общих цифрах наблюдалось падение эффективности контактов с зараженными. Однако при разделении данных на группы (профессиональные медицинские команды HPT и волонтерские центры) выяснилось, что в каждой отдельной группе эффективность росла . Падение в агрегированных данных было вызвано изменением пропорций между группами — это классический парадокс Симпсона, когда тренд исчезает или меняется на противоположный при объединении групп данных .

🛠 Методы борьбы с искажениями: от РКИ до оценки склонности 36:22

Золотым стандартом науки остаются рандомизированные контролируемые исследования (РКИ), где случайное распределение участников нивелирует влияние скрытых факторов . Однако в социальных науках и экологии РКИ часто невозможны по этическим причинам (нельзя заставить людей дышать грязным воздухом для эксперимента).

В таких случаях статистики используют продвинутые инструменты:

  1. Оценка склонности (Propensity Score): Математический метод, разработанный Рубином, который позволяет «имитировать» рандомизацию в обсервационных исследованиях. Мы рассчитываем вероятность того, что субъект получит «лечение» (или попадет в определенные условия) на основе его характеристик, а затем сравниваем только похожих людей из разных групп .
  2. Метод «разности разностей» (Difference-in-Difference): Маккой использовала его для анализа влияния зон с ограничением трафика в Ислингтоне . Хотя предварительные данные показывали падение уровня загрязнения на 40%, после очистки данных от влияния общенационального локдауна выяснилось, что реальный вклад именно дорожных ограничений в чистоту воздуха составил около 9% .

🧠 Критическое мышление и будущее ИИ 49:09

Завершая выступление, Эмма Маккой подчеркивает важность научной дискуссии. Она цитирует резкую полемику 1986 года между профессором Эренбергом и авторами статьи о ремнях безопасности, где Эренберг назвал использование сложных моделей «интеллектуальной мастурбацией», предлагая смотреть на простые цифры . Маккой парирует: именно из-за конфаундеров простые сравнения «до и после» часто ведут к катастрофическим ошибкам в политике .

Относительно искусственного интеллекта профессор настроена оптимистично, но осторожно. По её мнению, ИИ — это инструмент для усиления человеческого намерения, но он опасен тем, что обучается на исторических данных, в которых заложены все наши прошлые предубеждения и ошибки . Если мы будем бездумно полагаться на рекомендации ИИ, мы лишь «пролонгируем прошлое», вместо того чтобы строить будущее, основанное на осознанном анализе причин и следствий.

💬 Цитаты

«Если бы мы могли измерить оба потенциальных исхода — и действие, и бездействие для одного человека — причинно-следственный вывод стал бы просто арифметикой.»

Эмма Маккой 25:42

«ИИ — потрясающий инструмент, но он построен на исторических данных. Если мы будем просто следовать рекомендациям, мы пролонгируем все предубеждения прошлого.»

Эмма Маккой 53:18
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Темные данные (Dark Data)
Информационные активы, которые организации собирают и хранят, но не используют для аналитики.
Конфаундер (Confounder)
Посторонняя переменная, которая влияет как на предполагаемую причину, так и на следствие, создавая ложную корреляцию.
Парадокс Симпсона
Эффект в статистике, при котором тренд в нескольких группах данных исчезает или инвертируется при их объединении.
Контрфактуал
Гипотетический сценарий о том, что произошло бы, если бы событие, которое уже случилось, пошло по другому пути.
📊 Цифры
🗓 Хронология
  1. 1923 Ежи Нейман описывает основы фреймворка потенциальных исходов.
  2. 1951 Рональд Фишер публикует основополагающую книгу по дизайну экспериментов.
  3. 1986 Публикация острой научной дискуссии о ремнях безопасности между Харви/Дурбином и Эренбергом.
  4. 2020 Введение зон низкого трафика в Ислингтоне в разгар пандемии COVID-19.
⚖️ Другая сторона
Математика и физика Эмма Маккой causal inference Big Data парадокс Симпсона The Royal Institution