# Эмма Маккой: «Почему Big Data без понимания причин — это путь к опасным заблуждениям»

Источник: https://www.youtube.com/watch?v=J3atpFVRL0k
Канал: The Royal Institution
Опубликовано: 02.07.2024

---

Как данные могут вводить в заблуждение и почему накопление огромных массивов информации не всегда ведет к пониманию истины? В своей лекции в The Royal Institution профессор математики Эмма Маккой (Emma McCoy) разбирает ловушки статистического анализа, объясняет концепцию «темных данных» и доказывает, почему для принятия верных решений нам необходимо переходить от простого изучения корреляций к глубокому пониманию причинно-следственных связей.

## 📊 Парадокс изобилия: темные данные и экологический след
[[JUMP:04:27]]

Современный мир одержим сбором данных, однако, по мнению Эммы Маккой, количество редко переходит в качество. Нам кажется, что чем больше информации мы сохраняем, тем точнее будут наши прогнозы, но на практике человечество сталкивается с проблемой «темных данных» (dark data) — массивов информации, которые собираются, хранятся, но никогда не используются для получения полезных выводов [05:48]. 

Профессор выделяет несколько критических проблем текущего подхода к данным:

*   **Избыточность и устаревание:** Огромная часть данных на серверах и личных устройствах является дублирующей, тривиальной или устаревшей.
*   **Экологическая стоимость:** Сбор и обработка данных имеют колоссальный углеродный след. По прогнозам, к 2025 году объем данных в мире достигнет 170 зеттабайт [05:07]. Передача всего одного гигабайта информации требует от 3 до 7 кВт⋅ч электроэнергии, а обучение одной крупной модели ИИ сопряжено с выбросом более 300 тонн CO2 [05:35].
*   **«Великие» данные вместо «Больших»:** Ссылаясь на доктора Дженнифер Пренки (Google DeepMind), Маккой подчеркивает необходимость перехода от Big Data к Great Data — данным, собранным и используемым целенаправленно [06:27].

В контексте развития ИИ это означает возможный сдвиг от гигантских языковых моделей (LLM) к компактным, контекстно-ориентированным моделям, которые требуют меньше ресурсов и дают более точные ответы в специфических областях [06:40].

## 🚴 Личный опыт: данные как средство выживания
[[JUMP:08:56]]

Эмма Маккой признается в «одержимости данными», утверждая, что использует их для решения практически любых жизненных вопросов. Ее интерес к статистике ДТП возник из сугубо личного страха при езде на велосипеде из Кэмдена в Имперский колледж Лондона [09:21]. Разбирая открытые датасеты, такие как *Stats 19* (полицейские отчеты обо всех ДТП в Великобритании), она пришла к выводу, что интуитивное восприятие опасности часто обманчиво.

Примеры ловушек в данных о транспорте:

1.  **Проблема репрезентативности:** Заголовок в СМИ «Смертность среди велосипедистов в 17 раз выше, чем у автомобилистов» может быть математически верным на основе сырых данных, но он не учитывает экспозицию (время в пути, пройденное расстояние) и тип дорог [15:13].
2.  **Искажения в Strava:** Тепловые карты популярного приложения для спортсменов могут лгать. Сама Маккой приводит пример: она использовала Garmin в режиме «бег» во время поездок на велосипеде, потому что ей было лень переключать настройки. В итоге глобальный датасет считал ее «сверхчеловеком-бегуном», искажая реальную картину использования дорог [18:11].
3.  **Визуальные артефакты:** На картах ДТП Лондона можно увидеть точки в центре Темзы или в глубине Гайд-парка [16:37]. Это указывает на ошибки в координатах или сообщения об инцидентах, которые технически произошли вне проезжей части (например, нелегальная езда по парковым дорожкам), что требует критической очистки данных перед анализом.

## 📉 Каузальность: почему корреляция — это не причина
[[JUMP:21:45]]

Центральная тема лекции — причинно-следственный вывод (causal inference). Большинство методов машинного обучения сегодня настроены на поиск ассоциаций (корреляций), но они не отвечают на вопрос «почему?». По мнению профессора Маккой, непонимание этого различия ведет к ложным выводам [28:34].

Классические примеры ложных корреляций, вызванных «вмешивающимися факторами» (confounders):

*   **Зажигалки и рак:** Наличие зажигалки в кармане статистически связано с раком легких, но причиной является курение, а не зажигалка [28:48].
*   **Размер ноги и чтение:** Дети с большим размером ноги читают лучше, потому что они старше [29:00].
*   **Шоколад и Нобелевские премии:** Существует публикация, доказывающая корреляцию между потреблением шоколада в стране и количеством нобелевских лауреатов. Очевидным конфаундером здесь является уровень ВВП и развития образования [29:54].

### Феномен потенциальных исходов
Для определения истинной причины ученые используют фреймворк Дональда Рубина — модель потенциальных исходов [24:35]. Проблема в том, что мы никогда не можем наблюдать «контрфактуал». Если человек выпил таблетку от головы и боль прошла, мы не знаем, прошла бы она сама по себе без лекарства. Мы не можем повернуть время вспять и проверить альтернативный сценарий для того же самого человека в тот же момент времени [25:16].

### Парадокс Симпсона на примере COVID-19
Маккой приводит пример анализа данных британской системы Test and Trace (октябрь 2020 года) [22:51]. В общих цифрах наблюдалось падение эффективности контактов с зараженными. Однако при разделении данных на группы (профессиональные медицинские команды HPT и волонтерские центры) выяснилось, что в каждой отдельной группе эффективность *росла* [31:27]. Падение в агрегированных данных было вызвано изменением пропорций между группами — это классический парадокс Симпсона, когда тренд исчезает или меняется на противоположный при объединении групп данных [31:55].

## 🛠 Методы борьбы с искажениями: от РКИ до оценки склонности
[[JUMP:36:22]]

Золотым стандартом науки остаются рандомизированные контролируемые исследования (РКИ), где случайное распределение участников нивелирует влияние скрытых факторов [36:36]. Однако в социальных науках и экологии РКИ часто невозможны по этическим причинам (нельзя заставить людей дышать грязным воздухом для эксперимента).

В таких случаях статистики используют продвинутые инструменты:

1.  **Оценка склонности (Propensity Score):** Математический метод, разработанный Рубином, который позволяет «имитировать» рандомизацию в обсервационных исследованиях. Мы рассчитываем вероятность того, что субъект получит «лечение» (или попадет в определенные условия) на основе его характеристик, а затем сравниваем только похожих людей из разных групп [41:13].
2.  **Метод «разности разностей» (Difference-in-Difference):** Маккой использовала его для анализа влияния зон с ограничением трафика в Ислингтоне [45:27]. Хотя предварительные данные показывали падение уровня загрязнения на 40%, после очистки данных от влияния общенационального локдауна выяснилось, что реальный вклад именно дорожных ограничений в чистоту воздуха составил около 9% [47:11].

## 🧠 Критическое мышление и будущее ИИ
[[JUMP:49:09]]

Завершая выступление, Эмма Маккой подчеркивает важность научной дискуссии. Она цитирует резкую полемику 1986 года между профессором Эренбергом и авторами статьи о ремнях безопасности, где Эренберг назвал использование сложных моделей «интеллектуальной мастурбацией», предлагая смотреть на простые цифры [51:20]. Маккой парирует: именно из-за конфаундеров простые сравнения «до и после» часто ведут к катастрофическим ошибкам в политике [52:39].

Относительно искусственного интеллекта профессор настроена оптимистично, но осторожно. По её мнению, ИИ — это инструмент для усиления человеческого намерения, но он опасен тем, что обучается на исторических данных, в которых заложены все наши прошлые предубеждения и ошибки [53:18]. Если мы будем бездумно полагаться на рекомендации ИИ, мы лишь «пролонгируем прошлое», вместо того чтобы строить будущее, основанное на осознанном анализе причин и следствий.