Эмма Маккой: «Почему Big Data без понимания причин — это путь к опасным заблуждениям»

Как данные могут вводить в заблуждение и почему накопление огромных массивов информации не всегда ведет к пониманию истины? В своей лекции в The Royal Institution профессор математики Эмма Маккой (Emma McCoy) разбирает ловушки статистического анализа, объясняет концепцию «темных данных» и доказывает, почему для принятия верных решений нам необходимо переходить от простого изучения корреляций к глубокому пониманию причинно-следственных связей.

📊 Парадокс изобилия: темные данные и экологический след 4:27

Современный мир одержим сбором данных, однако, по мнению Эммы Маккой, количество редко переходит в качество. Нам кажется, что чем больше информации мы сохраняем, тем точнее будут наши прогнозы, но на практике человечество сталкивается с проблемой «темных данных» (dark data) — массивов информации, которые собираются, хранятся, но никогда не используются для получения полезных выводов .

Профессор выделяет несколько критических проблем текущего подхода к данным:

Избыточность и устаревание: Огромная часть данных на серверах и личных устройствах является дублирующей, тривиальной или устаревшей.
Экологическая стоимость: Сбор и обработка данных имеют колоссальный углеродный след. По прогнозам, к 2025 году объем данных в мире достигнет 170 зеттабайт . Передача всего одного гигабайта информации требует от 3 до 7 кВт⋅ч электроэнергии, а обучение одной крупной модели ИИ сопряжено с выбросом более 300 тонн CO2 .
«Великие» данные вместо «Больших»: Ссылаясь на доктора Дженнифер Пренки (Google DeepMind), Маккой подчеркивает необходимость перехода от Big Data к Great Data — данным, собранным и используемым целенаправленно .

В контексте развития ИИ это означает возможный сдвиг от гигантских языковых моделей (LLM) к компактным, контекстно-ориентированным моделям, которые требуют меньше ресурсов и дают более точные ответы в специфических областях .

🚴 Личный опыт: данные как средство выживания 8:56

Эмма Маккой признается в «одержимости данными», утверждая, что использует их для решения практически любых жизненных вопросов. Ее интерес к статистике ДТП возник из сугубо личного страха при езде на велосипеде из Кэмдена в Имперский колледж Лондона . Разбирая открытые датасеты, такие как Stats 19 (полицейские отчеты обо всех ДТП в Великобритании), она пришла к выводу, что интуитивное восприятие опасности часто обманчиво.

Примеры ловушек в данных о транспорте:

Проблема репрезентативности: Заголовок в СМИ «Смертность среди велосипедистов в 17 раз выше, чем у автомобилистов» может быть математически верным на основе сырых данных, но он не учитывает экспозицию (время в пути, пройденное расстояние) и тип дорог .
Искажения в Strava: Тепловые карты популярного приложения для спортсменов могут лгать. Сама Маккой приводит пример: она использовала Garmin в режиме «бег» во время поездок на велосипеде, потому что ей было лень переключать настройки. В итоге глобальный датасет считал ее «сверхчеловеком-бегуном», искажая реальную картину использования дорог .
Визуальные артефакты: На картах ДТП Лондона можно увидеть точки в центре Темзы или в глубине Гайд-парка . Это указывает на ошибки в координатах или сообщения об инцидентах, которые технически произошли вне проезжей части (например, нелегальная езда по парковым дорожкам), что требует критической очистки данных перед анализом.

📉 Каузальность: почему корреляция — это не причина 21:45

Центральная тема лекции — причинно-следственный вывод (causal inference). Большинство методов машинного обучения сегодня настроены на поиск ассоциаций (корреляций), но они не отвечают на вопрос «почему?». По мнению профессора Маккой, непонимание этого различия ведет к ложным выводам .

Классические примеры ложных корреляций, вызванных «вмешивающимися факторами» (confounders):

Зажигалки и рак: Наличие зажигалки в кармане статистически связано с раком легких, но причиной является курение, а не зажигалка .
Размер ноги и чтение: Дети с большим размером ноги читают лучше, потому что они старше .
Шоколад и Нобелевские премии: Существует публикация, доказывающая корреляцию между потреблением шоколада в стране и количеством нобелевских лауреатов. Очевидным конфаундером здесь является уровень ВВП и развития образования .

Феномен потенциальных исходов

Для определения истинной причины ученые используют фреймворк Дональда Рубина — модель потенциальных исходов . Проблема в том, что мы никогда не можем наблюдать «контрфактуал». Если человек выпил таблетку от головы и боль прошла, мы не знаем, прошла бы она сама по себе без лекарства. Мы не можем повернуть время вспять и проверить альтернативный сценарий для того же самого человека в тот же момент времени .

Парадокс Симпсона на примере COVID-19

Маккой приводит пример анализа данных британской системы Test and Trace (октябрь 2020 года) . В общих цифрах наблюдалось падение эффективности контактов с зараженными. Однако при разделении данных на группы (профессиональные медицинские команды HPT и волонтерские центры) выяснилось, что в каждой отдельной группе эффективность росла . Падение в агрегированных данных было вызвано изменением пропорций между группами — это классический парадокс Симпсона, когда тренд исчезает или меняется на противоположный при объединении групп данных .

🛠 Методы борьбы с искажениями: от РКИ до оценки склонности 36:22

Золотым стандартом науки остаются рандомизированные контролируемые исследования (РКИ), где случайное распределение участников нивелирует влияние скрытых факторов . Однако в социальных науках и экологии РКИ часто невозможны по этическим причинам (нельзя заставить людей дышать грязным воздухом для эксперимента).

В таких случаях статистики используют продвинутые инструменты:

Оценка склонности (Propensity Score): Математический метод, разработанный Рубином, который позволяет «имитировать» рандомизацию в обсервационных исследованиях. Мы рассчитываем вероятность того, что субъект получит «лечение» (или попадет в определенные условия) на основе его характеристик, а затем сравниваем только похожих людей из разных групп .
Метод «разности разностей» (Difference-in-Difference): Маккой использовала его для анализа влияния зон с ограничением трафика в Ислингтоне . Хотя предварительные данные показывали падение уровня загрязнения на 40%, после очистки данных от влияния общенационального локдауна выяснилось, что реальный вклад именно дорожных ограничений в чистоту воздуха составил около 9% .

🧠 Критическое мышление и будущее ИИ 49:09

Завершая выступление, Эмма Маккой подчеркивает важность научной дискуссии. Она цитирует резкую полемику 1986 года между профессором Эренбергом и авторами статьи о ремнях безопасности, где Эренберг назвал использование сложных моделей «интеллектуальной мастурбацией», предлагая смотреть на простые цифры . Маккой парирует: именно из-за конфаундеров простые сравнения «до и после» часто ведут к катастрофическим ошибкам в политике .

Относительно искусственного интеллекта профессор настроена оптимистично, но осторожно. По её мнению, ИИ — это инструмент для усиления человеческого намерения, но он опасен тем, что обучается на исторических данных, в которых заложены все наши прошлые предубеждения и ошибки . Если мы будем бездумно полагаться на рекомендации ИИ, мы лишь «пролонгируем прошлое», вместо того чтобы строить будущее, основанное на осознанном анализе причин и следствий.