# Крис Уиггинс и Мэтью Л. Джонс: как данные превратились из инструмента науки в механизм власти

Источник: https://www.youtube.com/watch?v=OfBFjbVKCLc
Канал: Talks at Google
Опубликовано: 21.04.2023

---

Книга «How Data Happened» исследует путь данных от эпохи Просвещения до современных алгоритмов, анализируя, как человечество превратило окружающий мир в набор чисел. В рамках программы «Talks at Google» авторы — специалист по данным Крис Уиггинс и историк науки Мэтью Л. Джонс — рассказывают о том, почему данные никогда не бывают нейтральными и как исторические конфликты статистиков определили логику современного ИИ.

## 📚 История одной дисциплины: от учебного курса до манифеста
[[JUMP:01:22]]

История книги началась в 2015 году в стенах Колумбийского университета, когда Крис Уиггинс и Мэтью Л. Джонс решили запустить совместный курс [02:02]. По словам Криса Уиггинса, идея возникла из общения со студентами: гуманитариям не хватало понимания технических аспектов, а инженерам — исторического и этического контекста, который обычно считается «нетехническим отступлением» [02:28].

Авторы делят историю данных на три ключевых этапа [04:05]:

*   **Часть первая:** Использование «карандаша и бумаги» для поиска истины и систематизации знаний о мире.
*   **Часть вторая:** Переход к цифровым вычислениям, начавшийся в Блетчли-парке во время Второй мировой войны, где анализ данных объединился с аппаратным обеспечением и промышленными масштабами обработки.
*   **Часть третья:** Современность, характеризующаяся доминированием корпоративного использования данных и алгоритмов, которые управляют повседневной жизнью.

Мэтью Л. Джонс подчеркивает, что на протяжении всех 200 лет, охваченных в книге, сбор данных всегда требовал двух вещей: видения мира как чего-то исчислимого и наличия инфраструктуры (от бумажных архивов до серверов) [05:11].

## 🕵️‍♂️ Слепые пятна и «научный расизм» в сборе данных
[[JUMP:05:36]]

Одной из центральных тем обсуждения стала субъективность данных. По мнению Криса Уиггинса, решение о том, какие именно данные собирать, а какие — игнорировать, само по себе является актом формирования реальности [06:28]. Существует опасность, что наличие чисел придает выводам ложную объективность, заставляя забыть о субъективном выборе дизайна на этапе сбора [06:54].

Мэтью Л. Джонс приводит в пример исторический спор конца XIX века между страховым аналитиком Фредериком Хоффманом и социологом Уильямом Дюбуа [07:06]:

*   Хоффман использовал данные, чтобы доказать «нестрахуемость» чернокожего населения, утверждая, что с этой группой «что-то не так» на фундаментальном уровне.
*   Дюбуа, напротив, утверждал, что те же цифры демонстрируют исторические причины стратификации и системного неравенства.

Этот пример иллюстрирует, как одни и те же данные могут быть интерпретированы диаметрально противоположно в зависимости от мировоззрения исследователя [07:46].

## 🔢 Математика против философии: теорема Байеса в криптографии
[[JUMP:07:58]]

Обсуждая шестую главу книги, авторы затрагивают теорему Байеса. Крис Уиггинс отмечает разрыв между философским пониманием Байеса (как способа обновления наших убеждений о мире) и практическим применением формулы [08:13]. 

В Блетчли-парке взломщики кодов использовали байесовский подход не ради философских дискуссий, а из-за жестких дедлайнов — код менялся ежедневно, и им нужно было быстро вычислить наиболее вероятную конфигурацию настроек [09:59]. Уиггинс приводит современную аналогию с тестами на COVID: данные теста (чувствительность и специфичность) говорят нам о вероятности результата при наличии болезни, но Байес позволяет инвертировать это и узнать главное — вероятность того, что вы больны, учитывая полученный результат [09:07].

## 📉 Социальная физика и ловушка корреляции
[[JUMP:11:33]]

Мэтью Л. Джонс вспоминает бельгийского статистика Адольфа Кетле, автора индекса массы тела (ИМТ), который ввел понятие «социальной физики» [12:01]. Кетле верил, что человеческое общество подчиняется законам, аналогичным ньютоновской физике. Он анализировал статистику преступности и разводов как динамические системы, фокусируясь не на индивидуальном выборе, а на поведении масс [12:53].

Однако стремление найти закономерности часто приводило к ошибкам. Крис Уиггинс подробно описывает работу статистика Юла Адни 1899 года «О причинах пауперизма в Англии» [14:04]:

*   Юл применил многомерную регрессию и обнаружил положительный коэффициент между объемом социальной помощи и уровнем бедности.
*   На основании этого он сделал глубоко политическое заявление: помощь бедным *вызывает* бедность [14:33].
*   При этом, как отмечает Уиггинс, Юл осознавал манипуляцию: в сноске №25 он указал, что «причинно-следственную связь следует читать как ассоциацию» [15:18].

Авторы подчеркивают: наличие прогностической модели с отличными показателями (например, высоким AUC) не означает, что вы понимаете причинно-следственные связи [15:57].

## ⚔️ Война статистиков: Фишер против Неймана
[[JUMP:16:10]]

Современная наука во многом полагается на проверку статистической значимости, которая, по мнению Мэтью Л. Джонса, сейчас находится в состоянии кризиса [16:40]. Эта система возникла из споров ученых с радикально разными взглядами:

1.  **Уильям Госсет (псевдоним Стьюдент):** Работал на пивоварню Guinness и искал экономичные способы настройки экспериментов с ячменем [17:10].
2.  **Рональд Фишер:** Превратил статистику в теорию научного поиска, предложив концепцию рандомизированных испытаний и «магическое» число p < 0,05 [18:08].
3.  **Ежи Нейман:** Рассматривал статистику как теорию принятия решений для практических действий [18:08].

Фишер и Нейман ненавидели друг друга и обменивались оскорблениями в научной литературе [20:25]. Крис Уиггинс иронично замечает, что для обоих «самым страшным ругательством было назвать оппонента байесианцем» [20:39]. В итоге их противоречивые идеи были «сглажены» и упакованы в современные учебники, создав обманчивое впечатление единства метода [18:23].

## 🤖 Эволюция ИИ: от правил к данным
[[JUMP:20:53]]

Авторы обсуждают фундаментальный сдвиг в понимании искусственного интеллекта. В середине XX века господствовал антиэмпирический подход: считалось, что высшие способности человека (язык, математика) не могут возникнуть из опыта и данных [21:06]. Такие мыслители, как Ноам Хомский, атаковали бихевиористские модели обучения [22:20].

Однако к 1990-м годам ситуация изменилась. Мэтью Л. Джонс ссылается на знаменитую работу исследователей Google под названием «Невероятная эффективность данных» (The Unreasonable Effectiveness of Data), в которой утверждалось, что язык больше похож на эмпирическую науку, чем на набор жестких физических правил [23:30]. Современный успех больших языковых моделей (LLM) — это победа обучения на данных над жестким программированием логики [34:18].

## 🛡️ Приватность как экология, а не личный выбор
[[JUMP:23:49]]

Говоря о защите данных, Мэтью Л. Джонс критикует «индивидуалистический» подход к приватности. С 1970-х годов в США сложилось мнение, что приватность — это личная проблема, решаемая индивидуальными действиями, например, отказом от cookie-файлов в браузере [25:09]. 

По мнению Джонса, приватность — это «экологическая концепция», затрагивающая все общество [24:56]. Крис Уиггинс описывает современную ситуацию как нестабильную игру трех игроков [27:23]:

1.  **Корпоративная власть:** Компании могут «деплатформировать» друг друга или менять политику в одностороннем порядке, влияя на миллионы пользователей.
2.  **Государственная власть:** Регуляции (например, GDPR в ЕС) оказывают влияние на весь мир, так как компании работают глобально [26:17].
3.  **Индивидуальная власть:** Решения отдельных инженеров и владельцев продуктов, которые переводят принципы в строки кода [26:42].

## 🩺 Будущее: причинность и данные о здоровье
[[JUMP:27:39]]

Крис Уиггинс видит огромный потенциал в области здравоохранения, но отмечает серьезные барьеры [28:48]. Одной из главных проблем остается деидентификация данных. Уиггинс рассказывает историю профессора Латаньи Суини, которая, будучи студенткой MIT, показала, что «анонимные» медицинские базы легко взламываются путем сопоставления с открытыми данными (например, списками избирателей) по трем полям: почтовый индекс, дата рождения и пол [37:08].

Мэтью Л. Джонс добавляет, что при анализе больших данных нельзя полагаться на аргумент властей о том, что «это всего лишь метаданные». Метаданные в масштабе страны — это мощнейший инструмент нарушения приватности [38:42].

В завершение авторы приходят к выводу, что алгоритмы не являются «ни добром, ни злом», но представляют собой новую инфраструктуру общества [32:41]. По мнению Мэтью Л. Джонса, развитие ИИ должно происходить в тесной связке с сообществами, на которые он влияет — от муниципалитетов до школ и тюрем, — чтобы этические последствия учитывались на этапе проектирования, а не после внедрения [30:50].