Крис Уиггинс и Мэтью Л. Джонс: как данные превратились из инструмента науки в механизм власти

Книга «How Data Happened» исследует путь данных от эпохи Просвещения до современных алгоритмов, анализируя, как человечество превратило окружающий мир в набор чисел. В рамках программы «Talks at Google» авторы — специалист по данным Крис Уиггинс и историк науки Мэтью Л. Джонс — рассказывают о том, почему данные никогда не бывают нейтральными и как исторические конфликты статистиков определили логику современного ИИ.

📚 История одной дисциплины: от учебного курса до манифеста 1:22

История книги началась в 2015 году в стенах Колумбийского университета, когда Крис Уиггинс и Мэтью Л. Джонс решили запустить совместный курс . По словам Криса Уиггинса, идея возникла из общения со студентами: гуманитариям не хватало понимания технических аспектов, а инженерам — исторического и этического контекста, который обычно считается «нетехническим отступлением» .

Авторы делят историю данных на три ключевых этапа :

Часть первая: Использование «карандаша и бумаги» для поиска истины и систематизации знаний о мире.
Часть вторая: Переход к цифровым вычислениям, начавшийся в Блетчли-парке во время Второй мировой войны, где анализ данных объединился с аппаратным обеспечением и промышленными масштабами обработки.
Часть третья: Современность, характеризующаяся доминированием корпоративного использования данных и алгоритмов, которые управляют повседневной жизнью.

Мэтью Л. Джонс подчеркивает, что на протяжении всех 200 лет, охваченных в книге, сбор данных всегда требовал двух вещей: видения мира как чего-то исчислимого и наличия инфраструктуры (от бумажных архивов до серверов) .

🕵️‍♂️ Слепые пятна и «научный расизм» в сборе данных 5:36

Одной из центральных тем обсуждения стала субъективность данных. По мнению Криса Уиггинса, решение о том, какие именно данные собирать, а какие — игнорировать, само по себе является актом формирования реальности . Существует опасность, что наличие чисел придает выводам ложную объективность, заставляя забыть о субъективном выборе дизайна на этапе сбора .

Мэтью Л. Джонс приводит в пример исторический спор конца XIX века между страховым аналитиком Фредериком Хоффманом и социологом Уильямом Дюбуа :

Хоффман использовал данные, чтобы доказать «нестрахуемость» чернокожего населения, утверждая, что с этой группой «что-то не так» на фундаментальном уровне.
Дюбуа, напротив, утверждал, что те же цифры демонстрируют исторические причины стратификации и системного неравенства.

Этот пример иллюстрирует, как одни и те же данные могут быть интерпретированы диаметрально противоположно в зависимости от мировоззрения исследователя .

🔢 Математика против философии: теорема Байеса в криптографии 7:58

Обсуждая шестую главу книги, авторы затрагивают теорему Байеса. Крис Уиггинс отмечает разрыв между философским пониманием Байеса (как способа обновления наших убеждений о мире) и практическим применением формулы .

В Блетчли-парке взломщики кодов использовали байесовский подход не ради философских дискуссий, а из-за жестких дедлайнов — код менялся ежедневно, и им нужно было быстро вычислить наиболее вероятную конфигурацию настроек . Уиггинс приводит современную аналогию с тестами на COVID: данные теста (чувствительность и специфичность) говорят нам о вероятности результата при наличии болезни, но Байес позволяет инвертировать это и узнать главное — вероятность того, что вы больны, учитывая полученный результат .

📉 Социальная физика и ловушка корреляции 11:33

Мэтью Л. Джонс вспоминает бельгийского статистика Адольфа Кетле, автора индекса массы тела (ИМТ), который ввел понятие «социальной физики» . Кетле верил, что человеческое общество подчиняется законам, аналогичным ньютоновской физике. Он анализировал статистику преступности и разводов как динамические системы, фокусируясь не на индивидуальном выборе, а на поведении масс .

Однако стремление найти закономерности часто приводило к ошибкам. Крис Уиггинс подробно описывает работу статистика Юла Адни 1899 года «О причинах пауперизма в Англии» :

Юл применил многомерную регрессию и обнаружил положительный коэффициент между объемом социальной помощи и уровнем бедности.
На основании этого он сделал глубоко политическое заявление: помощь бедным вызывает бедность .
При этом, как отмечает Уиггинс, Юл осознавал манипуляцию: в сноске №25 он указал, что «причинно-следственную связь следует читать как ассоциацию» .

Авторы подчеркивают: наличие прогностической модели с отличными показателями (например, высоким AUC) не означает, что вы понимаете причинно-следственные связи .

⚔️ Война статистиков: Фишер против Неймана 16:10

Современная наука во многом полагается на проверку статистической значимости, которая, по мнению Мэтью Л. Джонса, сейчас находится в состоянии кризиса . Эта система возникла из споров ученых с радикально разными взглядами:

Уильям Госсет (псевдоним Стьюдент): Работал на пивоварню Guinness и искал экономичные способы настройки экспериментов с ячменем .
Рональд Фишер: Превратил статистику в теорию научного поиска, предложив концепцию рандомизированных испытаний и «магическое» число p < 0,05 .
Ежи Нейман: Рассматривал статистику как теорию принятия решений для практических действий .

Фишер и Нейман ненавидели друг друга и обменивались оскорблениями в научной литературе . Крис Уиггинс иронично замечает, что для обоих «самым страшным ругательством было назвать оппонента байесианцем» . В итоге их противоречивые идеи были «сглажены» и упакованы в современные учебники, создав обманчивое впечатление единства метода .

🤖 Эволюция ИИ: от правил к данным 20:53

Авторы обсуждают фундаментальный сдвиг в понимании искусственного интеллекта. В середине XX века господствовал антиэмпирический подход: считалось, что высшие способности человека (язык, математика) не могут возникнуть из опыта и данных . Такие мыслители, как Ноам Хомский, атаковали бихевиористские модели обучения .

Однако к 1990-м годам ситуация изменилась. Мэтью Л. Джонс ссылается на знаменитую работу исследователей Google под названием «Невероятная эффективность данных» (The Unreasonable Effectiveness of Data), в которой утверждалось, что язык больше похож на эмпирическую науку, чем на набор жестких физических правил . Современный успех больших языковых моделей (LLM) — это победа обучения на данных над жестким программированием логики .

🛡️ Приватность как экология, а не личный выбор 23:49

Говоря о защите данных, Мэтью Л. Джонс критикует «индивидуалистический» подход к приватности. С 1970-х годов в США сложилось мнение, что приватность — это личная проблема, решаемая индивидуальными действиями, например, отказом от cookie-файлов в браузере .

По мнению Джонса, приватность — это «экологическая концепция», затрагивающая все общество . Крис Уиггинс описывает современную ситуацию как нестабильную игру трех игроков :

Корпоративная власть: Компании могут «деплатформировать» друг друга или менять политику в одностороннем порядке, влияя на миллионы пользователей.
Государственная власть: Регуляции (например, GDPR в ЕС) оказывают влияние на весь мир, так как компании работают глобально .
Индивидуальная власть: Решения отдельных инженеров и владельцев продуктов, которые переводят принципы в строки кода .

🩺 Будущее: причинность и данные о здоровье 27:39

Крис Уиггинс видит огромный потенциал в области здравоохранения, но отмечает серьезные барьеры . Одной из главных проблем остается деидентификация данных. Уиггинс рассказывает историю профессора Латаньи Суини, которая, будучи студенткой MIT, показала, что «анонимные» медицинские базы легко взламываются путем сопоставления с открытыми данными (например, списками избирателей) по трем полям: почтовый индекс, дата рождения и пол .

Мэтью Л. Джонс добавляет, что при анализе больших данных нельзя полагаться на аргумент властей о том, что «это всего лишь метаданные». Метаданные в масштабе страны — это мощнейший инструмент нарушения приватности .

В завершение авторы приходят к выводу, что алгоритмы не являются «ни добром, ни злом», но представляют собой новую инфраструктуру общества . По мнению Мэтью Л. Джонса, развитие ИИ должно происходить в тесной связке с сообществами, на которые он влияет — от муниципалитетов до школ и тюрем, — чтобы этические последствия учитывались на этапе проектирования, а не после внедрения .