Книга «How Data Happened» исследует путь данных от эпохи Просвещения до современных алгоритмов, анализируя, как человечество превратило окружающий мир в набор чисел. В рамках программы «Talks at Google» авторы — специалист по данным Крис Уиггинс и историк науки Мэтью Л. Джонс — рассказывают о том, почему данные никогда не бывают нейтральными и как исторические конфликты статистиков определили логику современного ИИ.
📚 История одной дисциплины: от учебного курса до манифеста 1:22
История книги началась в 2015 году в стенах Колумбийского университета, когда Крис Уиггинс и Мэтью Л. Джонс решили запустить совместный курс . По словам Криса Уиггинса, идея возникла из общения со студентами: гуманитариям не хватало понимания технических аспектов, а инженерам — исторического и этического контекста, который обычно считается «нетехническим отступлением» .
Авторы делят историю данных на три ключевых этапа :
- Часть первая: Использование «карандаша и бумаги» для поиска истины и систематизации знаний о мире.
- Часть вторая: Переход к цифровым вычислениям, начавшийся в Блетчли-парке во время Второй мировой войны, где анализ данных объединился с аппаратным обеспечением и промышленными масштабами обработки.
- Часть третья: Современность, характеризующаяся доминированием корпоративного использования данных и алгоритмов, которые управляют повседневной жизнью.
Мэтью Л. Джонс подчеркивает, что на протяжении всех 200 лет, охваченных в книге, сбор данных всегда требовал двух вещей: видения мира как чего-то исчислимого и наличия инфраструктуры (от бумажных архивов до серверов) .
🕵️♂️ Слепые пятна и «научный расизм» в сборе данных 5:36
Одной из центральных тем обсуждения стала субъективность данных. По мнению Криса Уиггинса, решение о том, какие именно данные собирать, а какие — игнорировать, само по себе является актом формирования реальности . Существует опасность, что наличие чисел придает выводам ложную объективность, заставляя забыть о субъективном выборе дизайна на этапе сбора .
Мэтью Л. Джонс приводит в пример исторический спор конца XIX века между страховым аналитиком Фредериком Хоффманом и социологом Уильямом Дюбуа :
- Хоффман использовал данные, чтобы доказать «нестрахуемость» чернокожего населения, утверждая, что с этой группой «что-то не так» на фундаментальном уровне.
- Дюбуа, напротив, утверждал, что те же цифры демонстрируют исторические причины стратификации и системного неравенства.
Этот пример иллюстрирует, как одни и те же данные могут быть интерпретированы диаметрально противоположно в зависимости от мировоззрения исследователя .
🔢 Математика против философии: теорема Байеса в криптографии 7:58
Обсуждая шестую главу книги, авторы затрагивают теорему Байеса. Крис Уиггинс отмечает разрыв между философским пониманием Байеса (как способа обновления наших убеждений о мире) и практическим применением формулы .
В Блетчли-парке взломщики кодов использовали байесовский подход не ради философских дискуссий, а из-за жестких дедлайнов — код менялся ежедневно, и им нужно было быстро вычислить наиболее вероятную конфигурацию настроек . Уиггинс приводит современную аналогию с тестами на COVID: данные теста (чувствительность и специфичность) говорят нам о вероятности результата при наличии болезни, но Байес позволяет инвертировать это и узнать главное — вероятность того, что вы больны, учитывая полученный результат .
📉 Социальная физика и ловушка корреляции 11:33
Мэтью Л. Джонс вспоминает бельгийского статистика Адольфа Кетле, автора индекса массы тела (ИМТ), который ввел понятие «социальной физики» . Кетле верил, что человеческое общество подчиняется законам, аналогичным ньютоновской физике. Он анализировал статистику преступности и разводов как динамические системы, фокусируясь не на индивидуальном выборе, а на поведении масс .
Однако стремление найти закономерности часто приводило к ошибкам. Крис Уиггинс подробно описывает работу статистика Юла Адни 1899 года «О причинах пауперизма в Англии» :
- Юл применил многомерную регрессию и обнаружил положительный коэффициент между объемом социальной помощи и уровнем бедности.
- На основании этого он сделал глубоко политическое заявление: помощь бедным вызывает бедность .
- При этом, как отмечает Уиггинс, Юл осознавал манипуляцию: в сноске №25 он указал, что «причинно-следственную связь следует читать как ассоциацию» .
Авторы подчеркивают: наличие прогностической модели с отличными показателями (например, высоким AUC) не означает, что вы понимаете причинно-следственные связи .
⚔️ Война статистиков: Фишер против Неймана 16:10
Современная наука во многом полагается на проверку статистической значимости, которая, по мнению Мэтью Л. Джонса, сейчас находится в состоянии кризиса . Эта система возникла из споров ученых с радикально разными взглядами:
- Уильям Госсет (псевдоним Стьюдент): Работал на пивоварню Guinness и искал экономичные способы настройки экспериментов с ячменем .
- Рональд Фишер: Превратил статистику в теорию научного поиска, предложив концепцию рандомизированных испытаний и «магическое» число p < 0,05 .
- Ежи Нейман: Рассматривал статистику как теорию принятия решений для практических действий .
Фишер и Нейман ненавидели друг друга и обменивались оскорблениями в научной литературе . Крис Уиггинс иронично замечает, что для обоих «самым страшным ругательством было назвать оппонента байесианцем» . В итоге их противоречивые идеи были «сглажены» и упакованы в современные учебники, создав обманчивое впечатление единства метода .
🤖 Эволюция ИИ: от правил к данным 20:53
Авторы обсуждают фундаментальный сдвиг в понимании искусственного интеллекта. В середине XX века господствовал антиэмпирический подход: считалось, что высшие способности человека (язык, математика) не могут возникнуть из опыта и данных . Такие мыслители, как Ноам Хомский, атаковали бихевиористские модели обучения .
Однако к 1990-м годам ситуация изменилась. Мэтью Л. Джонс ссылается на знаменитую работу исследователей Google под названием «Невероятная эффективность данных» (The Unreasonable Effectiveness of Data), в которой утверждалось, что язык больше похож на эмпирическую науку, чем на набор жестких физических правил . Современный успех больших языковых моделей (LLM) — это победа обучения на данных над жестким программированием логики .
🛡️ Приватность как экология, а не личный выбор 23:49
Говоря о защите данных, Мэтью Л. Джонс критикует «индивидуалистический» подход к приватности. С 1970-х годов в США сложилось мнение, что приватность — это личная проблема, решаемая индивидуальными действиями, например, отказом от cookie-файлов в браузере .
По мнению Джонса, приватность — это «экологическая концепция», затрагивающая все общество . Крис Уиггинс описывает современную ситуацию как нестабильную игру трех игроков :
- Корпоративная власть: Компании могут «деплатформировать» друг друга или менять политику в одностороннем порядке, влияя на миллионы пользователей.
- Государственная власть: Регуляции (например, GDPR в ЕС) оказывают влияние на весь мир, так как компании работают глобально .
- Индивидуальная власть: Решения отдельных инженеров и владельцев продуктов, которые переводят принципы в строки кода .
🩺 Будущее: причинность и данные о здоровье 27:39
Крис Уиггинс видит огромный потенциал в области здравоохранения, но отмечает серьезные барьеры . Одной из главных проблем остается деидентификация данных. Уиггинс рассказывает историю профессора Латаньи Суини, которая, будучи студенткой MIT, показала, что «анонимные» медицинские базы легко взламываются путем сопоставления с открытыми данными (например, списками избирателей) по трем полям: почтовый индекс, дата рождения и пол .
Мэтью Л. Джонс добавляет, что при анализе больших данных нельзя полагаться на аргумент властей о том, что «это всего лишь метаданные». Метаданные в масштабе страны — это мощнейший инструмент нарушения приватности .
В завершение авторы приходят к выводу, что алгоритмы не являются «ни добром, ни злом», но представляют собой новую инфраструктуру общества . По мнению Мэтью Л. Джонса, развитие ИИ должно происходить в тесной связке с сообществами, на которые он влияет — от муниципалитетов до школ и тюрем, — чтобы этические последствия учитывались на этапе проектирования, а не после внедрения .