Крис Уиггинс и Мэтью Л. Джонс: как данные превратились из инструмента науки в механизм власти

Talks at Google 5,4 тыс. 43 мин 6 мин 21.04.2023
Главное

Книга «How Data Happened» исследует путь данных от эпохи Просвещения до современных алгоритмов, анализируя, как человечество превратило окружающий мир в набор чисел. В рамках программы «Talks at Google» авторы — специалист по данным Крис Уиггинс и историк науки Мэтью Л. Джонс — рассказывают о том, почему данные никогда не бывают нейтральными и как исторические конфликты статистиков определили логику современного ИИ.

📚 История одной дисциплины: от учебного курса до манифеста 1:22

История книги началась в 2015 году в стенах Колумбийского университета, когда Крис Уиггинс и Мэтью Л. Джонс решили запустить совместный курс . По словам Криса Уиггинса, идея возникла из общения со студентами: гуманитариям не хватало понимания технических аспектов, а инженерам — исторического и этического контекста, который обычно считается «нетехническим отступлением» .

Авторы делят историю данных на три ключевых этапа :

Мэтью Л. Джонс подчеркивает, что на протяжении всех 200 лет, охваченных в книге, сбор данных всегда требовал двух вещей: видения мира как чего-то исчислимого и наличия инфраструктуры (от бумажных архивов до серверов) .

🕵️‍♂️ Слепые пятна и «научный расизм» в сборе данных 5:36

Одной из центральных тем обсуждения стала субъективность данных. По мнению Криса Уиггинса, решение о том, какие именно данные собирать, а какие — игнорировать, само по себе является актом формирования реальности . Существует опасность, что наличие чисел придает выводам ложную объективность, заставляя забыть о субъективном выборе дизайна на этапе сбора .

Мэтью Л. Джонс приводит в пример исторический спор конца XIX века между страховым аналитиком Фредериком Хоффманом и социологом Уильямом Дюбуа :

Этот пример иллюстрирует, как одни и те же данные могут быть интерпретированы диаметрально противоположно в зависимости от мировоззрения исследователя .

🔢 Математика против философии: теорема Байеса в криптографии 7:58

Обсуждая шестую главу книги, авторы затрагивают теорему Байеса. Крис Уиггинс отмечает разрыв между философским пониманием Байеса (как способа обновления наших убеждений о мире) и практическим применением формулы .

В Блетчли-парке взломщики кодов использовали байесовский подход не ради философских дискуссий, а из-за жестких дедлайнов — код менялся ежедневно, и им нужно было быстро вычислить наиболее вероятную конфигурацию настроек . Уиггинс приводит современную аналогию с тестами на COVID: данные теста (чувствительность и специфичность) говорят нам о вероятности результата при наличии болезни, но Байес позволяет инвертировать это и узнать главное — вероятность того, что вы больны, учитывая полученный результат .

📉 Социальная физика и ловушка корреляции 11:33

Мэтью Л. Джонс вспоминает бельгийского статистика Адольфа Кетле, автора индекса массы тела (ИМТ), который ввел понятие «социальной физики» . Кетле верил, что человеческое общество подчиняется законам, аналогичным ньютоновской физике. Он анализировал статистику преступности и разводов как динамические системы, фокусируясь не на индивидуальном выборе, а на поведении масс .

Однако стремление найти закономерности часто приводило к ошибкам. Крис Уиггинс подробно описывает работу статистика Юла Адни 1899 года «О причинах пауперизма в Англии» :

Авторы подчеркивают: наличие прогностической модели с отличными показателями (например, высоким AUC) не означает, что вы понимаете причинно-следственные связи .

⚔️ Война статистиков: Фишер против Неймана 16:10

Современная наука во многом полагается на проверку статистической значимости, которая, по мнению Мэтью Л. Джонса, сейчас находится в состоянии кризиса . Эта система возникла из споров ученых с радикально разными взглядами:

  1. Уильям Госсет (псевдоним Стьюдент): Работал на пивоварню Guinness и искал экономичные способы настройки экспериментов с ячменем .
  2. Рональд Фишер: Превратил статистику в теорию научного поиска, предложив концепцию рандомизированных испытаний и «магическое» число p < 0,05 .
  3. Ежи Нейман: Рассматривал статистику как теорию принятия решений для практических действий .

Фишер и Нейман ненавидели друг друга и обменивались оскорблениями в научной литературе . Крис Уиггинс иронично замечает, что для обоих «самым страшным ругательством было назвать оппонента байесианцем» . В итоге их противоречивые идеи были «сглажены» и упакованы в современные учебники, создав обманчивое впечатление единства метода .

🤖 Эволюция ИИ: от правил к данным 20:53

Авторы обсуждают фундаментальный сдвиг в понимании искусственного интеллекта. В середине XX века господствовал антиэмпирический подход: считалось, что высшие способности человека (язык, математика) не могут возникнуть из опыта и данных . Такие мыслители, как Ноам Хомский, атаковали бихевиористские модели обучения .

Однако к 1990-м годам ситуация изменилась. Мэтью Л. Джонс ссылается на знаменитую работу исследователей Google под названием «Невероятная эффективность данных» (The Unreasonable Effectiveness of Data), в которой утверждалось, что язык больше похож на эмпирическую науку, чем на набор жестких физических правил . Современный успех больших языковых моделей (LLM) — это победа обучения на данных над жестким программированием логики .

🛡️ Приватность как экология, а не личный выбор 23:49

Говоря о защите данных, Мэтью Л. Джонс критикует «индивидуалистический» подход к приватности. С 1970-х годов в США сложилось мнение, что приватность — это личная проблема, решаемая индивидуальными действиями, например, отказом от cookie-файлов в браузере .

По мнению Джонса, приватность — это «экологическая концепция», затрагивающая все общество . Крис Уиггинс описывает современную ситуацию как нестабильную игру трех игроков :

  1. Корпоративная власть: Компании могут «деплатформировать» друг друга или менять политику в одностороннем порядке, влияя на миллионы пользователей.
  2. Государственная власть: Регуляции (например, GDPR в ЕС) оказывают влияние на весь мир, так как компании работают глобально .
  3. Индивидуальная власть: Решения отдельных инженеров и владельцев продуктов, которые переводят принципы в строки кода .

🩺 Будущее: причинность и данные о здоровье 27:39

Крис Уиггинс видит огромный потенциал в области здравоохранения, но отмечает серьезные барьеры . Одной из главных проблем остается деидентификация данных. Уиггинс рассказывает историю профессора Латаньи Суини, которая, будучи студенткой MIT, показала, что «анонимные» медицинские базы легко взламываются путем сопоставления с открытыми данными (например, списками избирателей) по трем полям: почтовый индекс, дата рождения и пол .

Мэтью Л. Джонс добавляет, что при анализе больших данных нельзя полагаться на аргумент властей о том, что «это всего лишь метаданные». Метаданные в масштабе страны — это мощнейший инструмент нарушения приватности .

В завершение авторы приходят к выводу, что алгоритмы не являются «ни добром, ни злом», но представляют собой новую инфраструктуру общества . По мнению Мэтью Л. Джонса, развитие ИИ должно происходить в тесной связке с сообществами, на которые он влияет — от муниципалитетов до школ и тюрем, — чтобы этические последствия учитывались на этапе проектирования, а не после внедрения .

💬 Цитаты

«Решение о том, какие данные собираются, а какие нет — это место, где мы формируем понимание истины, навязывая свое мировоззрение.»

Крис Уиггинс 06:28

«Для Фишера и Неймана не было большего оскорбления, чем сказать, что вы байесианец.»

Крис Уиггинс 20:39

«Данные — это не просто числа, это инфраструктура, которая может либо возвышать сообщества, либо разделять их, как шоссе через Бронкс.»

Мэтью Л. Джонс 32:55
👥 Спикеры
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
Теорема Байеса
Математическая формула, позволяющая определить вероятность события при условии, что произошло другое статистически взаимозависимое событие.
Пауперизм
Массовая бедность, нищета; в контексте статьи обсуждается исследование 1899 года о его причинах.
P-value
Показатель, используемый в статистике для определения того, является ли полученный результат случайным или закономерным.
LLM
Большие языковые модели, тип ИИ, способный генерировать текст и понимать естественный язык (например, ChatGPT).
📊 Цифры
🗓 Хронология
  1. 1899 Публикация работы Юла Адни о причинах бедности в Англии с использованием регрессии.
  2. 1970-е Принятие принципов Белмонта и формирование основ этики и приватности данных в США.
  3. 2009 Публикация статьи Google о 'невероятной эффективности данных', изменившей подход к ИИ.
  4. 2015 Крис Уиггинс и Мэтью Л. Джонс начинают преподавать совместный курс, ставший основой книги.
⚖️ Другая сторона
Наука Chris Wiggins Matthew L. Jones How Data Happened Bayes' theorem LLM