Биг-дата: цифровой телескоп или оружие математического поражения?

World Science Festival 25,1 тыс. 1 ч 28 мин 4 мин 30.03.2017
Главное

В эпоху, когда данные называют «новой нефтью», грань между научным прорывом и социальной катастрофой становится всё тоньше. На панельной дискуссии World Science Festival ведущие эксперты в области нейробиологии, математики и социологии обсудили, как Big Data меняет наше понимание мира — от расшифровки генома до предсказания преступлений. Главный вывод: данные не являются объективной истиной, а их неправильная интерпретация может закрепить историческую несправедливость на уровне программного кода.

🧬 От секвенирования генома до социальных сетей 0:00

Большинство участников дискуссии начали свою карьеру в 1990-х годах, когда термина «Data Science» еще не существовало, а работа с большими массивами информации считалась уделом «странных гиков». Крис Уиггинс вспоминает, как в 1995 году публикация в журнале Science первого полностью секвенированного генома бактерии Haemophilus influenzae навсегда изменила биологию.

Ключевые вехи становления индустрии по версии экспертов:

Дункан Уоттс сравнивает интернет и цифровые данные с изобретением телескопа. По его мнению, этот инструмент сделал видимыми социальные процессы, которые раньше были скрыты, подобно тому как микроскоп открыл мир бактерий внутри клетки.

📈 Почему предсказать человека проще, чем рак? 21:27

Крис Уиггинс отмечает парадокс: современные алгоритмы гораздо успешнее предсказывают поведение людей (например, отмену подписки на газету), чем поведение биологических систем.

Причины сложности биологических прогнозов:

  1. Проблема точности: В бизнесе достаточно быть правым в 51% случаев, чтобы зарабатывать миллионы, но в медицине ошибка в предсказании взаимодействия белков может стоить жизни.
  2. Эффект взаимодействия: После расшифровки генома выяснилось, что у человека всего около 20 000 генов вместо ожидавшихся 100 000. Сложность организма обусловлена не количеством «актеров», а их взаимодействием. Джим Уотсон сравнивал это с пьесой, где 20-30 тысяч персонажей постоянно влияют друг на друга.
  3. Отсутствие чистых данных: В медицине данные часто собираются для финансовых отчетов или страховых выплат, а не для научных исследований.

По словам Уиггинса, предсказать, кто из читателей The New York Times отменит подписку, гораздо проще, чем понять, поможет ли конкретный препарат от депрессии, из-за необходимости учитывать глубокие причинно-следственные связи в химии рецепторов.

⚖️ Оружие математического поражения и предвзятость 28:34

Кэти О’Нил, автор книги «Weapons of Math Destruction», предупреждает о «темной стороне» алгоритмов. По её мнению, данные часто используются как инструмент власти для контроля над теми, у кого доступа к этим данным нет.

В качестве примера она приводит алгоритм COMPAS, используемый в судах Флориды для оценки риска рецидива. Исследование ProPublica показало:

Проблема не в математике, а в «петле обратной связи». Если полиция чаще патрулирует определенные районы, там происходит больше арестов, что подтверждает данные алгоритма о «преступности» района — возникает самоисполняющееся пророчество.

«Алгоритмы не объясняют мир, они просто копируют паттерны из прошлого. Если ваша компания никогда не продвигала женщин-инженеров, алгоритм наймет только мужчин, потому что он обучен на вашей истории успеха», — утверждает Кэти О’Нил.

🎓 Критическая грамотность вместо слепого доверия 37:51

Участники дискуссии сошлись во мнении, что современному обществу не хватает «данных грамотности» (data literacy). Крис Уиггинс разделяет её на три уровня: функциональную, риторическую и критическую.

По мнению Гэри Маркуса, люди слишком легко доверяют цифрам и интересным историям, игнорируя научные методы. Он приводит пример психологического эффекта «потому что»: люди охотнее пропускают человека в очереди к ксероксу, если он скажет любую фразу, начинающуюся с «потому что» (например, «потому что мне нужно сделать копии»), даже если причина абсурдна.

Основные риски слепого доверия алгоритмам:

🕵️ Будущее: прозрачность или надзор? 1:07:26

В финале дискуссии эксперты обсудили необходимость аудита алгоритмов. Дункан Уоттс отметил, что пока мы спорим о праве на частную жизнь, «дистопийное будущее» уже наступило для бедных слоев населения, которые находятся под постоянным надзором полиции и систем оценки рисков.

Пути решения проблемы по мнению спикеров:

  1. Open Source: Использование открытого исходного кода для государственных систем (например, судов), чтобы любой мог проверить логику программы.
  2. Обмен данными в медицине: Гэри Маркус считает, что мы могли бы победить редкие заболевания или вирусы вроде Эболы гораздо быстрее, если бы больницы и страны централизованно делились данными.
  3. Ответственность дата-сайентистов: Кэти О’Нил призывает специалистов по данным перестать быть «тайными политиками» и начать открыто обсуждать этические последствия своей работы с общественностью.
💬 Цитаты

«Алгоритмы — это мнения, встроенные в код.»

Кэти О’Нил 42:40

«Корреляция не означает причинно-следственную связь, хотя причинно-следственная связь вызывает корреляцию.»

«Мы построили инструмент, который позволяет нам сделать невидимые ранее вещи видимыми.»

Дункан Уоттс 12:43
👥 Спикеры
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
Рецидивизм
Совершение преступления лицом, ранее уже совершавшим преступление.
Интерпретируемость
Способность человека понять и объяснить логику принятия решения алгоритмом.
Секвенирование
Процесс определения последовательности нуклеотидов в молекуле ДНК.
Эффект эхо-камеры
Ситуация, в которой информация или убеждения подкрепляются путем передачи внутри закрытой системы.
📊 Цифры
🗓 Хронология
  1. 1993 Гэри Маркус и Крис Уиггинс начинают свои PhD исследования на заре эры данных.
  2. 1995 Впервые полностью секвенирован геном живого организма (бактерии).
  3. 2007 Кэти О’Нил начинает работу квантом в финансах за месяц до начала кризиса.
  4. 2011 Facebook доказывает теорию шести рукопожатий на данных миллиарда пользователей.
⚖️ Другая сторона
Наука Big Data Cathy O'Neil алгоритмическая предвзятость World Science Festival Machine Learning