# Биг-дата: цифровой телескоп или оружие математического поражения?

Источник: https://www.youtube.com/watch?v=zf4eM-NQ0TM
Канал: World Science Festival
Опубликовано: 30.03.2017

---

В эпоху, когда данные называют «новой нефтью», грань между научным прорывом и социальной катастрофой становится всё тоньше. На панельной дискуссии World Science Festival ведущие эксперты в области нейробиологии, математики и социологии обсудили, как Big Data меняет наше понимание мира — от расшифровки генома до предсказания преступлений. Главный вывод: данные не являются объективной истиной, а их неправильная интерпретация может закрепить историческую несправедливость на уровне программного кода.

## 🧬 От секвенирования генома до социальных сетей
[[JUMP:0:00]]

Большинство участников дискуссии начали свою карьеру в 1990-х годах, когда термина «Data Science» еще не существовало, а работа с большими массивами информации считалась уделом «странных гиков». Крис Уиггинс вспоминает, как в 1995 году публикация в журнале *Science* первого полностью секвенированного генома бактерии *Haemophilus influenzae* навсегда изменила биологию. 

Ключевые вехи становления индустрии по версии экспертов:

* **Биология (1995):** Переход от теоретического моделирования к анализу огромных массивов генетических данных.
* **Социология (1998–2006):** Дункан Уоттс исследовал проблему «тесного мира» (шесть рукопожатий). Если в 1995 году построение карты связей всех людей казалось немыслимым, то в 2011 году команда Facebook доказала теорию «шести шагов» простым перебором данных миллиарда пользователей.
* **Лингвистика:** Гэри Маркус в своей диссертации 1993 года провел первый автоматизированный анализ детской речи, опровергнув популярные теории о том, почему дети ошибаются в формах глаголов (например, говорят *goed* вместо *went*).

Дункан Уоттс сравнивает интернет и цифровые данные с изобретением телескопа. По его мнению, этот инструмент сделал видимыми социальные процессы, которые раньше были скрыты, подобно тому как микроскоп открыл мир бактерий внутри клетки.

## 📈 Почему предсказать человека проще, чем рак?
[[JUMP:21:27]]

Крис Уиггинс отмечает парадокс: современные алгоритмы гораздо успешнее предсказывают поведение людей (например, отмену подписки на газету), чем поведение биологических систем. 

Причины сложности биологических прогнозов:

1.  **Проблема точности:** В бизнесе достаточно быть правым в 51% случаев, чтобы зарабатывать миллионы, но в медицине ошибка в предсказании взаимодействия белков может стоить жизни.
2.  **Эффект взаимодействия:** После расшифровки генома выяснилось, что у человека всего около 20 000 генов вместо ожидавшихся 100 000. Сложность организма обусловлена не количеством «актеров», а их взаимодействием. Джим Уотсон сравнивал это с пьесой, где 20-30 тысяч персонажей постоянно влияют друг на друга.
3.  **Отсутствие чистых данных:** В медицине данные часто собираются для финансовых отчетов или страховых выплат, а не для научных исследований.

По словам Уиггинса, предсказать, кто из читателей *The New York Times* отменит подписку, гораздо проще, чем понять, поможет ли конкретный препарат от депрессии, из-за необходимости учитывать глубокие причинно-следственные связи в химии рецепторов.

## ⚖️ Оружие математического поражения и предвзятость
[[JUMP:28:34]]

Кэти О’Нил, автор книги «Weapons of Math Destruction», предупреждает о «темной стороне» алгоритмов. По её мнению, данные часто используются как инструмент власти для контроля над теми, у кого доступа к этим данным нет. 

В качестве примера она приводит алгоритм COMPAS, используемый в судах Флориды для оценки риска рецидива. Исследование *ProPublica* показало:

* Чернокожие подсудимые в два раза чаще ошибочно классифицировались как «высокорисковые».
* Белые подсудимые в два раза чаще ошибочно получали низкий балл риска.

Проблема не в математике, а в «петле обратной связи». Если полиция чаще патрулирует определенные районы, там происходит больше арестов, что подтверждает данные алгоритма о «преступности» района — возникает самоисполняющееся пророчество. 

> «Алгоритмы не объясняют мир, они просто копируют паттерны из прошлого. Если ваша компания никогда не продвигала женщин-инженеров, алгоритм наймет только мужчин, потому что он обучен на вашей истории успеха», — утверждает Кэти О’Нил.

## 🎓 Критическая грамотность вместо слепого доверия
[[JUMP:37:51]]

Участники дискуссии сошлись во мнении, что современному обществу не хватает «данных грамотности» (data literacy). Крис Уиггинс разделяет её на три уровня: функциональную, риторическую и критическую. 

По мнению Гэри Маркуса, люди слишком легко доверяют цифрам и интересным историям, игнорируя научные методы. Он приводит пример психологического эффекта «потому что»: люди охотнее пропускают человека в очереди к ксероксу, если он скажет любую фразу, начинающуюся с «потому что» (например, «потому что мне нужно сделать копии»), даже если причина абсурдна.

Основные риски слепого доверия алгоритмам:

* **«Черный ящик»:** Современные нейросети используют до 10 миллионов параметров. Даже их создатели не всегда могут объяснить, почему система приняла конкретное решение.
* **Ложные корреляции:** Гэри Маркус напоминает о шуточном примере: размер ноги ребенка коррелирует с его IQ. Это математический факт, но он объясняется тем, что дети постарше имеют и большие ноги, и больший словарный запас. Интерпретация «большая нога делает тебя умнее» была бы катастрофической ошибкой.
* **Иллюзия объективности:** Существует мнение, что алгоритм избавлен от человеческих предрассудков. Однако Крис Уиггинс подчеркивает: «Не существует беспристрастных алгоритмов». Каждый код воплощает в себе интуицию и предубеждения своего программиста.

## 🕵️ Будущее: прозрачность или надзор?
[[JUMP:1:07:26]]

В финале дискуссии эксперты обсудили необходимость аудита алгоритмов. Дункан Уоттс отметил, что пока мы спорим о праве на частную жизнь, «дистопийное будущее» уже наступило для бедных слоев населения, которые находятся под постоянным надзором полиции и систем оценки рисков.

Пути решения проблемы по мнению спикеров:

1.  **Open Source:** Использование открытого исходного кода для государственных систем (например, судов), чтобы любой мог проверить логику программы.
2.  **Обмен данными в медицине:** Гэри Маркус считает, что мы могли бы победить редкие заболевания или вирусы вроде Эболы гораздо быстрее, если бы больницы и страны централизованно делились данными.
3.  **Ответственность дата-сайентистов:** Кэти О’Нил призывает специалистов по данным перестать быть «тайными политиками» и начать открыто обсуждать этические последствия своей работы с общественностью.