# Закир Думеримик: «Пакеты данных в интернете идут по самому дешевому пути, а не по кратчайшему»

Источник: https://www.youtube.com/watch?v=g0WEmqmCqqk
Канал: Stanford Online
Опубликовано: 04.02.2025

---

Современный интернет давно перестал быть просто набором протоколов и кабелей, превратившись в сложнейшую экосистему, где пересекаются интересы государств, корпораций и миллиардов пользователей. Закир Думеримик, профессор компьютерных наук Стэнфордского университета, посвятил свою карьеру эмпирическому изучению этой глобальной сети, используя инструменты крупномасштабного сканирования для выявления скрытых закономерностей. В рамках вебинара Stanford Online ученый рассказал, как на самом деле движутся пакеты данных, почему безопасность в офисах ниже, чем дома, и как бизнес-интересы диктуют архитектуру мировой паутины.

## 🔍 Эмпирический подход к изучению цифрового хаоса
[[JUMP:04:30]]

Изучение интернета осложняется его децентрализованной природой: сотни тысяч сетей управляются разными операторами, от гигантов вроде AT&T до локальных провайдеров [02:38]. По словам Закира Думеримика, не существует единого центра сбора данных, поэтому ученым приходится строить собственные системы измерения для анализа реального поведения сети.

Методология исследований лаборатории Думеримика включает:

*   **Сотрудничество с гигантами:** работа с трафиком таких компаний, как Google, Cloudflare, Akamai и Amazon, для выявления глобальных паттернов без ущерба для производительности [05:47].
*   **Веб-краулинг:** создание систем, способных обходить миллионы сайтов, скачивать контент и анализировать его структуру в масштабе всей сети [06:01].
*   **Интернет-сканирование:** отправка запросов к каждому подключенному устройству — роутеру, серверу или облачному узлу — для сбора данных о конфигурациях и уязвимостях [06:14].

Примером инновационного подхода стало изучение спутниковых сетей Starlink [07:05]. Вместо того чтобы покупать тысячи терминалов, команда Думеримика научилась измерять задержки пакетов (latency) между Стэнфордом и оконечными точками спутниковой связи, анализируя тысячи подключений одновременно [08:11]. Это позволило выявить регионы с аномальной производительностью, не соответствующей теоретическим моделям.

## 🤖 Роль машинного обучения в безопасности
[[JUMP:09:44]]

В условиях, когда пространство адресов IPv6 составляет $2^{128}$ (что сопоставимо с числом атомов в известной Вселенной), традиционные методы поиска устройств не работают [12:24]. По мнению Закира Думеримика, машинное обучение (ML) становится критически важным инструментом для классификации данных:

1.  **Идентификация устройств:** ML помогает отличить обычный роутер от промышленного контроллера или веб-сервера, даже если их интерфейсы на разных языках [11:03].
2.  **Детекция угроз:** алгоритмы позволяют отличить трафик обычного сотрудника, работающего из дома, от действий злоумышленника, захватившего ту же машину [11:31].
3.  **Поиск паттернов:** системы обучаются находить устройства по косвенным признакам — например, по специфическим портам, используемым в конкретных сетях [12:37].

Исследователи используют инструменты собственной разработки: сканер ZMap (на который приходится большинство сканирований в интернете), а также ZGrab и ZDNS [14:13]. Новая система Retina позволяет анализировать трафик крупных провайдеров для оценки состояния криптографии в масштабе всей сети [15:21].

## 🛡️ Парадокс безопасности: офис против дома
[[JUMP:16:03]]

Одно из самых масштабных исследований команды Думеримика — «Worldwide view of the World Wide Web» — выявило неожиданную закономерность в поведении пользователей [16:28]. Вопреки расхожему мнению, безопасность интернет-соединений в ночное время и в выходные дни выше, чем в рабочие часы [18:46].

Причины этого парадокса:

*   **Доминирование гигантов в личное время:** вечером пользователи заходят на Netflix, Gmail или Facebook. Эти платформы поддерживают новейшие протоколы HTTPS и TLS, обеспечивая высокий уровень защиты [19:14].
*   **Консерватизм бизнеса:** в рабочее время трафик идет через серверы банков, страховых компаний и малого бизнеса. Многие из них отказываются от облачных решений в пользу собственных серверов, которые годами не обновляются и используют устаревшие протоколы [19:42].
*   **Разрыв в экспертизе:** по словам гостя, компании часто думают, что собственные серверы повышают безопасность, но на деле они проигрывают Microsoft и Google, которые оперативно внедряют патчи и новые стандарты [19:54].

Также исследование зафиксировало четкое разделение устройств: мобильный трафик доминирует в сфере развлечений по вечерам, в то время как десктопы остаются основным инструментом для бизнес-задач в рабочие часы [21:12].

## 💰 Экономика пакетов: «дешевый путь» вместо «кратчайшего»
[[JUMP:28:48]]

Классическое академическое представление об интернете как об иерархической структуре, где пакеты всегда идут по кратчайшему пути через протокол BGP, устарело. Закир Думеримик утверждает, что сегодня пакеты движутся по самому дешевому, а не самому короткому маршруту [30:34].

Ключевые изменения в инфраструктуре:

*   **Прямое взаимодействие (Peering):** крупные игроки вроде Netflix или Amazon стремятся передавать данные напрямую провайдерам (например, Comcast), минуя магистральные сети (Tier-1), чтобы снизить затраты [32:50].
*   **Локальное кэширование:** Netflix физически поставляет свои серверы в дата-центры провайдеров, чтобы видео-трафик вообще не покидал сеть провайдера [33:55].
*   **Собственные кабели:** Google и Meta инвестируют миллиарды долларов в прокладку собственных подводных кабелей между континентами для полного контроля над потоками данных [31:30].

Таким образом, ядро интернета перестает быть общественным достоянием и превращается в арену жестких коммерческих переговоров, где стоимость передачи данных определяет маршрут каждого пакета [30:48].

## 🌍 Политическая балканизация интернета
[[JUMP:35:16]]

Интернет, задумывавшийся как открытая и глобальная сеть, постепенно фрагментируется. Процесс «балканизации» проявляется в усилении государственного контроля и региональных различиях в доступе к контенту [39:47].

Закир Думеримик выделяет несколько аспектов этой трансформации:

1.  **Технологический суверенитет:** страны (например, Китай с его «Великим файерволом») стремятся контролировать, какой контент пересекает их национальные границы [40:14].
2.  **Войны сертификатов:** браузеры (Chrome, Firefox) сейчас единолично решают, каким удостоверяющим центрам (CA) доверять. Некоторые правительства задаются вопросом, почему американские компании решают, какие сайты в их стране считаются безопасными, и пытаются внедрить собственные государственные CA [38:50].
3.  **Запреты приложений:** дискуссии вокруг блокировки TikTok в США — пример того, как опасения по поводу контроля контента другим государством влияют на архитектуру сети [41:07].

По словам ученого, даже во время вооруженных конфликтов, таких как российско-украинский, исследователи фиксируют изменения в маршрутизации трафика в режиме реального времени, что подтверждает прямую зависимость интернета от геополитики [40:26].

## 📵 Токсичность и дезинформация: взгляд исследователя
[[JUMP:42:31]]

Лаборатория Думеримика также изучает социальные аспекты: кибербуллинг и распространение пропаганды. Исследование работы журналистов в соцсетях показало, что для многих из них ежедневный поток оскорблений стал частью профессии [43:15].

Проблемы анализа токсичного контента:

*   **Нюансы восприятия:** то, что один считает оскорблением, другой может счесть допустимым. Поэтому системы фильтрации должны быть адаптивными [43:00].
*   **Разные типы агрессоров:** важно отличать случайные вспышки гнева в комментариях от скоординированных атак «армий троллей», преследующих жертву на разных платформах [44:11].
*   **Отслеживание потоков лжи:** ученые не пытаются определить «правдивость» новости (это задача журналистов), а используют NLP и большие данные, чтобы понять, где зародилась история — на пропагандистском ресурсе или в мейнстримных медиа — и как она распространялась [46:09].

В заключение Думеримик подчеркнул, что его курс «The Modern Internet» в Стэнфорде нацелен на то, чтобы студенты понимали интернет таким, какой он есть сегодня — с платными IP-адресами, аукционами, атаками в реальном времени и сложной политикой, а не по учебникам 20-летней давности [51:24].