Современный интернет давно перестал быть просто набором протоколов и кабелей, превратившись в сложнейшую экосистему, где пересекаются интересы государств, корпораций и миллиардов пользователей. Закир Думеримик, профессор компьютерных наук Стэнфордского университета, посвятил свою карьеру эмпирическому изучению этой глобальной сети, используя инструменты крупномасштабного сканирования для выявления скрытых закономерностей. В рамках вебинара Stanford Online ученый рассказал, как на самом деле движутся пакеты данных, почему безопасность в офисах ниже, чем дома, и как бизнес-интересы диктуют архитектуру мировой паутины.
🔍 Эмпирический подход к изучению цифрового хаоса 4:30
Изучение интернета осложняется его децентрализованной природой: сотни тысяч сетей управляются разными операторами, от гигантов вроде AT&T до локальных провайдеров . По словам Закира Думеримика, не существует единого центра сбора данных, поэтому ученым приходится строить собственные системы измерения для анализа реального поведения сети.
Методология исследований лаборатории Думеримика включает:
- Сотрудничество с гигантами: работа с трафиком таких компаний, как Google, Cloudflare, Akamai и Amazon, для выявления глобальных паттернов без ущерба для производительности .
- Веб-краулинг: создание систем, способных обходить миллионы сайтов, скачивать контент и анализировать его структуру в масштабе всей сети .
- Интернет-сканирование: отправка запросов к каждому подключенному устройству — роутеру, серверу или облачному узлу — для сбора данных о конфигурациях и уязвимостях .
Примером инновационного подхода стало изучение спутниковых сетей Starlink . Вместо того чтобы покупать тысячи терминалов, команда Думеримика научилась измерять задержки пакетов (latency) между Стэнфордом и оконечными точками спутниковой связи, анализируя тысячи подключений одновременно . Это позволило выявить регионы с аномальной производительностью, не соответствующей теоретическим моделям.
🤖 Роль машинного обучения в безопасности 9:44
В условиях, когда пространство адресов IPv6 составляет $2^{128}$ (что сопоставимо с числом атомов в известной Вселенной), традиционные методы поиска устройств не работают . По мнению Закира Думеримика, машинное обучение (ML) становится критически важным инструментом для классификации данных:
- Идентификация устройств: ML помогает отличить обычный роутер от промышленного контроллера или веб-сервера, даже если их интерфейсы на разных языках .
- Детекция угроз: алгоритмы позволяют отличить трафик обычного сотрудника, работающего из дома, от действий злоумышленника, захватившего ту же машину .
- Поиск паттернов: системы обучаются находить устройства по косвенным признакам — например, по специфическим портам, используемым в конкретных сетях .
Исследователи используют инструменты собственной разработки: сканер ZMap (на который приходится большинство сканирований в интернете), а также ZGrab и ZDNS . Новая система Retina позволяет анализировать трафик крупных провайдеров для оценки состояния криптографии в масштабе всей сети .
🛡️ Парадокс безопасности: офис против дома 16:03
Одно из самых масштабных исследований команды Думеримика — «Worldwide view of the World Wide Web» — выявило неожиданную закономерность в поведении пользователей . Вопреки расхожему мнению, безопасность интернет-соединений в ночное время и в выходные дни выше, чем в рабочие часы .
Причины этого парадокса:
- Доминирование гигантов в личное время: вечером пользователи заходят на Netflix, Gmail или Facebook. Эти платформы поддерживают новейшие протоколы HTTPS и TLS, обеспечивая высокий уровень защиты .
- Консерватизм бизнеса: в рабочее время трафик идет через серверы банков, страховых компаний и малого бизнеса. Многие из них отказываются от облачных решений в пользу собственных серверов, которые годами не обновляются и используют устаревшие протоколы .
- Разрыв в экспертизе: по словам гостя, компании часто думают, что собственные серверы повышают безопасность, но на деле они проигрывают Microsoft и Google, которые оперативно внедряют патчи и новые стандарты .
Также исследование зафиксировало четкое разделение устройств: мобильный трафик доминирует в сфере развлечений по вечерам, в то время как десктопы остаются основным инструментом для бизнес-задач в рабочие часы .
💰 Экономика пакетов: «дешевый путь» вместо «кратчайшего» 28:48
Классическое академическое представление об интернете как об иерархической структуре, где пакеты всегда идут по кратчайшему пути через протокол BGP, устарело. Закир Думеримик утверждает, что сегодня пакеты движутся по самому дешевому, а не самому короткому маршруту .
Ключевые изменения в инфраструктуре:
- Прямое взаимодействие (Peering): крупные игроки вроде Netflix или Amazon стремятся передавать данные напрямую провайдерам (например, Comcast), минуя магистральные сети (Tier-1), чтобы снизить затраты .
- Локальное кэширование: Netflix физически поставляет свои серверы в дата-центры провайдеров, чтобы видео-трафик вообще не покидал сеть провайдера .
- Собственные кабели: Google и Meta инвестируют миллиарды долларов в прокладку собственных подводных кабелей между континентами для полного контроля над потоками данных .
Таким образом, ядро интернета перестает быть общественным достоянием и превращается в арену жестких коммерческих переговоров, где стоимость передачи данных определяет маршрут каждого пакета .
🌍 Политическая балканизация интернета 35:16
Интернет, задумывавшийся как открытая и глобальная сеть, постепенно фрагментируется. Процесс «балканизации» проявляется в усилении государственного контроля и региональных различиях в доступе к контенту .
Закир Думеримик выделяет несколько аспектов этой трансформации:
- Технологический суверенитет: страны (например, Китай с его «Великим файерволом») стремятся контролировать, какой контент пересекает их национальные границы .
- Войны сертификатов: браузеры (Chrome, Firefox) сейчас единолично решают, каким удостоверяющим центрам (CA) доверять. Некоторые правительства задаются вопросом, почему американские компании решают, какие сайты в их стране считаются безопасными, и пытаются внедрить собственные государственные CA .
- Запреты приложений: дискуссии вокруг блокировки TikTok в США — пример того, как опасения по поводу контроля контента другим государством влияют на архитектуру сети .
По словам ученого, даже во время вооруженных конфликтов, таких как российско-украинский, исследователи фиксируют изменения в маршрутизации трафика в режиме реального времени, что подтверждает прямую зависимость интернета от геополитики .
📵 Токсичность и дезинформация: взгляд исследователя 42:31
Лаборатория Думеримика также изучает социальные аспекты: кибербуллинг и распространение пропаганды. Исследование работы журналистов в соцсетях показало, что для многих из них ежедневный поток оскорблений стал частью профессии .
Проблемы анализа токсичного контента:
- Нюансы восприятия: то, что один считает оскорблением, другой может счесть допустимым. Поэтому системы фильтрации должны быть адаптивными .
- Разные типы агрессоров: важно отличать случайные вспышки гнева в комментариях от скоординированных атак «армий троллей», преследующих жертву на разных платформах .
- Отслеживание потоков лжи: ученые не пытаются определить «правдивость» новости (это задача журналистов), а используют NLP и большие данные, чтобы понять, где зародилась история — на пропагандистском ресурсе или в мейнстримных медиа — и как она распространялась .
В заключение Думеримик подчеркнул, что его курс «The Modern Internet» в Стэнфорде нацелен на то, чтобы студенты понимали интернет таким, какой он есть сегодня — с платными IP-адресами, аукционами, атаками в реальном времени и сложной политикой, а не по учебникам 20-летней давности .