Масштабный сбой Facebook, произошедший 4 октября 2021 года, стал уникальным событием в истории сетевых технологий: одна из крупнейших компаний мира буквально «отключила себя» от интернета. В видео на канале Computerphile ведущий объясняет, как ошибка конфигурации в протоколе BGP (Border Gateway Protocol) привела к тому, что сервисы Facebook, Instagram и WhatsApp стали недоступны для всего мира, а внутренние системы компании оказались заблокированы изнутри.
🌐 Как Facebook исчез из интернета 1:34
В ходе инцидента произошло не просто падение серверов — Facebook полностью исчез из таблиц маршрутизации интернета.
- Механизм сбоя: Система доменных имен (DNS) работает как телефонная книга: она преобразует понятные человеку адреса (например, facebook.com) в IP-адреса серверов. Когда Facebook прекратил «объявлять» (анонсировать) свои маршруты в BGP, внешний интернет «забыл», где искать эти ресурсы.
- Динамическая маршрутизация: Интернет использует протокол BGP для постоянного автоматического пересчета лучших путей передачи данных. Когда Facebook перестал передавать информацию о доступности своих сетей, маршрутизаторы по всему миру стали считать эти адреса недоступными.
- Каскадный эффект: Обычные пользователи не могли даже отправить пакет данных на серверы компании, так как компьютер просто не получал ответа на вопрос: «Где находится facebook.com?».
🔒 «Ключи в багажнике»: внутренний кризис 1:47
Ситуация усугубилась тем, что Facebook активно использует собственные технологии для управления внутренней инфраструктурой. Это привело к парадоксу, который эксперты в шутку сравнивают с тем, как если бы вы заперли ключи от машины внутри багажника.
- Потеря доступа к управлению: Внутренние инструменты, системы VoIP-телефонии и даже пропуска сотрудников были завязаны на ту же сеть, которая «выпала» из интернета.
- Проблема аутентификации: По сообщениям того времени, инженеры не могли даже физически войти в дата-центры, так как электронные пропуска не распознавались из-за отсутствия связи с серверами аутентификации.
- Курица и яйцо: Возникла ситуация, когда для исправления ошибки конфигурации нужно было получить доступ к системе, которая сама стала недоступной из-за этой ошибки.
🛡️ Уроки и выводы 12:46
По мнению автора видео, Facebook обладает одной из самых устойчивых сетей в мире, и подобные сбои внутри компании происходят регулярно, но остаются незамеченными. Данный инцидент стал исключением из-за масштаба и «идеального шторма» обстоятельств.
- Риск централизации: Автор подчеркивает, что этот случай — повод задуматься о том, как мы строим цифровые инструменты. В отличие от электронной почты, которая распределена между тысячами разных серверов, сервисы Facebook представляют собой единую точку отказа.
- Человеческий фактор: Полностью автоматизировать защиту от подобных ошибок невозможно, так как всегда найдется сценарий, который не был предусмотрен протоколами безопасности.
- Методы защиты: Обсуждаются предложения вроде автоматического отката настроек через 5–10 минут, если изменения не были подтверждены, но автор отмечает, что даже такие меры не гарантируют успех в любой ситуации.