Будущее веб-безопасности: Почему блокировка ИИ-ботов — это ошибка для бизнеса

a16z (Andreessen Horowitz) 2,5 тыс. 24 мин 4 мин 16.06.2025
Главное

Наступила эпоха, когда более 50% всего интернет-трафика генерируется ботами. С появлением ИИ-агентов, способных действовать от имени человека, старые методы защиты сайтов через «глухую» блокировку IP-адресов становятся не просто неэффективными, но и опасными для бизнеса. В новом выпуске подкаста a16z специалисты обсуждают, как контекстная защита и сверхбыстрый ИИ на периферии (edge) меняют правила игры в веб-безопасности.

🤖 Новая реальность: 50% трафика — это не люди 0:00

По словам экспертов Andreessen Horowitz, ландшафт интернета претерпел фундаментальные изменения. Если раньше автоматизация была инструментом парсинга или атак, то сегодня боты — это полноценные участники экосистемы .

Основные тезисы текущей ситуации:

🛠 Почему «старая школа» безопасности вредит бизнесу 1:56

Традиционные провайдеры безопасности (legacy providers) долгое время использовали «кувалду» там, где нужен скальпель. Основная проблема их методов заключается в отсутствии контекста приложения .

Как утверждает гость программы, сетевая блокировка на уровне IP или User-Agent имеет критические недостатки:

  1. Неточность: Часто блокируется легитимный трафик вместе с вредоносным .
  2. Потеря видимости: Если атака или бот блокируются на уровне сети (до того, как запрос дойдет до приложения), разработчики и команда безопасности даже не узнают, что реальный клиент пытался совершить покупку, но не смог .
  3. Игровой момент: В e-commerce блокировка подозрительной транзакции «на корню» — худшее решение. Правильнее будет пропустить её в приложение, пометить для проверки человеком и принять решение на основе бизнес-логики .

🔍 Анатомия современных ИИ-ботов (на примере OpenAI) 7:08

Для понимания сложности задачи спикеры разобрали структуру ботов OpenAI, которых насчитывается как минимум 4–5 типов. Каждый из них требует отдельного подхода к управлению доступом :

🛡 Технологии идентификации: от Robots.txt до J4 Hash 11:06

Защита современного сайта превратилась в многослойный процесс. Спикеры выделили ключевые этапы фильтрации трафика:

  1. Robots.txt: Добровольный стандарт, который соблюдают «хорошие» боты (Google, OpenAI), но игнорируют вредоносные .
  2. Репутация IP: Проверка принадлежности адреса к дата-центрам или жилым прокси-сетям (residential proxies), которые активно скупаются злоумышленниками для обхода фильтров .
  3. Обратный DNS (Reverse DNS): Простой способ проверить, действительно ли бот, называющий себя Googlebot, пришел с серверов Google .
  4. Фингерпринтинг (Fingerprinting): Создание уникального «отпечатка» сессии.
    • J3/J4 Hash: Алгоритмы (изначально разработанные в Salesforce), которые анализируют параметры TLS-рукопожатия и создают хеш устройства .
    • J4H: Новый уровень, анализирующий HTTP-заголовки. Современные методы хеширования устойчивы даже к изменению порядка заголовков, что раньше позволяло ботам легко обходить защиту .

Спикеры сошлись во мнении, что это фактически добавляет «слой аутентификации» или «слой идентичности» на транспортном уровне модели OSI .

📈 Будущее: ИИ на периферии и «Clippy для CISO» 20:38

Одной из главных проблем использования больших языковых моделей (LLM) для безопасности до сих пор была задержка (latency). В HTTP-запросах решение нужно принимать за миллисекунды .

Прогнозы участников дискуссии:

В заключение было отмечено, что борьба с фродом в рекламе (click spam) станет одним из главных драйверов развития быстрых ИИ-моделей на периферии, так как экономический эффект от мгновенной остановки ботов перед рекламным аукционом исчисляется миллиардами долларов .

💬 Цитаты

«Блокировать всё, что называется ИИ — это слишком грубый инструмент. Вам нужна более тонкая настройка.»

Гость (Security Expert) 04:32

«Мы движемся к миру, где ИИ-агенты станут основными потребителями всего контента в интернете.»

Представитель a16z 16:45
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Инференс
Процесс использования обученной ИИ-модели для получения предсказания или ответа на новый запрос.
Headless browser
Веб-браузер без графического интерфейса, используемый программами для автоматизации действий на сайтах.
Edge Computing (Периферийные вычисления)
Обработка данных ближе к источнику их возникновения (например, на сервере провайдера рядом с пользователем), а не в центральном облаке.
DOS (Denial of Service)
Атака, направленная на перегрузку сетевого канала или сервера огромным объемом мусорного трафика.
📊 Цифры
🗓 Хронология
  1. 18 месяцев назад Боты практически не имели ограничений по скорости и хаотично скачивали контент.
  2. Настоящее время Появление верифицируемых ботов и стандартов вроде Privacy Pass.
  3. Следующие 18 месяцев Прогноз массового перехода ИИ-ботов на соблюдение правил и стандартов (agents.txt).
⚖️ Другая сторона
Технологии и IT Andreessen Horowitz OpenAI Cloudflare J4 Hash LLM