# Будущее веб-безопасности: Почему блокировка ИИ-ботов — это ошибка для бизнеса

Источник: https://www.youtube.com/watch?v=kzFwwIDWU38
Канал: a16z (Andreessen Horowitz)
Опубликовано: 16.06.2025

---

Наступила эпоха, когда более 50% всего интернет-трафика генерируется ботами. С появлением ИИ-агентов, способных действовать от имени человека, старые методы защиты сайтов через «глухую» блокировку IP-адресов становятся не просто неэффективными, но и опасными для бизнеса. В новом выпуске подкаста a16z специалисты обсуждают, как контекстная защита и сверхбыстрый ИИ на периферии (edge) меняют правила игры в веб-безопасности.

## 🤖 Новая реальность: 50% трафика — это не люди
[[JUMP:00:00]]

По словам экспертов Andreessen Horowitz, ландшафт интернета претерпел фундаментальные изменения. Если раньше автоматизация была инструментом парсинга или атак, то сегодня боты — это полноценные участники экосистемы [00:00]. 

Основные тезисы текущей ситуации:

*   **Доля ботов:** Более половины трафика уже автоматизировано, и эта цифра будет только расти с развитием автономных агентов [16:45].
*   **Смерть бинарных решений:** Традиционный подход «разрешить человеку / заблокировать бота» больше не работает. Современные боты часто действуют по поручению живых пользователей, которые хотят совершить покупку или получить услугу [01:17].
*   **Риски блокировки:** По мнению спикеров, блокировка трафика только по признаку его принадлежности к ИИ — это «слишком грубый инструмент», который может привести к потере доходов и исключению сайта из будущих поисковых индексов [09:06].

## 🛠 Почему «старая школа» безопасности вредит бизнесу
[[JUMP:01:56]]

Традиционные провайдеры безопасности (legacy providers) долгое время использовали «кувалду» там, где нужен скальпель. Основная проблема их методов заключается в отсутствии контекста приложения [01:56].

Как утверждает гость программы, сетевая блокировка на уровне IP или User-Agent имеет критические недостатки:

1.  **Неточность:** Часто блокируется легитимный трафик вместе с вредоносным [02:08].
2.  **Потеря видимости:** Если атака или бот блокируются на уровне сети (до того, как запрос дойдет до приложения), разработчики и команда безопасности даже не узнают, что реальный клиент пытался совершить покупку, но не смог [03:03].
3.  **Игровой момент:** В e-commerce блокировка подозрительной транзакции «на корню» — худшее решение. Правильнее будет пропустить её в приложение, пометить для проверки человеком и принять решение на основе бизнес-логики [03:15].

## 🔍 Анатомия современных ИИ-ботов (на примере OpenAI)
[[JUMP:07:08]]

Для понимания сложности задачи спикеры разобрали структуру ботов OpenAI, которых насчитывается как минимум 4–5 типов. Каждый из них требует отдельного подхода к управлению доступом [07:08]:

*   **Тренировочные боты:** Собирают данные для обучения моделей. Это те самые боты, которых большинство владельцев сайтов хотят заблокировать из философских или юридических соображений [07:22].
*   **Поисковые индексы (Search Indexers):** Аналог Googlebot. Они заходят на сайт, чтобы предоставить пользователю чата актуальную информацию. Блокировать их — значит исчезнуть из выдачи ИИ-поисковиков, через которые всё чаще происходит покупка товаров [07:46].
*   **Real-time агенты:** Появляются, когда пользователь дает ИИ прямую ссылку для суммаризации или анализа документации. Это прямой запрос клиента, и его блокировка напрямую бьет по UX [08:27].
*   **Автономные операторы (Computer Use):** Веб-браузеры без интерфейса (headless), действующие внутри виртуальных машин. Они могут бронировать билеты или управлять почтой [09:20].

## 🛡 Технологии идентификации: от Robots.txt до J4 Hash
[[JUMP:11:06]]

Защита современного сайта превратилась в многослойный процесс. Спикеры выделили ключевые этапы фильтрации трафика:

1.  **Robots.txt:** Добровольный стандарт, который соблюдают «хорошие» боты (Google, OpenAI), но игнорируют вредоносные [05:23].
2.  **Репутация IP:** Проверка принадлежности адреса к дата-центрам или жилым прокси-сетям (residential proxies), которые активно скупаются злоумышленниками для обхода фильтров [11:56].
3.  **Обратный DNS (Reverse DNS):** Простой способ проверить, действительно ли бот, называющий себя Googlebot, пришел с серверов Google [12:36].
4.  **Фингерпринтинг (Fingerprinting):** Создание уникального «отпечатка» сессии.
    *   **J3/J4 Hash:** Алгоритмы (изначально разработанные в Salesforce), которые анализируют параметры TLS-рукопожатия и создают хеш устройства [13:03].
    *   **J4H:** Новый уровень, анализирующий HTTP-заголовки. Современные методы хеширования устойчивы даже к изменению порядка заголовков, что раньше позволяло ботам легко обходить защиту [13:56].

Спикеры сошлись во мнении, что это фактически добавляет «слой аутентификации» или «слой идентичности» на транспортном уровне модели OSI [14:35].

## 📈 Будущее: ИИ на периферии и «Clippy для CISO»
[[JUMP:20:38]]

Одной из главных проблем использования больших языковых моделей (LLM) для безопасности до сих пор была задержка (latency). В HTTP-запросах решение нужно принимать за миллисекунды [21:03].

Прогнозы участников дискуссии:

*   **Сверхмалые модели:** Ожидается массовое внедрение новых моделей на периферийных устройствах (edge) и мобильных процессорах, способных давать мгновенные предсказания [21:41].
*   **Падение стоимости инференса:** По аналогии с облачным хранилищем S3, которое из дорогой услуги стало практически бесплатным, стоимость генерации ответов ИИ стремительно падает [21:54].
*   **Локальные ассистенты:** Ведущий предложил концепцию «Clippy для CISO» — локальную модель, которая будет анализировать каждое действие пользователя или входящий запрос и предупреждать: «Похоже, вы собираетесь сделать глупость» [22:48].

В заключение было отмечено, что борьба с фродом в рекламе (click spam) станет одним из главных драйверов развития быстрых ИИ-моделей на периферии, так как экономический эффект от мгновенной остановки ботов перед рекламным аукционом исчисляется миллиардами долларов [24:05].