Жозеп Пужол из Brave: «PageRank — это миф, настоящий успех Google принес анкорный текст»

Этот материал основан на интервью с Жозепом Пужолом, руководителем отдела поиска в Brave Software. Обсуждение охватывает внутреннюю кухню разработки независимой поисковой системы Brave Search, вызовы масштабирования ИИ-продуктов и экономику приватного поиска.

🛡️ Приватность как инженерная задача, а не маркетинговый слоган 8:28

Жозеп Пужол считает ложной дихотомию «либо данные, либо приватность». По его мнению, проблема не в самом факте сбора данных, а в целях и методах их получения . В Brave реализован проект Web Discovery Project, позволяющий пользователям добровольно вносить вклад в улучшение системы.

Ключевые принципы работы с данными в Brave Search:

Анонимность вместо анонимизации: Данные не содержат пользовательских ID (ни явных, ни неявных). Технически это называется «невозможность связывания записей» (record unlinkability) .
Исключение профилирования: Сообщения отправляются через микс-сети (mixing networks) для удаления сетевых отпечатков. Сообщения гомогенизируются: они принимаются сервером только после того, как достигнута определенная квота (аналогичные данные прислали не менее X человек) .
Узкое назначение: Каждый элемент данных служит одной цели — например, подтверждению популярности страницы или клика по конкретному запросу .
Безопасность при взломе: Модель угроз Brave учитывает риск утечки данных хакерам или правительству. Пужол утверждает, что даже в случае полной передачи базы данных невозможно идентифицировать или профилировать конкретного человека .

🏗️ Архитектура индекса: 20 миллиардов страниц с командой в 20 человек 6:18

Несмотря на широкий спектр продуктов (VPN, видеосвязь, браузер, рекламная сеть), основной штат поиска Brave составляет всего около 20 инженеров и оценщиков качества . Индекс Brave Search на 100% независим и сегодня насчитывает более 20 миллиардов веб-страниц .

Особенности построения индекса:

Размер имеет значение: Индекс Brave составляет примерно 1/10 от объема индекса Google, но при этом покрывает 99,9% запросов за счет приоритизации .
Фетчинг против кроулинга: Brave не занимается «слепым» кроулингом всего интернета, который забит мусором и клонами (например, клонами GitHub) . Вместо этого используется «фетчинг» (fetching) — система забирает только те URL, которые реально посещаются людьми или имеют вес .
Аппаратное ускорение: Существование Brave было бы невозможно без развития «железа». Пужол выделяет технологию NVMe как критический фактор: сверхнизкая задержка при поиске по огромным массивам данных позволяет обходиться без гигантских кластеров и делает систему экономически эффективной .

🧠 От PageRank к ансамблям моделей: как ИИ на самом деле ищет ответы 17:15

Жозеп Пужол называет PageRank «мифом» или «красивой историей для журналистов» . По его словам, настоящий успех Google на старте обеспечил не алгоритм ссылок, а использование анкорного текста (описания ссылок другими людьми) как более чистого источника данных по сравнению с контентом страницы .

Сегодня Brave использует сложный ансамбль технологий:

Гибридный подход: Система объединяет «плотные» эмбеддинги (dense embeddings) (BERT-подобные трансформеры, 384 измерения) для семантики и «разреженные» эмбеддинги (sparse embeddings) (16 000 измерений) для буквального сопоставления слов .
Семантика запросов: Brave хранит более 9 миллиардов уникальных запросов. Семантический поиск выполняется не только по контенту, но и по схожести самих вопросов пользователей, что позволяет находить ответы даже на редкие формулировки за 20 миллисекунд .
Принцип аддитивности: В отличие от стартапов, которые «выбрасывают компоненты», Brave идет путем наращивания. Эмбеддинги, внедренные в 2019 году, до сих пор работают как часть системы. Новые модели (например, Llama 3) добавляются поверх в качестве новых факторов ранжирования .

📝 Brave Summarizer: ИИ-ответы без галлюцинаций 39:37

Brave был одним из первых поисковиков, внедривших RAG (Retrieval-Augmented Generation) на уровне основного продукта.

Процесс генерации ответа (Summarizer):

Отбор данных: Самый важный этап — не выбор LLM, а «черепикинг» (cherry-picking) сниппетов. Brave отфильтровывает повторяющуюся информацию и мусор перед тем, как подать данные в модель .
Эволюция моделей: Brave начинал с Flan-T5, затем перешел на Mixtral 8x7B, а после релиза Llama 3 от Meta переключился на неё всего за неделю .
Автономность и стоимость: Все модели Brave хостит самостоятельно на собственных мощностях (включая сотни GPU H100 в AWS), чтобы гарантировать приватность и снизить затраты, которые были бы неподъемными при использовании сторонних API вроде OpenAI .

🛠️ Brave Search API: альтернатива Big Tech для разработчиков 1:11:30

Brave открыл свой поисковый API как конкурента Microsoft Bing и Google. Ведущий Натан Лабенц отметил, что при тестировании API для своего проекта Waymark он обнаружил, что Brave возвращает значительно больше полезной информации на запрос, чем конкуренты .

Преимущества Brave Search API:

Цена: Стоимость тысячи запросов с суммаризацией составляет около $9, в то время как сопоставимые (но менее функциональные) пакеты у Bing могут стоить до $25 .
Объем данных: Доступны дополнительные сниппеты, структурированные данные и возможность интеграции ИИ-ответов прямо в поток данных .
Гибкость: Лицензия Brave не требует жесткой атрибуции и позволяет смешивать результаты с другими источниками, что запрещено правилами Microsoft .

🔮 Будущее веба: LLM-спам и «смерть» репутации 1:00:32

Жозеп Пужол выражает пессимизм относительно будущего свободного интернета. С развитием ИИ-ответов у создателей контента исчезают стимулы: если пользователь получает ответ в поисковике и не переходит на сайт, автор теряет и деньги от рекламы, и социальный капитал (репутацию) .

По мнению гостя, мы движемся к «удобному вебу», где вместо знаний (процесса поиска и анализа) люди получают просто ответы от «оракулов» . Это ведет к деградации разнообразия контента. Тем не менее, Brave вынужден следовать этому тренду, так как для большинства пользователей поиск — это не инструмент исследования, а «водопроводный кран», который должен просто выдавать результат здесь и сейчас .