# Жозеп Пужол из Brave: «PageRank — это миф, настоящий успех Google принес анкорный текст»

Источник: https://www.youtube.com/watch?v=S3y1R5f1hBc
Канал: The Cognitive Revolution
Опубликовано: 15.06.2024

---

Этот материал основан на интервью с **Жозепом Пужолом**, руководителем отдела поиска в Brave Software. Обсуждение охватывает внутреннюю кухню разработки независимой поисковой системы Brave Search, вызовы масштабирования ИИ-продуктов и экономику приватного поиска.

## 🛡️ Приватность как инженерная задача, а не маркетинговый слоган
[[JUMP:08:28]]

Жозеп Пужол считает ложной дихотомию «либо данные, либо приватность». По его мнению, проблема не в самом факте сбора данных, а в целях и методах их получения [08:28]. В Brave реализован проект **Web Discovery Project**, позволяющий пользователям добровольно вносить вклад в улучшение системы.

Ключевые принципы работы с данными в Brave Search:

*   **Анонимность вместо анонимизации:** Данные не содержат пользовательских ID (ни явных, ни неявных). Технически это называется «невозможность связывания записей» (*record unlinkability*) [12:08].
*   **Исключение профилирования:** Сообщения отправляются через микс-сети (*mixing networks*) для удаления сетевых отпечатков. Сообщения гомогенизируются: они принимаются сервером только после того, как достигнута определенная квота (аналогичные данные прислали не менее X человек) [09:46].
*   **Узкое назначение:** Каждый элемент данных служит одной цели — например, подтверждению популярности страницы или клика по конкретному запросу [13:52].
*   **Безопасность при взломе:** Модель угроз Brave учитывает риск утечки данных хакерам или правительству. Пужол утверждает, что даже в случае полной передачи базы данных невозможно идентифицировать или профилировать конкретного человека [11:25].

## 🏗️ Архитектура индекса: 20 миллиардов страниц с командой в 20 человек
[[JUMP:06:18]]

Несмотря на широкий спектр продуктов (VPN, видеосвязь, браузер, рекламная сеть), основной штат поиска Brave составляет всего около 20 инженеров и оценщиков качества [06:32]. Индекс Brave Search на 100% независим и сегодня насчитывает более 20 миллиардов веб-страниц [22:16].

Особенности построения индекса:

1.  **Размер имеет значение:** Индекс Brave составляет примерно 1/10 от объема индекса Google, но при этом покрывает 99,9% запросов за счет приоритизации [16:50].
2.  **Фетчинг против кроулинга:** Brave не занимается «слепым» кроулингом всего интернета, который забит мусором и клонами (например, клонами GitHub) [15:38]. Вместо этого используется «фетчинг» (*fetching*) — система забирает только те URL, которые реально посещаются людьми или имеют вес [15:10].
3.  **Аппаратное ускорение:** Существование Brave было бы невозможно без развития «железа». Пужол выделяет технологию **NVMe** как критический фактор: сверхнизкая задержка при поиске по огромным массивам данных позволяет обходиться без гигантских кластеров и делает систему экономически эффективной [27:21].

## 🧠 От PageRank к ансамблям моделей: как ИИ на самом деле ищет ответы
[[JUMP:17:15]]

Жозеп Пужол называет PageRank «мифом» или «красивой историей для журналистов» [17:28]. По его словам, настоящий успех Google на старте обеспечил не алгоритм ссылок, а использование **анкорного текста** (описания ссылок другими людьми) как более чистого источника данных по сравнению с контентом страницы [19:02].

Сегодня Brave использует сложный ансамбль технологий:

*   **Гибридный подход:** Система объединяет «плотные» эмбеддинги (*dense embeddings*) (BERT-подобные трансформеры, 384 измерения) для семантики и «разреженные» эмбеддинги (*sparse embeddings*) (16 000 измерений) для буквального сопоставления слов [32:15].
*   **Семантика запросов:** Brave хранит более 9 миллиардов уникальных запросов. Семантический поиск выполняется не только по контенту, но и по схожести самих вопросов пользователей, что позволяет находить ответы даже на редкие формулировки за 20 миллисекунд [30:18].
*   **Принцип аддитивности:** В отличие от стартапов, которые «выбрасывают компоненты», Brave идет путем наращивания. Эмбеддинги, внедренные в 2019 году, до сих пор работают как часть системы. Новые модели (например, Llama 3) добавляются поверх в качестве новых факторов ранжирования [41:08].

## 📝 Brave Summarizer: ИИ-ответы без галлюцинаций
[[JUMP:39:37]]

Brave был одним из первых поисковиков, внедривших RAG (*Retrieval-Augmented Generation*) на уровне основного продукта.

Процесс генерации ответа (Summarizer):

1.  **Отбор данных:** Самый важный этап — не выбор LLM, а «черепикинг» (*cherry-picking*) сниппетов. Brave отфильтровывает повторяющуюся информацию и мусор перед тем, как подать данные в модель [1:19:22].
2.  **Эволюция моделей:** Brave начинал с Flan-T5, затем перешел на Mixtral 8x7B, а после релиза Llama 3 от Meta переключился на неё всего за неделю [40:30].
3.  **Автономность и стоимость:** Все модели Brave хостит самостоятельно на собственных мощностях (включая сотни GPU H100 в AWS), чтобы гарантировать приватность и снизить затраты, которые были бы неподъемными при использовании сторонних API вроде OpenAI [1:05:39].

## 🛠️ Brave Search API: альтернатива Big Tech для разработчиков
[[JUMP:1:11:30]]

Brave открыл свой поисковый API как конкурента Microsoft Bing и Google. Ведущий Натан Лабенц отметил, что при тестировании API для своего проекта *Waymark* он обнаружил, что Brave возвращает значительно больше полезной информации на запрос, чем конкуренты [1:16:15].

Преимущества Brave Search API:

*   **Цена:** Стоимость тысячи запросов с суммаризацией составляет около $9, в то время как сопоставимые (но менее функциональные) пакеты у Bing могут стоить до $25 [1:20:42].
*   **Объем данных:** Доступны дополнительные сниппеты, структурированные данные и возможность интеграции ИИ-ответов прямо в поток данных [1:17:23].
*   **Гибкость:** Лицензия Brave не требует жесткой атрибуции и позволяет смешивать результаты с другими источниками, что запрещено правилами Microsoft [1:13:14].

## 🔮 Будущее веба: LLM-спам и «смерть» репутации
[[JUMP:1:00:32]]

Жозеп Пужол выражает пессимизм относительно будущего свободного интернета. С развитием ИИ-ответов у создателей контента исчезают стимулы: если пользователь получает ответ в поисковике и не переходит на сайт, автор теряет и деньги от рекламы, и социальный капитал (репутацию) [1:01:23].

По мнению гостя, мы движемся к «удобному вебу», где вместо знаний (процесса поиска и анализа) люди получают просто ответы от «оракулов» [1:03:54]. Это ведет к деградации разнообразия контента. Тем не менее, Brave вынужден следовать этому тренду, так как для большинства пользователей поиск — это не инструмент исследования, а «водопроводный кран», который должен просто выдавать результат здесь и сейчас [1:08:46].