Жозеп Пужол из Brave: «PageRank — это миф, настоящий успех Google принес анкорный текст»

The Cognitive Revolution 932 1 ч 25 мин 4 мин 15.06.2024
Главное

Этот материал основан на интервью с Жозепом Пужолом, руководителем отдела поиска в Brave Software. Обсуждение охватывает внутреннюю кухню разработки независимой поисковой системы Brave Search, вызовы масштабирования ИИ-продуктов и экономику приватного поиска.

🛡️ Приватность как инженерная задача, а не маркетинговый слоган 8:28

Жозеп Пужол считает ложной дихотомию «либо данные, либо приватность». По его мнению, проблема не в самом факте сбора данных, а в целях и методах их получения . В Brave реализован проект Web Discovery Project, позволяющий пользователям добровольно вносить вклад в улучшение системы.

Ключевые принципы работы с данными в Brave Search:

🏗️ Архитектура индекса: 20 миллиардов страниц с командой в 20 человек 6:18

Несмотря на широкий спектр продуктов (VPN, видеосвязь, браузер, рекламная сеть), основной штат поиска Brave составляет всего около 20 инженеров и оценщиков качества . Индекс Brave Search на 100% независим и сегодня насчитывает более 20 миллиардов веб-страниц .

Особенности построения индекса:

  1. Размер имеет значение: Индекс Brave составляет примерно 1/10 от объема индекса Google, но при этом покрывает 99,9% запросов за счет приоритизации .
  2. Фетчинг против кроулинга: Brave не занимается «слепым» кроулингом всего интернета, который забит мусором и клонами (например, клонами GitHub) . Вместо этого используется «фетчинг» (fetching) — система забирает только те URL, которые реально посещаются людьми или имеют вес .
  3. Аппаратное ускорение: Существование Brave было бы невозможно без развития «железа». Пужол выделяет технологию NVMe как критический фактор: сверхнизкая задержка при поиске по огромным массивам данных позволяет обходиться без гигантских кластеров и делает систему экономически эффективной .

🧠 От PageRank к ансамблям моделей: как ИИ на самом деле ищет ответы 17:15

Жозеп Пужол называет PageRank «мифом» или «красивой историей для журналистов» . По его словам, настоящий успех Google на старте обеспечил не алгоритм ссылок, а использование анкорного текста (описания ссылок другими людьми) как более чистого источника данных по сравнению с контентом страницы .

Сегодня Brave использует сложный ансамбль технологий:

📝 Brave Summarizer: ИИ-ответы без галлюцинаций 39:37

Brave был одним из первых поисковиков, внедривших RAG (Retrieval-Augmented Generation) на уровне основного продукта.

Процесс генерации ответа (Summarizer):

  1. Отбор данных: Самый важный этап — не выбор LLM, а «черепикинг» (cherry-picking) сниппетов. Brave отфильтровывает повторяющуюся информацию и мусор перед тем, как подать данные в модель .
  2. Эволюция моделей: Brave начинал с Flan-T5, затем перешел на Mixtral 8x7B, а после релиза Llama 3 от Meta переключился на неё всего за неделю .
  3. Автономность и стоимость: Все модели Brave хостит самостоятельно на собственных мощностях (включая сотни GPU H100 в AWS), чтобы гарантировать приватность и снизить затраты, которые были бы неподъемными при использовании сторонних API вроде OpenAI .

🛠️ Brave Search API: альтернатива Big Tech для разработчиков 1:11:30

Brave открыл свой поисковый API как конкурента Microsoft Bing и Google. Ведущий Натан Лабенц отметил, что при тестировании API для своего проекта Waymark он обнаружил, что Brave возвращает значительно больше полезной информации на запрос, чем конкуренты .

Преимущества Brave Search API:

🔮 Будущее веба: LLM-спам и «смерть» репутации 1:00:32

Жозеп Пужол выражает пессимизм относительно будущего свободного интернета. С развитием ИИ-ответов у создателей контента исчезают стимулы: если пользователь получает ответ в поисковике и не переходит на сайт, автор теряет и деньги от рекламы, и социальный капитал (репутацию) .

По мнению гостя, мы движемся к «удобному вебу», где вместо знаний (процесса поиска и анализа) люди получают просто ответы от «оракулов» . Это ведет к деградации разнообразия контента. Тем не менее, Brave вынужден следовать этому тренду, так как для большинства пользователей поиск — это не инструмент исследования, а «водопроводный кран», который должен просто выдавать результат здесь и сейчас .

💬 Цитаты

«Проблема не в данных, а в том, как вы их собираете. Дихотомия «данные или приватность» — ложная.»

Жозеп Пужол 08:15

«Никогда не влюбляйтесь в конкретный фреймворк или методологию. Влюбляйтесь в проблему.»

Жозеп Пужол 38:33

«Вопросы — это знания. Ответы — это просто ответы.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Record unlinkability
Техническое свойство системы, при котором невозможно связать два разных действия или сообщения с одним и тем же анонимным пользователем.
NVMe
Протокол доступа к твердотельным накопителям (SSD), обеспечивающий сверхвысокую скорость передачи данных и минимальные задержки.
RAG (Retrieval-Augmented Generation)
Метод, при котором нейросеть создает ответ, опираясь на внешние найденные документы, что снижает вероятность выдумок (галлюцинаций).
Dense Embeddings
Математические векторы низкой размерности, представляющие смысл текста (семантику).
Sparse Embeddings
Векторы высокой размерности, используемые для точного совпадения слов и терминов.
📊 Цифры
🗓 Хронология
  1. 2019 Обучение первых семантических эмбеддингов StarSpace, которые до сих пор работают в Brave.
  2. Май 2023 Brave стал на 100% независимым от сторонних поисковых систем (Bing).
  3. Апрель 2024 Переход Brave Summarizer на использование модели Llama 3 за одну неделю.
⚖️ Другая сторона
Инженерия Brave Search Жозеп Пужол RAG Llama 3 эмбеддинги