# Эд Ануфф из DataStax: «Векторные БД повторят путь MongoDB и формата JSON»

Источник: https://www.youtube.com/watch?v=nTyLv_wnJtI
Канал: The TWIML AI Podcast
Опубликовано: 28.12.2023

---

За последние пару лет векторные базы данных (Vector DB) превратились из узкоспециализированного инструмента для поиска по сходству в центральный элемент архитектуры современного ИИ. В новом эпизоде подкаста TWIML AI Эд Ануфф, директор по продукту (CPO) компании DataStax, обсуждает с ведущим Сэмом Чаррингтоном эволюцию технологий хранения данных, проблемы реализации RAG (Retrieval-Augmented Generation) на производстве и отвечает на главный вопрос: станут ли векторные базы данных новой доминирующей платформой.

## 🛠 От Cassandra к вектору: Эволюция DataStax
[[JUMP:03:09]]

Эд Ануфф — ветеран Кремниевой долины, чья карьера охватывает путь от ранних поисковых систем в Wired до работы в Google после приобретения компании Apigee [02:18]. Сегодня он работает в DataStax — компании, стоящей за Apache Cassandra. По его словам, Cassandra изначально задумывалась как облачная база данных для гигантских нагрузок, и такие гиганты, как Netflix, Uber и Apple, годами используют её для обработки транзакций в реальном времени [03:32]. 

Когда генеративный ИИ стал мейнстримом, команда DataStax осознала: пользователям нужно объединить их операционные данные с возможностями больших языковых моделей (LLM). Вместо того чтобы создавать отдельную базу «с нуля», они интегрировали векторный поиск напрямую в Cassandra, сделав его частью открытого исходного кода версии 5.0 [04:26].

## 🧠 Техническая дуэль: HNSW против DiskANN
[[JUMP:05:04]]

Одной из самых глубоких технических тем беседы стало сравнение алгоритмов индексации векторов. 

*   **HNSW (Hierarchical Navigable Small Worlds):** По мнению Ануффа, это «золотой стандарт», с которого начинали почти все современные векторные базы (Pinecone, Weaviate, Chroma). Этот алгоритм, заимствованный из библиотеки Lucene, отлично работает с небольшими наборами данных, которые полностью помещаются в оперативную память [07:17].
*   **Проблема масштаба:** Ануфф утверждает, что «грязный секрет» многих векторных БД в том, что их производительность резко падает, когда данные перестают влезать в RAM. На наборах в миллионы документов HNSW начинает страдать от избыточного количества операций ввода-вывода (IO) [10:02].
*   **DiskANN:** DataStax перешла на DiskANN — алгоритм, оптимизированный для работы на дисках. По словам гостя, это критически важно для распределенных систем, таких как Cassandra, где данные разбросаны по тысячам узлов. DiskANN позволяет поддерживать высокую точность (precision) и полноту (recall) поиска даже на массивах в сотни миллионов документов, таких как вся Wikipedia [10:54].

## 📉 Проблема релевантности: От POC к продакшену
[[JUMP:14:36]]

Сэм Чаррингтон отметил, что создать прототип (Proof of Concept) с использованием RAG легко, но довести его до уровня корпоративного продукта невероятно сложно именно из-за «хрупкой» релевантности [15:05].

Эд Ануфф согласен с этим и выделяет несколько ключевых аспектов:

1.  **Метрики качества:** В ближайшее время сайты векторных БД сменят графики «запросов в секунду» на параметры F1-score (баланс точности и полноты) [20:00]. Без высокой точности поиска LLM получает «мусорный» контекст и начинает галлюцинировать.
2.  **Ад чанкинга (Chunking Hell):** Эффективность RAG на 80% зависит от того, как вы «нарезали» исходные документы (например, PDF) на куски. Если разбить текст посередине важной мысли, контекст будет потерян навсегда, и даже самая умная GPT-4 не сможет его восстановить [21:44].
3.  **Использование LLM для парсинга:** Ануфф предсказывает рост популярности методов, где одна LLM «надзирает» за процессом разбора документов, чтобы правильно структурировать чанки перед их сохранением в базу [31:43].

## 🆚 Феномен JSON: Векторная база — это фича или платформа?
[[JUMP:35:39]]

Один из самых дискуссионных вопросов: выживут ли специализированные векторные базы (Pinecone, Milvus) или эта функция станет просто дополнением к классическим СУБД (как PGVector в Postgres)?

Ануфф проводит аналогию с развитием формата JSON 15 лет назад:

*   Когда JSON стал стандартом обмена данными, появилась MongoDB — специализированная база, которая «сделала ставку» на этот формат как на первоклассного гражданина [37:37].
*   В то же время Postgres добавил поддержку JSON как тип данных.
*   Итог: MongoDB стала миллиардным бизнесом, но и классические базы успешно используют JSON.

По мнению спикера, с вектором произойдет то же самое: одна-две специализированные компании станут новыми гигантами, потому что они строят весь стек вокруг RAG, а не просто добавляют «индексированную колонку» [41:41].

## 🔮 Будущее RAG: Мультимодальность и GPU
[[JUMP:42:06]]

Говоря о технологических трендах следующего года, участники выделили несколько направлений:

*   **GPU в базах данных:** Ануфф скептически относится к идее использования GPU непосредственно внутри БД для сравнения векторов в реальном времени. По его мнению, это экономически нецелесообразно (cost-prohibitive) при масштабе в тысячи узлов. GPU должны оставаться на стороне моделей эмбеддингов, а поиск должен быть оптимизирован программно [43:54].
*   **Естественный язык как язык запросов:** Благодаря тому, что модели отлично выучили SQL и другие языки разметки из открытых репозиториев, границы между SQL и NoSQL базами будут стираться. Элементарные запросы к данным скоро можно будет писать просто текстом [48:07].
*   **Мультимодальный RAG:** Мы только начали осваивать текстовый поиск, но в индустрию врывается мультимодальность. Будущие системы будут искать не только по тексту, но и по наброскам (как в Sketch-to-Image системах) или аудиофайлам [34:21].

## 👨‍💻 Дефицит экспертов
[[JUMP:57:40]]

В завершение беседы Эд Ануфф привел интересную статистику: в мире около 25 миллионов разработчиков, но лишь около 1 миллиона из них глубоко понимают программную архитектуру, и всего 100–200 тысяч являются реальными специалистами по данным и ИИ [58:19]. 

Главный вызов индустрии сейчас — абстрагировать сложности информационного поиска (Information Retrieval), чтобы обычный разработчик мог строить надежные ИИ-системы, не «зарываясь» в ручную настройку эмбеддингов и алгоритмов индексации [1:01:24]. «Это будет золотое время для кодинга», — резюмирует Ануфф, подчеркивая, что работа программистов в ближайшие годы станет только сложнее и интереснее.