Эд Ануфф из DataStax: «Векторные БД повторят путь MongoDB и формата JSON»

За последние пару лет векторные базы данных (Vector DB) превратились из узкоспециализированного инструмента для поиска по сходству в центральный элемент архитектуры современного ИИ. В новом эпизоде подкаста TWIML AI Эд Ануфф, директор по продукту (CPO) компании DataStax, обсуждает с ведущим Сэмом Чаррингтоном эволюцию технологий хранения данных, проблемы реализации RAG (Retrieval-Augmented Generation) на производстве и отвечает на главный вопрос: станут ли векторные базы данных новой доминирующей платформой.

🛠 От Cassandra к вектору: Эволюция DataStax 3:09

Эд Ануфф — ветеран Кремниевой долины, чья карьера охватывает путь от ранних поисковых систем в Wired до работы в Google после приобретения компании Apigee . Сегодня он работает в DataStax — компании, стоящей за Apache Cassandra. По его словам, Cassandra изначально задумывалась как облачная база данных для гигантских нагрузок, и такие гиганты, как Netflix, Uber и Apple, годами используют её для обработки транзакций в реальном времени .

Когда генеративный ИИ стал мейнстримом, команда DataStax осознала: пользователям нужно объединить их операционные данные с возможностями больших языковых моделей (LLM). Вместо того чтобы создавать отдельную базу «с нуля», они интегрировали векторный поиск напрямую в Cassandra, сделав его частью открытого исходного кода версии 5.0 .

🧠 Техническая дуэль: HNSW против DiskANN 5:04

Одной из самых глубоких технических тем беседы стало сравнение алгоритмов индексации векторов.

HNSW (Hierarchical Navigable Small Worlds): По мнению Ануффа, это «золотой стандарт», с которого начинали почти все современные векторные базы (Pinecone, Weaviate, Chroma). Этот алгоритм, заимствованный из библиотеки Lucene, отлично работает с небольшими наборами данных, которые полностью помещаются в оперативную память .
Проблема масштаба: Ануфф утверждает, что «грязный секрет» многих векторных БД в том, что их производительность резко падает, когда данные перестают влезать в RAM. На наборах в миллионы документов HNSW начинает страдать от избыточного количества операций ввода-вывода (IO) .
DiskANN: DataStax перешла на DiskANN — алгоритм, оптимизированный для работы на дисках. По словам гостя, это критически важно для распределенных систем, таких как Cassandra, где данные разбросаны по тысячам узлов. DiskANN позволяет поддерживать высокую точность (precision) и полноту (recall) поиска даже на массивах в сотни миллионов документов, таких как вся Wikipedia .

📉 Проблема релевантности: От POC к продакшену 14:36

Сэм Чаррингтон отметил, что создать прототип (Proof of Concept) с использованием RAG легко, но довести его до уровня корпоративного продукта невероятно сложно именно из-за «хрупкой» релевантности .

Эд Ануфф согласен с этим и выделяет несколько ключевых аспектов:

Метрики качества: В ближайшее время сайты векторных БД сменят графики «запросов в секунду» на параметры F1-score (баланс точности и полноты) . Без высокой точности поиска LLM получает «мусорный» контекст и начинает галлюцинировать.
Ад чанкинга (Chunking Hell): Эффективность RAG на 80% зависит от того, как вы «нарезали» исходные документы (например, PDF) на куски. Если разбить текст посередине важной мысли, контекст будет потерян навсегда, и даже самая умная GPT-4 не сможет его восстановить .
Использование LLM для парсинга: Ануфф предсказывает рост популярности методов, где одна LLM «надзирает» за процессом разбора документов, чтобы правильно структурировать чанки перед их сохранением в базу .

🆚 Феномен JSON: Векторная база — это фича или платформа? 35:39

Один из самых дискуссионных вопросов: выживут ли специализированные векторные базы (Pinecone, Milvus) или эта функция станет просто дополнением к классическим СУБД (как PGVector в Postgres)?

Ануфф проводит аналогию с развитием формата JSON 15 лет назад:

Когда JSON стал стандартом обмена данными, появилась MongoDB — специализированная база, которая «сделала ставку» на этот формат как на первоклассного гражданина .
В то же время Postgres добавил поддержку JSON как тип данных.
Итог: MongoDB стала миллиардным бизнесом, но и классические базы успешно используют JSON.

По мнению спикера, с вектором произойдет то же самое: одна-две специализированные компании станут новыми гигантами, потому что они строят весь стек вокруг RAG, а не просто добавляют «индексированную колонку» .

🔮 Будущее RAG: Мультимодальность и GPU 42:06

Говоря о технологических трендах следующего года, участники выделили несколько направлений:

GPU в базах данных: Ануфф скептически относится к идее использования GPU непосредственно внутри БД для сравнения векторов в реальном времени. По его мнению, это экономически нецелесообразно (cost-prohibitive) при масштабе в тысячи узлов. GPU должны оставаться на стороне моделей эмбеддингов, а поиск должен быть оптимизирован программно .
Естественный язык как язык запросов: Благодаря тому, что модели отлично выучили SQL и другие языки разметки из открытых репозиториев, границы между SQL и NoSQL базами будут стираться. Элементарные запросы к данным скоро можно будет писать просто текстом .
Мультимодальный RAG: Мы только начали осваивать текстовый поиск, но в индустрию врывается мультимодальность. Будущие системы будут искать не только по тексту, но и по наброскам (как в Sketch-to-Image системах) или аудиофайлам .

👨‍💻 Дефицит экспертов 57:40

В завершение беседы Эд Ануфф привел интересную статистику: в мире около 25 миллионов разработчиков, но лишь около 1 миллиона из них глубоко понимают программную архитектуру, и всего 100–200 тысяч являются реальными специалистами по данным и ИИ .

Главный вызов индустрии сейчас — абстрагировать сложности информационного поиска (Information Retrieval), чтобы обычный разработчик мог строить надежные ИИ-системы, не «зарываясь» в ручную настройку эмбеддингов и алгоритмов индексации . «Это будет золотое время для кодинга», — резюмирует Ануфф, подчеркивая, что работа программистов в ближайшие годы станет только сложнее и интереснее.