За последние пару лет векторные базы данных (Vector DB) превратились из узкоспециализированного инструмента для поиска по сходству в центральный элемент архитектуры современного ИИ. В новом эпизоде подкаста TWIML AI Эд Ануфф, директор по продукту (CPO) компании DataStax, обсуждает с ведущим Сэмом Чаррингтоном эволюцию технологий хранения данных, проблемы реализации RAG (Retrieval-Augmented Generation) на производстве и отвечает на главный вопрос: станут ли векторные базы данных новой доминирующей платформой.
🛠 От Cassandra к вектору: Эволюция DataStax 3:09
Эд Ануфф — ветеран Кремниевой долины, чья карьера охватывает путь от ранних поисковых систем в Wired до работы в Google после приобретения компании Apigee . Сегодня он работает в DataStax — компании, стоящей за Apache Cassandra. По его словам, Cassandra изначально задумывалась как облачная база данных для гигантских нагрузок, и такие гиганты, как Netflix, Uber и Apple, годами используют её для обработки транзакций в реальном времени .
Когда генеративный ИИ стал мейнстримом, команда DataStax осознала: пользователям нужно объединить их операционные данные с возможностями больших языковых моделей (LLM). Вместо того чтобы создавать отдельную базу «с нуля», они интегрировали векторный поиск напрямую в Cassandra, сделав его частью открытого исходного кода версии 5.0 .
🧠 Техническая дуэль: HNSW против DiskANN 5:04
Одной из самых глубоких технических тем беседы стало сравнение алгоритмов индексации векторов.
- HNSW (Hierarchical Navigable Small Worlds): По мнению Ануффа, это «золотой стандарт», с которого начинали почти все современные векторные базы (Pinecone, Weaviate, Chroma). Этот алгоритм, заимствованный из библиотеки Lucene, отлично работает с небольшими наборами данных, которые полностью помещаются в оперативную память .
- Проблема масштаба: Ануфф утверждает, что «грязный секрет» многих векторных БД в том, что их производительность резко падает, когда данные перестают влезать в RAM. На наборах в миллионы документов HNSW начинает страдать от избыточного количества операций ввода-вывода (IO) .
- DiskANN: DataStax перешла на DiskANN — алгоритм, оптимизированный для работы на дисках. По словам гостя, это критически важно для распределенных систем, таких как Cassandra, где данные разбросаны по тысячам узлов. DiskANN позволяет поддерживать высокую точность (precision) и полноту (recall) поиска даже на массивах в сотни миллионов документов, таких как вся Wikipedia .
📉 Проблема релевантности: От POC к продакшену 14:36
Сэм Чаррингтон отметил, что создать прототип (Proof of Concept) с использованием RAG легко, но довести его до уровня корпоративного продукта невероятно сложно именно из-за «хрупкой» релевантности .
Эд Ануфф согласен с этим и выделяет несколько ключевых аспектов:
- Метрики качества: В ближайшее время сайты векторных БД сменят графики «запросов в секунду» на параметры F1-score (баланс точности и полноты) . Без высокой точности поиска LLM получает «мусорный» контекст и начинает галлюцинировать.
- Ад чанкинга (Chunking Hell): Эффективность RAG на 80% зависит от того, как вы «нарезали» исходные документы (например, PDF) на куски. Если разбить текст посередине важной мысли, контекст будет потерян навсегда, и даже самая умная GPT-4 не сможет его восстановить .
- Использование LLM для парсинга: Ануфф предсказывает рост популярности методов, где одна LLM «надзирает» за процессом разбора документов, чтобы правильно структурировать чанки перед их сохранением в базу .
🆚 Феномен JSON: Векторная база — это фича или платформа? 35:39
Один из самых дискуссионных вопросов: выживут ли специализированные векторные базы (Pinecone, Milvus) или эта функция станет просто дополнением к классическим СУБД (как PGVector в Postgres)?
Ануфф проводит аналогию с развитием формата JSON 15 лет назад:
- Когда JSON стал стандартом обмена данными, появилась MongoDB — специализированная база, которая «сделала ставку» на этот формат как на первоклассного гражданина .
- В то же время Postgres добавил поддержку JSON как тип данных.
- Итог: MongoDB стала миллиардным бизнесом, но и классические базы успешно используют JSON.
По мнению спикера, с вектором произойдет то же самое: одна-две специализированные компании станут новыми гигантами, потому что они строят весь стек вокруг RAG, а не просто добавляют «индексированную колонку» .
🔮 Будущее RAG: Мультимодальность и GPU 42:06
Говоря о технологических трендах следующего года, участники выделили несколько направлений:
- GPU в базах данных: Ануфф скептически относится к идее использования GPU непосредственно внутри БД для сравнения векторов в реальном времени. По его мнению, это экономически нецелесообразно (cost-prohibitive) при масштабе в тысячи узлов. GPU должны оставаться на стороне моделей эмбеддингов, а поиск должен быть оптимизирован программно .
- Естественный язык как язык запросов: Благодаря тому, что модели отлично выучили SQL и другие языки разметки из открытых репозиториев, границы между SQL и NoSQL базами будут стираться. Элементарные запросы к данным скоро можно будет писать просто текстом .
- Мультимодальный RAG: Мы только начали осваивать текстовый поиск, но в индустрию врывается мультимодальность. Будущие системы будут искать не только по тексту, но и по наброскам (как в Sketch-to-Image системах) или аудиофайлам .
👨💻 Дефицит экспертов 57:40
В завершение беседы Эд Ануфф привел интересную статистику: в мире около 25 миллионов разработчиков, но лишь около 1 миллиона из них глубоко понимают программную архитектуру, и всего 100–200 тысяч являются реальными специалистами по данным и ИИ .
Главный вызов индустрии сейчас — абстрагировать сложности информационного поиска (Information Retrieval), чтобы обычный разработчик мог строить надежные ИИ-системы, не «зарываясь» в ручную настройку эмбеддингов и алгоритмов индексации . «Это будет золотое время для кодинга», — резюмирует Ануфф, подчеркивая, что работа программистов в ближайшие годы станет только сложнее и интереснее.