Эд Ануфф из DataStax: «Векторные БД повторят путь MongoDB и формата JSON»

The TWIML AI Podcast 878 1 ч 2 мин 4 мин 28.12.2023
Главное

За последние пару лет векторные базы данных (Vector DB) превратились из узкоспециализированного инструмента для поиска по сходству в центральный элемент архитектуры современного ИИ. В новом эпизоде подкаста TWIML AI Эд Ануфф, директор по продукту (CPO) компании DataStax, обсуждает с ведущим Сэмом Чаррингтоном эволюцию технологий хранения данных, проблемы реализации RAG (Retrieval-Augmented Generation) на производстве и отвечает на главный вопрос: станут ли векторные базы данных новой доминирующей платформой.

🛠 От Cassandra к вектору: Эволюция DataStax 3:09

Эд Ануфф — ветеран Кремниевой долины, чья карьера охватывает путь от ранних поисковых систем в Wired до работы в Google после приобретения компании Apigee . Сегодня он работает в DataStax — компании, стоящей за Apache Cassandra. По его словам, Cassandra изначально задумывалась как облачная база данных для гигантских нагрузок, и такие гиганты, как Netflix, Uber и Apple, годами используют её для обработки транзакций в реальном времени .

Когда генеративный ИИ стал мейнстримом, команда DataStax осознала: пользователям нужно объединить их операционные данные с возможностями больших языковых моделей (LLM). Вместо того чтобы создавать отдельную базу «с нуля», они интегрировали векторный поиск напрямую в Cassandra, сделав его частью открытого исходного кода версии 5.0 .

🧠 Техническая дуэль: HNSW против DiskANN 5:04

Одной из самых глубоких технических тем беседы стало сравнение алгоритмов индексации векторов.

📉 Проблема релевантности: От POC к продакшену 14:36

Сэм Чаррингтон отметил, что создать прототип (Proof of Concept) с использованием RAG легко, но довести его до уровня корпоративного продукта невероятно сложно именно из-за «хрупкой» релевантности .

Эд Ануфф согласен с этим и выделяет несколько ключевых аспектов:

  1. Метрики качества: В ближайшее время сайты векторных БД сменят графики «запросов в секунду» на параметры F1-score (баланс точности и полноты) . Без высокой точности поиска LLM получает «мусорный» контекст и начинает галлюцинировать.
  2. Ад чанкинга (Chunking Hell): Эффективность RAG на 80% зависит от того, как вы «нарезали» исходные документы (например, PDF) на куски. Если разбить текст посередине важной мысли, контекст будет потерян навсегда, и даже самая умная GPT-4 не сможет его восстановить .
  3. Использование LLM для парсинга: Ануфф предсказывает рост популярности методов, где одна LLM «надзирает» за процессом разбора документов, чтобы правильно структурировать чанки перед их сохранением в базу .

🆚 Феномен JSON: Векторная база — это фича или платформа? 35:39

Один из самых дискуссионных вопросов: выживут ли специализированные векторные базы (Pinecone, Milvus) или эта функция станет просто дополнением к классическим СУБД (как PGVector в Postgres)?

Ануфф проводит аналогию с развитием формата JSON 15 лет назад:

По мнению спикера, с вектором произойдет то же самое: одна-две специализированные компании станут новыми гигантами, потому что они строят весь стек вокруг RAG, а не просто добавляют «индексированную колонку» .

🔮 Будущее RAG: Мультимодальность и GPU 42:06

Говоря о технологических трендах следующего года, участники выделили несколько направлений:

👨‍💻 Дефицит экспертов 57:40

В завершение беседы Эд Ануфф привел интересную статистику: в мире около 25 миллионов разработчиков, но лишь около 1 миллиона из них глубоко понимают программную архитектуру, и всего 100–200 тысяч являются реальными специалистами по данным и ИИ .

Главный вызов индустрии сейчас — абстрагировать сложности информационного поиска (Information Retrieval), чтобы обычный разработчик мог строить надежные ИИ-системы, не «зарываясь» в ручную настройку эмбеддингов и алгоритмов индексации . «Это будет золотое время для кодинга», — резюмирует Ануфф, подчеркивая, что работа программистов в ближайшие годы станет только сложнее и интереснее.

💬 Цитаты

«Вы никогда не будете обучать модель на электронных медицинских картах или банковских выписках — так вы получите утечку личных данных.»

«Грязный секрет векторных баз в том, что все они отлично работают на малых данных, потому что все помещается в память.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
RAG (Retrieval-Augmented Generation)
Метод, при котором ИИ ищет информацию во внешней базе данных и на её основе генерирует ответ.
Чанкинг (Chunking)
Процесс разбиения длинных документов на мелкие фрагменты для сохранения в векторную базу.
Эмбеддинги (Embeddings)
Преобразование текста или медиа в вектор чисел, отражающий смысл контента.
DiskANN
Алгоритм векторного поиска, оптимизированный для работы с данными на диске, а не в оперативной памяти.
📊 Цифры
🗓 Хронология
  1. 2023 Массовый переход индустрии от обсуждения архитектур моделей к проблемам сбора данных и RAG.
  2. Май 2023 Появление активной оптимизации (квантования) моделей для запуска на пользовательском «железе».
  3. Сентябрь 2023 Выход Cassandra 5.0 с поддержкой векторного поиска.
⚖️ Другая сторона
Технологии и IT DataStax Cassandra Vector Database RAG DiskANN