Как запустить RAG в продакшн без разорения на облачной инфраструктуре?

The TWIML AI Podcast 1,1 тыс. 40 мин 6 мин 29.01.2024
Главное

В новом выпуске подкаста The TWIML AI Podcast ведущий Сэм Шэрингтон обсудил с вице-президентом по инжинирингу компании Pinecone Рамом Шрихаршей эволюцию векторных баз данных и систем архитектуры RAG. В центре внимания оказалась проблема перехода от простых демонстрационных ИИ-моделей к крупномасштабным корпоративным решениям. Главным технологическим анонсом встречи стал запуск Pinecone Serverless — бессерверного решения, призванного кардинально снизить затраты бизнеса на инфраструктуру хранения векторов.

🛠️ От теоретической физики до векторных баз данных: путь Рама Шрихарши 0:00

Рам Шрихарша начал свою карьеру в академической среде, защитив докторскую диссертацию (PhD) по теоретической физике. Впоследствии он решил сменить траекторию и перешел в финансовый сектор, проработав некоторое время в инвестиционном банке Goldman Sachs. В 2010 году исследователь перебрался на Западное побережье США и присоединился к команде Yahoo, где оставался до 2014 года. Именно этот период стал для него отправной точкой в индустрии больших данных и крупномасштабного машинного обучения.

В Yahoo Шрихарша прошел путь через несколько технологических подразделений и в конечном счете сфокусировался на масштабируемом машинном обучении в рамках Yahoo Research. Ведущий подкаста Сэм Шэрингтон подчеркнул, что современная аудитория часто недооценивает исторический вклад Yahoo в развитие коммерческого поиска, рекламных систем и инфраструктуры Big Data. Рам Шрихарша согласился с этим тезисом, отметив, что многие передовые наработки в области облачных систем и онлайн-обучения моделей зародились именно там, а специалисты Yahoo впоследствии сформировали костяк команд в таких гигантах, как Google.

После Yahoo Шрихарша перешел в компанию Databricks, где занимался развитием платформы Apache Spark и запускал новые стратегические инициативы, включая проект Genomic. Позже он возглавил исследовательскую группу по машинному обучению в Splunk. Задумавшись о создании собственного стартапа, инженер связался с генеральным директором Pinecone Идо (Ido). Осознав, что они пытаются решить схожие архитектурные задачи, Шрихарша принял решение объединить усилия и примерно два с половиной года назад занял пост вице-президента по инжинирингу в Pinecone.

🧠 Интеллектуальный слой против слоя знаний: суть технологии RAG 4:29

Для понимания роли векторных баз данных Рам Шрихарша предлагает взглянуть на базовую структуру современных приложений генеративного ИИ. По его мнению, большие языковые модели (LLM), такие как ChatGPT, представляют собой сложные sequence-to-sequence алгоритмы, преобразующие одну последовательность текста в другую. Обладая колоссальным объемом параметров, они инкапсулируют в себе структуру языка и базовые способности к логическому рассуждению. Благодаря этому LLM выступают в качестве «интеллектуального слоя» или слоя оркестрации ИИ-приложений.

Тем не менее, как утверждает гость, изолированная языковая модель лишена так называемого «слоя знаний» (knowledge layer), критически необходимого для выполнения задач с высокой плотностью фактической информации. Хотя LLM содержат общие представления о мире, заложенные в процессе обучения, они не имеют прямого доступа к точным, оперативным и специфическим корпоративным данным. Эту лакуну заполняют векторные базы данных через механизмы информационного поиска.

Шрихарша разделяет эволюцию информационного поиска на два ключевых этапа:

Векторные базы данных, по словам Шрихарши, стали эволюционным продолжением поисковых систем. Когда пользователь отправляет запрос, система преобразует его в вектор и мгновенно извлекает из базы наиболее близкие по смыслу контекстные документы. Спикер подчеркивает, что подход RAG (Retrieval-Augmented Generation), совмещающий sequence-to-sequence алгоритмы с векторным поиском, показывает строго лучшие результаты в сложных прикладных задачах, чем использование «голых» LLM или попытки их постоянного дообучения (fine-tuning).

⚠️ Скрытые вызовы: почему запустить демо RAG просто, а продакшн — сложно 13:38

В ИИ-индустрии существует консенсус: создать работающий прототип RAG по открытым интернет-руководствам можно за пару вечеров, однако развертывание надежной продакшн-системы сопряжено с серьезными барьерами. По оценке Рама Шрихарши, эти вызовы делятся на три основные категории: инфраструктурные, экономические и качественные.

С точки зрения инфраструктуры, обработка нескольких сотен документов в рамках демонстрационной версии принципиально отличается от масштабирования до миллиардов векторов. Одной из фундаментальных и наименее решенных проблем гость называет обеспечение «свежести индекса» (index freshness). Корпоративные данные постоянно меняются: документы добавляются, редактируются, удаляются или скрываются из соображений конфиденциальности. Синхронизация этих изменений с векторным хранилищем математически трудна, поскольку классические алгоритмы векторного поиска (такие как HNSW или FAISS) плохо поддаются инкрементальному обновлению индексов. Если добавлять новые связи локально, поисковый запрос может пропустить обновленный документ, а сканирование всего массива данных требует колоссальных вычислительных мощностей и экономически нецелесообразно.

Среди ключевых барьеров на пути к качественному RAG-сервису спикер выделяет:

☁️ Революция Pinecone Serverless: разделение хранения и вычислений 23:03

До недавмени векторные базы данных оперировали в рамках жесткой архитектуры поисковых движков, основанной на подах (pods) и шардировании. Пользователям приходилось заранее прогнозировать объемы данных и разворачивать фиксированные вычислительные мощности, индекс в которых постоянно удерживался в оперативной памяти (RAM) или на локальных SSD-накопителях. Гость отмечает, что это приводило к колоссальным переплатам: если бизнес использовал базу в режиме on-demand (например, для редких точечных запросов), дорогостоящее оборудование простаивало и расходовало бюджет.

Для преодоления этой неэффективности команда Pinecone представила архитектуру Pinecone Serverless. Ее ключевым принципом стало полное разделение процессов хранения данных и вычислений (decoupling storage and compute). Вместо постоянного удержания гигантских индексов в памяти инженеры перенесли основную массу данных в дешевые облачные блочные хранилища, такие как Amazon S3.

По заявлению Шрихарши, новая бессерверная модель обеспечивает пользователям следующие преимущества:

📐 Геометрическое партиционирование и будущее векторного поиска 30:18

Главная техническая сложность при переносе индексов в дешевое облачное хранилище заключается в скорости доступа. Извлечение данных из систем вроде S3 происходит значительно медленнее, чем из оперативной памяти. Чтобы решить эту проблему, инженерам Pinecone пришлось полностью переработать математические алгоритмы поиска и внедрить так называемое геометрическое партиционирование.

В традиционных реляционных базах данных применяется разделение по диапазонам значений (range partitioning) — например, по временным меткам. Если системе нужен лог за конкретную дату, она игнорирует все остальные блоки данных. Векторный же поиск оперирует многомерными пространствами, не имеющими простых линейных границ. Разработанный алгоритм Pinecone Serverless разбивает это пространство на геометрические регионы. Когда поступает запрос, система математически определяет, в какой области находится вектор, и подгружает из блочного хранилища в кэш процессора только релевантную часть индекса.

Эксперименты и внутренние бенчмарки компании показывают, что около 90–95% всех пользовательских запросов могут быть успешно обработаны путем анализа очень компактной, локализованной области данных. Оставшиеся 5% сложных запросов требуют более глубокого сканирования, однако в новой архитектуре пользователи платят исключительно за фактически задействованные ресурсы, измеряемые в специальных единицах стоимости — Radio Units.

В настоящий момент решение Pinecone Serverless находится в режиме публичного превью (public preview), требующем повторной инициализации данных. Тем не менее Шрихарша пообещал, что к моменту релиза в стадии General Availability (GA) переход станет возможен по нажатию одной кнопки. В течение ближайшего года векторные базы данных, по прогнозам спикера, эволюционируют в комплексные платформы, которые возьмут на себя бесшовную интеграцию разрозненных сегодня процессов чанкинга, генерации эмбеддингов и вторичного переранжирования данных.

💬 Цитаты

«Использование языковых моделей вместе с информационным поиском через векторную базу данных строго лучше, чем использование только LLM или даже их тонкая настройка.»

Рам Шрихарша 13:11

«Векторные базы данных уникально позиционированы, чтобы отвечать на вопрос: какие документы наиболее релевантны вектору запроса.»

Рам Шрихарша 09:15
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
RAG (Retrieval-Augmented Generation)
Метод оптимизации вывода LLM, использующий извлечение актуальных данных из внешних баз знаний.
Плотный поиск (Dense Retrieval)
Поиск информации, основанный на сопоставлении семантических векторов (эмбеддингов), а не ключевых слов.
Эмбеддинг (Embedding)
Векторное представление текста в виде массива чисел с плавающей точкой, отражающее его смысл.
Партиционирование (Partitioning)
Процесс разделения базы данных на отдельные логические или физические части для ускорения поиска.
📊 Цифры
🗓 Хронология
  1. 2010 Рам Шрихарша переходит на Западное побережье США и начинает работу в Yahoo.
  2. 2014 Шрихарша покидает Yahoo Research, переходя в Databricks для работы над проектом Spark.
  3. ~2023 Рам Шрихарша присоединяется к команде Pinecone под руководством CEO Идо.
⚖️ Другая сторона
Искусственный интеллект Pinecone Serverless архитектура RAG Рам Шрихарша векторные базы данных