Аватар из Timescale: «PostgreSQL заменяет специализированные векторные базы данных»

Eye on AI 710 51 мин 4 мин 18.11.2024
Главное

Современный ландшафт разработки искусственного интеллекта требует от инженеров не только знаний в области нейросетей, но и владения сложной инфраструктурой данных. В новом выпуске подкаста Eye on AI руководитель направления ИИ в компании Timescale Аватар (Avthar) объясняет, почему проверенная десятилетиями база данных PostgreSQL становится центральным узлом для умных приложений, заменяя собой россыпь узкоспециализированных инструментов.

🐘 Феномен PostgreSQL: 30 лет надежности и расширяемости 5:01

PostgreSQL (часто называемая просто Postgres) — это объектно-реляционная база данных с открытым исходным кодом, чья история началась в стенах Университета Беркли как развитие проекта Ingress . За три десятилетия своего существования система трансформировалась из академического проекта в индустриальный стандарт.

По словам Аватара, успех Postgres обусловлен двумя ключевыми факторами:

Именно благодаря расширяемости Postgres сегодня справляется не только с традиционными SQL-запросами, но и с геопространственными данными (PostGIS), временными рядами (TimescaleDB) и векторным поиском для ИИ . Согласно опросам Stack Overflow последних двух лет, Postgres остается самой любимой и используемой БД среди профессиональных разработчиков .

📈 От интернета вещей к финансовым рынкам: Опыт Timescale 2:43

Компания Timescale началась не с создания базы данных, а с разработки платформы для интернета вещей (IoT) под названием iobEAM . Команда столкнулась с проблемой: датчики и сенсоры генерируют колоссальные объемы данных с частотой в несколько сигналов в секунду .

Аватар описывает специфические требования к таким системам:

  1. Высокая скорость записи: База должна мгновенно поглощать поток данных от тысяч устройств.
  2. Специфические запросы: Нужно быстро получать либо «срез» состояния всей сети за последние 5 минут, либо глубокую историческую аналитику по одному объекту за месяц .
  3. Сложные агрегации: Вычисление средних значений, максимумов и трендов в реальном времени.

Не найдя подходящего решения, команда расширила возможности Postgres, создав TimescaleDB . Сегодня эти технологии применяются не только в «умных» фабриках, но и в финансовом секторе. Аватар утверждает, что Timescale обеспечивает работу крупнейших криптовалютных бирж, где данные о сделках представляют собой классические временные ряды сверхвысокой плотности .

🧠 ИИ-революция и проблема синхронизации векторов 19:09

С появлением ChatGPT и развитием RAG-систем (Retrieval-Augmented Generation — генерация с дополнением извлеченных данных) возник новый вызов: где хранить векторные представления данных (эмбеддинги) ? Многие компании бросились внедрять специализированные векторные базы данных (например, Pinecone), но быстро столкнулись с «инфраструктурным кошмаром».

Аватар выделяет главную проблему использования сторонних векторных БД — потерю синхронизации . Если в основной базе данных компании обновляется информация о продукте или правилах компании, вектор в отдельной базе остается старым. Инженерам приходится строить сложные ETL-конвейеры (извлечение, преобразование, загрузка), системы очередей и мониторинга, чтобы избежать «протухания» данных в ИИ-приложении .

🛠 Набор инструментов PG: Превращение Postgres в ИИ-хранилище 21:47

Timescale предложила альтернативу — концепцию «Postgres для всего». Аватар детально описал стек инструментов, которые компания разработала для упрощения жизни разработчиков:

Пример использования pgai: модерация комментариев . Как только пользователь пишет комментарий, срабатывает триггер внутри базы данных, LLM анализирует текст, и база сама решает, в какую таблицу (одобренных или заблокированных записей) поместить эту строку. Все происходит без написания дополнительного кода в приложении.

🔓 Открытый код против «вендор-лока» 7:09

Timescale придерживается стратегии Open Source, хотя Аватар признает, что вопрос монетизации всегда актуален. Большинство ИИ-инструментов компании распространяются под максимально разрешительной лицензией Postgres в отличие от флагманской TimescaleDB, имеющей ограничения для крупных облачных провайдеров .

Основной доход компании приносит управляемый облачный сервис Timescale Cloud . Аватар подчеркивает:

  1. Клиенты платят за удобство: резервное копирование, высокая доступность и автоматическое обновление «железа».
  2. Отсутствие привязки к поставщику: так как это стандартный Postgres, клиент может в любой момент забрать свои данные и код, перенеся их на собственные серверы .

🔮 Будущее: Демократизация разработки 45:31

Аватар отмечает, что барьер входа в мир программирования стремительно снижается благодаря ИИ-агентам и инструментам вроде Cursor или Devon . Timescale уже внедряет функции естественного языка в свои инструменты администрирования. Например, через проект Popsicle пользователь может спросить: «Покажи мне продажи за этот месяц», — и система сама сгенерирует сложный SQL-запрос .

Для Timescale будущее ИИ неразрывно связано с открытостью. По мнению Аватара, ИИ трансформирует каждый бизнес, и использование открытых технологий — единственный способ гарантировать, что разработчики не будут «ограблены» или ограничены собственниками проприетарных платформ в долгосрочной перспективе .

💬 Цитаты

«Популярность Postgres обусловлена тем, что за 30 лет все проблемы системы стали известны и большинство из них исправлены.»

«Мы видим движение разработчиков в сторону концепции 'Postgres для всего', где 90% задач решается одной базой.»

«ИИ трансформирует каждый бизнес, и наличие открытых технологий — залог инноваций без привязки к вендору.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
RAG (Retrieval-Augmented Generation)
Метод, при котором ИИ-модель использует внешние данные из базы для формирования более точного ответа.
Эмбеддинг (Embedding)
Представление текста или изображения в виде массива чисел (вектора), отражающего смысл данных.
Временной ряд (Time Series)
Последовательность данных, собранных в разные моменты времени, например показатели датчиков или котировки акций.
Квантование (Quantization)
Метод сжатия векторов, позволяющий уменьшить размер данных в базе без значительной потери точности поиска.
📊 Цифры
🗓 Хронология
  1. 1980-е Запуск проекта Postgres в Университете Беркли как наследника Ingress.
  2. 2015 Основание компании Timescale и начало работы над расширением для временных рядов.
  3. 2022 Выход ChatGPT, спровоцировавший бум интереса к векторным данным и RAG.
  4. Июнь 2024 Релиз расширения PGVector Scale для высокопроизводительного поиска.
  5. Октябрь 2024 Анонс инструмента pgai vectorizer для автоматической синхронизации векторов.
⚖️ Другая сторона
Искусственный интеллект PostgreSQL Timescale PGVector RAG векторные базы данных