Антон Тройников о Chroma: «Мы строим базу данных для информации, которая никогда не была вычислимой»

Восемь месяцев спустя после своего первого появления в подкасте, Антон Тройников, сооснователь компании Chroma, возвращается в эфир в новом статусе. Если весной 2023 года он выступал как эксперт по эмбеддингам в мире «до GPT-4», то теперь он называет себя «CTO военного времени». В беседе с Нейтаном Лабенцом он формулирует новую философию хранения данных: информация в эпоху ИИ — это не статический архив, а динамический цикл управления, где база данных сама становится интеллектуальным агентом.

🚀 Статус «CTO военного времени» и новая миссия Chroma 4:20

Антон Тройников объясняет смену своего статуса в социальных сетях с «пирата» на «CTO военного времени» переходом компании из стадии свободного поиска в стадию жесткой реализации . По его словам, Chroma вышла из режима исследования рынка и теперь имеет четкий мандат и конкретные цели, ради которых команда готова идти на высокие риски .

Ключевые приоритеты компании на текущем этапе:

Создание горизонтально масштабируемой системы на базе поискового движка Chroma .
Запуск облачного сервиса Chroma Cloud, который обеспечит эластичное масштабирование .
Переход от «просто базы данных» к платформе, которая берет на себя интеллектуальные задачи: сегментацию данных (chunking) и выбор моделей эмбеддингов .

Антон Тройников подчеркивает, что сейчас риск для компании заключается исключительно в исполнении (execution risk), так как понимание продукта и потребностей рынка уже полностью сформировано .

🏗️ Эволюция RAG: от экспериментов к промышленным масштабам 6:29

Retrieval-Augmented Generation (RAG) стал главным трендом в разработке ИИ-приложений летом 2023 года . Антон Тройников описывает это как цикл, где запрос пользователя инициирует поиск в базе данных для извлечения контекста, который затем передается языковой модели для генерации ответа .

По мнению Антона Тройникова, рынок сейчас находится в разных точках кривой адаптации:

Начальный этап: Разработчики только узнают о возможности внедрения данных в модель. Здесь Chroma доминирует благодаря простоте — библиотеку можно установить одной командой pip install chromadb, и она работает «из коробки» с разумными настройками по умолчанию .
Этап масштабирования: Когда эксперимент удался, компаниям нужно решение, способное обрабатывать миллионы векторов на множестве узлов.
Продвинутый этап: Предприятия задаются вопросом качества поиска и того, как вернуть обратную связь от пользователей обратно в слой данных для самообучения системы .

Антон Тройников отмечает фундаментальное различие между традиционными поисковыми индексами (как у Pinterest) и базами данных для ИИ-приложений . Традиционные индексы статичны и открыты для всех, тогда как в ИИ-приложениях данные постоянно обновляются и часто сегментированы по пользователям, что требует принципиально иной архитектуры масштабирования .

🧠 Технологический стек: эмбеддинги и проблема «лишней информации» 17:00

В вопросе выбора моделей для создания векторных представлений (embeddings) Антон Тройников наблюдает интересную динамику. Несмотря на популярность модели Ada от OpenAI, многие пользователи переходят на открытые решения (Open Source) .

Основные аргументы в пользу локальных моделей (например, Llama 2 или Mistral), по словам гостя:

Конфиденциальность: Желание держать весь цикл RAG внутри компании, не отправляя данные по сети сторонним провайдерам .
Стоимость: Использование API для эмбеддингов обходится дешево, но вызов самой LLM на больших масштабах становится крайне дорогим .
Контроль: Возможность тонкой настройки (fine-tuning) модели под конкретные задачи бизнеса .

Нейтан Лабенц поделился своим опытом: в ранних версиях они извлекали 2-3 фрагмента данных, а теперь увеличили это число до 10, полагаясь на способность GPT-4 находить нужное в большом контексте . Однако Антон Тройников предупреждает о «фольклоре», подтвержденном исследованиями: наличие отвлекающей, иррелевантной информации в окне контекста может измеряемо разрушить производительность приложения . Он считает, что разработчик должен стремиться возвращать только максимально релевантные данные, а не просто забивать окно контекста до предела .

🔄 Оптимизация поиска: адаптеры и «галлюцинации» как инструмент 23:46

Для улучшения качества поиска обсуждаются два продвинутых подхода:

Аффинные преобразования (Affine Transforms): Вместо пересчета всех эмбеддингов можно обучить небольшую матрицу-адаптер, которая «сжимает, растягивает или поворачивает» векторное пространство запроса, подстраивая его под нужды конкретного пользователя или приложения .
HyDE (Hypothetical Document Embeddings): Метод, при котором LLM сначала генерирует «гипотетический» ответ на вопрос, а затем этот ответ (а не сам вопрос) используется для поиска в базе данных .

Антон Тройников полагает, что в долгосрочной перспективе тюнинг самого векторного пространства будет дешевле и эффективнее, чем дополнительные вызовы модели для генерации гипотетических документов .

Также спикеры затронули тему гибридного хранения. По мнению Тройникова, структурированные данные (даты, числа, дни рождения) лучше хранить в классических SQL-таблицах, а не превращать в векторы . Chroma уже содержит в себе реляционную базу данных для метаданных и документов, что позволяет комбинировать ключевые слова и семантический поиск через единый интерфейс .

🏢 Бизнес-стратегия: данные, которые никогда не были в базах 32:01

Антон Тройников выдвигает смелый тезис: Chroma не столько конкурирует с гигантами вроде Oracle или Salesforce, сколько создает новый рынок. Большая часть данных, попадающих в Chroma, раньше никогда не хранилась в базах данных . Это текстовые документы, которые раньше лежали «мертвым грузом» и были доступны только для чтения человеком. Теперь ИИ сделал их вычислимыми .

Тройников прогнозирует появление трех типов организаций в эпоху ИИ:

Legacy-бизнесы: Старые компании, адаптирующие ИИ в существующие процессы .
ИИ-инструментарий: Компании, создающие инструменты, которые стали возможны только благодаря ИИ .
ИИ-native компании: Новые игроки, строящие бизнес-процессы (например, в недвижимости или юриспруденции) с нуля вокруг ИИ .

В качестве примера огромного потенциала он приводит сферу недвижимости, где колоссальное количество времени тратится на ручную обработку разнородных документов .

🧪 Будущее данных: время, интерпретируемость и «Игра жизни» 46:31

Антон Тройников считает, что со временем мы откажемся от передачи текста в модель. Вместо цикла «вектор → текст → вектор» мы будем подавать числа (векторы) напрямую в веса модели . Это не снизит безопасность или интерпретируемость, если у разработчиков будут правильные инструменты визуализации латентного пространства .

Одним из самых интересных технических предсказаний Антона Тройникова является внедрение «измерения времени» непосредственно в эмбеддинги. Вместо простых фильтров по дате в метаданных, модель сама будет понимать актуальность информации через временную компоненту вектора, затухающую со временем .

В финале беседы Антон Тройников выразил скепсис по поводу текущих способностей LLM к истинному рассуждению (reasoning). Он провел эксперимент с «Игрой жизни» Конвея (Game of Life), где GPT-4 могла правильно описать правила словами, но не могла последовательно применить их к сетке 10x10 в разных представлениях . По его мнению, модель не обладает целостной мировой моделью, а лишь статистически воспроизводит переходы состояний, которые видела в обучении . Это подкрепляет его уверенность в том, что высококачественный поиск (retrieval) останется критически важным компонентом систем еще долгое время.