# Антон Тройников о Chroma: «Мы строим базу данных для информации, которая никогда не была вычислимой»

Источник: https://www.youtube.com/watch?v=fDmQnB8Ga6g
Канал: The Cognitive Revolution
Опубликовано: 24.10.2023

---

Восемь месяцев спустя после своего первого появления в подкасте, Антон Тройников, сооснователь компании Chroma, возвращается в эфир в новом статусе. Если весной 2023 года он выступал как эксперт по эмбеддингам в мире «до GPT-4», то теперь он называет себя «CTO военного времени». В беседе с Нейтаном Лабенцом он формулирует новую философию хранения данных: информация в эпоху ИИ — это не статический архив, а динамический цикл управления, где база данных сама становится интеллектуальным агентом.

## 🚀 Статус «CTO военного времени» и новая миссия Chroma
[[JUMP:04:20]]

Антон Тройников объясняет смену своего статуса в социальных сетях с «пирата» на «CTO военного времени» переходом компании из стадии свободного поиска в стадию жесткой реализации [04:49]. По его словам, Chroma вышла из режима исследования рынка и теперь имеет четкий мандат и конкретные цели, ради которых команда готова идти на высокие риски [05:14].

Ключевые приоритеты компании на текущем этапе:

*   Создание горизонтально масштабируемой системы на базе поискового движка Chroma [05:51].
*   Запуск облачного сервиса Chroma Cloud, который обеспечит эластичное масштабирование [13:31].
*   Переход от «просто базы данных» к платформе, которая берет на себя интеллектуальные задачи: сегментацию данных (chunking) и выбор моделей эмбеддингов [14:11].

Антон Тройников подчеркивает, что сейчас риск для компании заключается исключительно в исполнении (execution risk), так как понимание продукта и потребностей рынка уже полностью сформировано [06:16].

## 🏗️ Эволюция RAG: от экспериментов к промышленным масштабам
[[JUMP:06:29]]

Retrieval-Augmented Generation (RAG) стал главным трендом в разработке ИИ-приложений летом 2023 года [06:54]. Антон Тройников описывает это как цикл, где запрос пользователя инициирует поиск в базе данных для извлечения контекста, который затем передается языковой модели для генерации ответа [07:20].

По мнению Антона Тройникова, рынок сейчас находится в разных точках кривой адаптации:

1.  **Начальный этап:** Разработчики только узнают о возможности внедрения данных в модель. Здесь Chroma доминирует благодаря простоте — библиотеку можно установить одной командой `pip install chromadb`, и она работает «из коробки» с разумными настройками по умолчанию [11:13].
2.  **Этап масштабирования:** Когда эксперимент удался, компаниям нужно решение, способное обрабатывать миллионы векторов на множестве узлов.
3.  **Продвинутый этап:** Предприятия задаются вопросом качества поиска и того, как вернуть обратную связь от пользователей обратно в слой данных для самообучения системы [10:20].

Антон Тройников отмечает фундаментальное различие между традиционными поисковыми индексами (как у Pinterest) и базами данных для ИИ-приложений [12:15]. Традиционные индексы статичны и открыты для всех, тогда как в ИИ-приложениях данные постоянно обновляются и часто сегментированы по пользователям, что требует принципиально иной архитектуры масштабирования [12:52].

## 🧠 Технологический стек: эмбеддинги и проблема «лишней информации»
[[JUMP:17:00]]

В вопросе выбора моделей для создания векторных представлений (embeddings) Антон Тройников наблюдает интересную динамику. Несмотря на популярность модели Ada от OpenAI, многие пользователи переходят на открытые решения (Open Source) [17:17].

Основные аргументы в пользу локальных моделей (например, Llama 2 или Mistral), по словам гостя:

*   **Конфиденциальность:** Желание держать весь цикл RAG внутри компании, не отправляя данные по сети сторонним провайдерам [19:30].
*   **Стоимость:** Использование API для эмбеддингов обходится дешево, но вызов самой LLM на больших масштабах становится крайне дорогим [20:20].
*   **Контроль:** Возможность тонкой настройки (fine-tuning) модели под конкретные задачи бизнеса [20:08].

Нейтан Лабенц поделился своим опытом: в ранних версиях они извлекали 2-3 фрагмента данных, а теперь увеличили это число до 10, полагаясь на способность GPT-4 находить нужное в большом контексте [22:45]. Однако Антон Тройников предупреждает о «фольклоре», подтвержденном исследованиями: наличие отвлекающей, иррелевантной информации в окне контекста может измеряемо разрушить производительность приложения [21:14]. Он считает, что разработчик должен стремиться возвращать только максимально релевантные данные, а не просто забивать окно контекста до предела [22:05].

## 🔄 Оптимизация поиска: адаптеры и «галлюцинации» как инструмент
[[JUMP:23:46]]

Для улучшения качества поиска обсуждаются два продвинутых подхода:

1.  **Аффинные преобразования (Affine Transforms):** Вместо пересчета всех эмбеддингов можно обучить небольшую матрицу-адаптер, которая «сжимает, растягивает или поворачивает» векторное пространство запроса, подстраивая его под нужды конкретного пользователя или приложения [24:17].
2.  **HyDE (Hypothetical Document Embeddings):** Метод, при котором LLM сначала генерирует «гипотетический» ответ на вопрос, а затем этот ответ (а не сам вопрос) используется для поиска в базе данных [26:14].

Антон Тройников полагает, что в долгосрочной перспективе тюнинг самого векторного пространства будет дешевле и эффективнее, чем дополнительные вызовы модели для генерации гипотетических документов [26:53].

Также спикеры затронули тему гибридного хранения. По мнению Тройникова, структурированные данные (даты, числа, дни рождения) лучше хранить в классических SQL-таблицах, а не превращать в векторы [27:49]. Chroma уже содержит в себе реляционную базу данных для метаданных и документов, что позволяет комбинировать ключевые слова и семантический поиск через единый интерфейс [29:49].

## 🏢 Бизнес-стратегия: данные, которые никогда не были в базах
[[JUMP:32:01]]

Антон Тройников выдвигает смелый тезис: Chroma не столько конкурирует с гигантами вроде Oracle или Salesforce, сколько создает новый рынок. Большая часть данных, попадающих в Chroma, раньше никогда не хранилась в базах данных [33:18]. Это текстовые документы, которые раньше лежали «мертвым грузом» и были доступны только для чтения человеком. Теперь ИИ сделал их вычислимыми [33:32].

Тройников прогнозирует появление трех типов организаций в эпоху ИИ:

*   **Legacy-бизнесы:** Старые компании, адаптирующие ИИ в существующие процессы [39:24].
*   **ИИ-инструментарий:** Компании, создающие инструменты, которые стали возможны только благодаря ИИ [39:51].
*   **ИИ-native компании:** Новые игроки, строящие бизнес-процессы (например, в недвижимости или юриспруденции) с нуля вокруг ИИ [40:03].

В качестве примера огромного потенциала он приводит сферу недвижимости, где колоссальное количество времени тратится на ручную обработку разнородных документов [40:45].

## 🧪 Будущее данных: время, интерпретируемость и «Игра жизни»
[[JUMP:46:31]]

Антон Тройников считает, что со временем мы откажемся от передачи текста в модель. Вместо цикла «вектор → текст → вектор» мы будем подавать числа (векторы) напрямую в веса модели [49:33]. Это не снизит безопасность или интерпретируемость, если у разработчиков будут правильные инструменты визуализации латентного пространства [52:42].

Одним из самых интересных технических предсказаний Антона Тройникова является внедрение «измерения времени» непосредственно в эмбеддинги. Вместо простых фильтров по дате в метаданных, модель сама будет понимать актуальность информации через временную компоненту вектора, затухающую со временем [10:52].

В финале беседы Антон Тройников выразил скепсис по поводу текущих способностей LLM к истинному рассуждению (reasoning). Он провел эксперимент с «Игрой жизни» Конвея (Game of Life), где GPT-4 могла правильно описать правила словами, но не могла последовательно применить их к сетке 10x10 в разных представлениях [1:22:19]. По его мнению, модель не обладает целостной мировой моделью, а лишь статистически воспроизводит переходы состояний, которые видела в обучении [1:25:20]. Это подкрепляет его уверенность в том, что высококачественный поиск (retrieval) останется критически важным компонентом систем еще долгое время.

---