Восемь месяцев спустя после своего первого появления в подкасте, Антон Тройников, сооснователь компании Chroma, возвращается в эфир в новом статусе. Если весной 2023 года он выступал как эксперт по эмбеддингам в мире «до GPT-4», то теперь он называет себя «CTO военного времени». В беседе с Нейтаном Лабенцом он формулирует новую философию хранения данных: информация в эпоху ИИ — это не статический архив, а динамический цикл управления, где база данных сама становится интеллектуальным агентом.
🚀 Статус «CTO военного времени» и новая миссия Chroma 4:20
Антон Тройников объясняет смену своего статуса в социальных сетях с «пирата» на «CTO военного времени» переходом компании из стадии свободного поиска в стадию жесткой реализации . По его словам, Chroma вышла из режима исследования рынка и теперь имеет четкий мандат и конкретные цели, ради которых команда готова идти на высокие риски .
Ключевые приоритеты компании на текущем этапе:
- Создание горизонтально масштабируемой системы на базе поискового движка Chroma .
- Запуск облачного сервиса Chroma Cloud, который обеспечит эластичное масштабирование .
- Переход от «просто базы данных» к платформе, которая берет на себя интеллектуальные задачи: сегментацию данных (chunking) и выбор моделей эмбеддингов .
Антон Тройников подчеркивает, что сейчас риск для компании заключается исключительно в исполнении (execution risk), так как понимание продукта и потребностей рынка уже полностью сформировано .
🏗️ Эволюция RAG: от экспериментов к промышленным масштабам 6:29
Retrieval-Augmented Generation (RAG) стал главным трендом в разработке ИИ-приложений летом 2023 года . Антон Тройников описывает это как цикл, где запрос пользователя инициирует поиск в базе данных для извлечения контекста, который затем передается языковой модели для генерации ответа .
По мнению Антона Тройникова, рынок сейчас находится в разных точках кривой адаптации:
- Начальный этап: Разработчики только узнают о возможности внедрения данных в модель. Здесь Chroma доминирует благодаря простоте — библиотеку можно установить одной командой
pip install chromadb, и она работает «из коробки» с разумными настройками по умолчанию . - Этап масштабирования: Когда эксперимент удался, компаниям нужно решение, способное обрабатывать миллионы векторов на множестве узлов.
- Продвинутый этап: Предприятия задаются вопросом качества поиска и того, как вернуть обратную связь от пользователей обратно в слой данных для самообучения системы .
Антон Тройников отмечает фундаментальное различие между традиционными поисковыми индексами (как у Pinterest) и базами данных для ИИ-приложений . Традиционные индексы статичны и открыты для всех, тогда как в ИИ-приложениях данные постоянно обновляются и часто сегментированы по пользователям, что требует принципиально иной архитектуры масштабирования .
🧠 Технологический стек: эмбеддинги и проблема «лишней информации» 17:00
В вопросе выбора моделей для создания векторных представлений (embeddings) Антон Тройников наблюдает интересную динамику. Несмотря на популярность модели Ada от OpenAI, многие пользователи переходят на открытые решения (Open Source) .
Основные аргументы в пользу локальных моделей (например, Llama 2 или Mistral), по словам гостя:
- Конфиденциальность: Желание держать весь цикл RAG внутри компании, не отправляя данные по сети сторонним провайдерам .
- Стоимость: Использование API для эмбеддингов обходится дешево, но вызов самой LLM на больших масштабах становится крайне дорогим .
- Контроль: Возможность тонкой настройки (fine-tuning) модели под конкретные задачи бизнеса .
Нейтан Лабенц поделился своим опытом: в ранних версиях они извлекали 2-3 фрагмента данных, а теперь увеличили это число до 10, полагаясь на способность GPT-4 находить нужное в большом контексте . Однако Антон Тройников предупреждает о «фольклоре», подтвержденном исследованиями: наличие отвлекающей, иррелевантной информации в окне контекста может измеряемо разрушить производительность приложения . Он считает, что разработчик должен стремиться возвращать только максимально релевантные данные, а не просто забивать окно контекста до предела .
🔄 Оптимизация поиска: адаптеры и «галлюцинации» как инструмент 23:46
Для улучшения качества поиска обсуждаются два продвинутых подхода:
- Аффинные преобразования (Affine Transforms): Вместо пересчета всех эмбеддингов можно обучить небольшую матрицу-адаптер, которая «сжимает, растягивает или поворачивает» векторное пространство запроса, подстраивая его под нужды конкретного пользователя или приложения .
- HyDE (Hypothetical Document Embeddings): Метод, при котором LLM сначала генерирует «гипотетический» ответ на вопрос, а затем этот ответ (а не сам вопрос) используется для поиска в базе данных .
Антон Тройников полагает, что в долгосрочной перспективе тюнинг самого векторного пространства будет дешевле и эффективнее, чем дополнительные вызовы модели для генерации гипотетических документов .
Также спикеры затронули тему гибридного хранения. По мнению Тройникова, структурированные данные (даты, числа, дни рождения) лучше хранить в классических SQL-таблицах, а не превращать в векторы . Chroma уже содержит в себе реляционную базу данных для метаданных и документов, что позволяет комбинировать ключевые слова и семантический поиск через единый интерфейс .
🏢 Бизнес-стратегия: данные, которые никогда не были в базах 32:01
Антон Тройников выдвигает смелый тезис: Chroma не столько конкурирует с гигантами вроде Oracle или Salesforce, сколько создает новый рынок. Большая часть данных, попадающих в Chroma, раньше никогда не хранилась в базах данных . Это текстовые документы, которые раньше лежали «мертвым грузом» и были доступны только для чтения человеком. Теперь ИИ сделал их вычислимыми .
Тройников прогнозирует появление трех типов организаций в эпоху ИИ:
- Legacy-бизнесы: Старые компании, адаптирующие ИИ в существующие процессы .
- ИИ-инструментарий: Компании, создающие инструменты, которые стали возможны только благодаря ИИ .
- ИИ-native компании: Новые игроки, строящие бизнес-процессы (например, в недвижимости или юриспруденции) с нуля вокруг ИИ .
В качестве примера огромного потенциала он приводит сферу недвижимости, где колоссальное количество времени тратится на ручную обработку разнородных документов .
🧪 Будущее данных: время, интерпретируемость и «Игра жизни» 46:31
Антон Тройников считает, что со временем мы откажемся от передачи текста в модель. Вместо цикла «вектор → текст → вектор» мы будем подавать числа (векторы) напрямую в веса модели . Это не снизит безопасность или интерпретируемость, если у разработчиков будут правильные инструменты визуализации латентного пространства .
Одним из самых интересных технических предсказаний Антона Тройникова является внедрение «измерения времени» непосредственно в эмбеддинги. Вместо простых фильтров по дате в метаданных, модель сама будет понимать актуальность информации через временную компоненту вектора, затухающую со временем .
В финале беседы Антон Тройников выразил скепсис по поводу текущих способностей LLM к истинному рассуждению (reasoning). Он провел эксперимент с «Игрой жизни» Конвея (Game of Life), где GPT-4 могла правильно описать правила словами, но не могла последовательно применить их к сетке 10x10 в разных представлениях . По его мнению, модель не обладает целостной мировой моделью, а лишь статистически воспроизводит переходы состояний, которые видела в обучении . Это подкрепляет его уверенность в том, что высококачественный поиск (retrieval) останется критически важным компонентом систем еще долгое время.