Антон Тройников о Chroma: «Мы строим базу данных для информации, которая никогда не была вычислимой»

The Cognitive Revolution 3,1 тыс. 1 ч 26 мин 5 мин 24.10.2023
Главное

Восемь месяцев спустя после своего первого появления в подкасте, Антон Тройников, сооснователь компании Chroma, возвращается в эфир в новом статусе. Если весной 2023 года он выступал как эксперт по эмбеддингам в мире «до GPT-4», то теперь он называет себя «CTO военного времени». В беседе с Нейтаном Лабенцом он формулирует новую философию хранения данных: информация в эпоху ИИ — это не статический архив, а динамический цикл управления, где база данных сама становится интеллектуальным агентом.

🚀 Статус «CTO военного времени» и новая миссия Chroma 4:20

Антон Тройников объясняет смену своего статуса в социальных сетях с «пирата» на «CTO военного времени» переходом компании из стадии свободного поиска в стадию жесткой реализации . По его словам, Chroma вышла из режима исследования рынка и теперь имеет четкий мандат и конкретные цели, ради которых команда готова идти на высокие риски .

Ключевые приоритеты компании на текущем этапе:

Антон Тройников подчеркивает, что сейчас риск для компании заключается исключительно в исполнении (execution risk), так как понимание продукта и потребностей рынка уже полностью сформировано .

🏗️ Эволюция RAG: от экспериментов к промышленным масштабам 6:29

Retrieval-Augmented Generation (RAG) стал главным трендом в разработке ИИ-приложений летом 2023 года . Антон Тройников описывает это как цикл, где запрос пользователя инициирует поиск в базе данных для извлечения контекста, который затем передается языковой модели для генерации ответа .

По мнению Антона Тройникова, рынок сейчас находится в разных точках кривой адаптации:

  1. Начальный этап: Разработчики только узнают о возможности внедрения данных в модель. Здесь Chroma доминирует благодаря простоте — библиотеку можно установить одной командой pip install chromadb, и она работает «из коробки» с разумными настройками по умолчанию .
  2. Этап масштабирования: Когда эксперимент удался, компаниям нужно решение, способное обрабатывать миллионы векторов на множестве узлов.
  3. Продвинутый этап: Предприятия задаются вопросом качества поиска и того, как вернуть обратную связь от пользователей обратно в слой данных для самообучения системы .

Антон Тройников отмечает фундаментальное различие между традиционными поисковыми индексами (как у Pinterest) и базами данных для ИИ-приложений . Традиционные индексы статичны и открыты для всех, тогда как в ИИ-приложениях данные постоянно обновляются и часто сегментированы по пользователям, что требует принципиально иной архитектуры масштабирования .

🧠 Технологический стек: эмбеддинги и проблема «лишней информации» 17:00

В вопросе выбора моделей для создания векторных представлений (embeddings) Антон Тройников наблюдает интересную динамику. Несмотря на популярность модели Ada от OpenAI, многие пользователи переходят на открытые решения (Open Source) .

Основные аргументы в пользу локальных моделей (например, Llama 2 или Mistral), по словам гостя:

Нейтан Лабенц поделился своим опытом: в ранних версиях они извлекали 2-3 фрагмента данных, а теперь увеличили это число до 10, полагаясь на способность GPT-4 находить нужное в большом контексте . Однако Антон Тройников предупреждает о «фольклоре», подтвержденном исследованиями: наличие отвлекающей, иррелевантной информации в окне контекста может измеряемо разрушить производительность приложения . Он считает, что разработчик должен стремиться возвращать только максимально релевантные данные, а не просто забивать окно контекста до предела .

🔄 Оптимизация поиска: адаптеры и «галлюцинации» как инструмент 23:46

Для улучшения качества поиска обсуждаются два продвинутых подхода:

  1. Аффинные преобразования (Affine Transforms): Вместо пересчета всех эмбеддингов можно обучить небольшую матрицу-адаптер, которая «сжимает, растягивает или поворачивает» векторное пространство запроса, подстраивая его под нужды конкретного пользователя или приложения .
  2. HyDE (Hypothetical Document Embeddings): Метод, при котором LLM сначала генерирует «гипотетический» ответ на вопрос, а затем этот ответ (а не сам вопрос) используется для поиска в базе данных .

Антон Тройников полагает, что в долгосрочной перспективе тюнинг самого векторного пространства будет дешевле и эффективнее, чем дополнительные вызовы модели для генерации гипотетических документов .

Также спикеры затронули тему гибридного хранения. По мнению Тройникова, структурированные данные (даты, числа, дни рождения) лучше хранить в классических SQL-таблицах, а не превращать в векторы . Chroma уже содержит в себе реляционную базу данных для метаданных и документов, что позволяет комбинировать ключевые слова и семантический поиск через единый интерфейс .

🏢 Бизнес-стратегия: данные, которые никогда не были в базах 32:01

Антон Тройников выдвигает смелый тезис: Chroma не столько конкурирует с гигантами вроде Oracle или Salesforce, сколько создает новый рынок. Большая часть данных, попадающих в Chroma, раньше никогда не хранилась в базах данных . Это текстовые документы, которые раньше лежали «мертвым грузом» и были доступны только для чтения человеком. Теперь ИИ сделал их вычислимыми .

Тройников прогнозирует появление трех типов организаций в эпоху ИИ:

В качестве примера огромного потенциала он приводит сферу недвижимости, где колоссальное количество времени тратится на ручную обработку разнородных документов .

🧪 Будущее данных: время, интерпретируемость и «Игра жизни» 46:31

Антон Тройников считает, что со временем мы откажемся от передачи текста в модель. Вместо цикла «вектор → текст → вектор» мы будем подавать числа (векторы) напрямую в веса модели . Это не снизит безопасность или интерпретируемость, если у разработчиков будут правильные инструменты визуализации латентного пространства .

Одним из самых интересных технических предсказаний Антона Тройникова является внедрение «измерения времени» непосредственно в эмбеддинги. Вместо простых фильтров по дате в метаданных, модель сама будет понимать актуальность информации через временную компоненту вектора, затухающую со временем .

В финале беседы Антон Тройников выразил скепсис по поводу текущих способностей LLM к истинному рассуждению (reasoning). Он провел эксперимент с «Игрой жизни» Конвея (Game of Life), где GPT-4 могла правильно описать правила словами, но не могла последовательно применить их к сетке 10x10 в разных представлениях . По его мнению, модель не обладает целостной мировой моделью, а лишь статистически воспроизводит переходы состояний, которые видела в обучении . Это подкрепляет его уверенность в том, что высококачественный поиск (retrieval) останется критически важным компонентом систем еще долгое время.


💬 Цитаты

«Мы привыкли думать о данных как о чем-то статичном... Я действительно думаю об этом больше как о цикле системы управления.»

Антон Тройников 0:13

«Данные, которые попадают в Chroma, в большинстве случаев никогда раньше не находились в базе данных.»

Антон Тройников 33:18

«В идеальном случае у вас есть машина со 140 IQ, которая буквально ничего не знает о мире, пока вы ей не расскажете.»

Антон Тройников 47:01
👥 Спикеры
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
RAG (Retrieval-Augmented Generation)
Метод, при котором языковая модель получает актуальную информацию из внешней базы данных перед генерацией ответа.
Эмбеддинг (Embedding)
Преобразование текста или другого объекта в вектор чисел, отражающий его смысл.
HyDE
Техника поиска, при которой модель сначала создает воображаемый ответ, а затем ищет похожие на него реальные документы.
Латентное пространство
Многомерное математическое пространство, в котором ИИ располагает понятия в зависимости от их схожести.
📊 Цифры
🗓 Хронология
  1. Март 2023 Первое появление Антона Тройникова в подкасте (до релиза GPT-4).
  2. Май 2023 Chroma становится партнером по запуску модели Palm 2 от Google.
  3. Октябрь 2023 Текущее интервью, фиксация RAG как доминирующего тренда года.
⚖️ Другая сторона
Стартапы и бизнес Антон Тройников Chroma RAG векторные базы данных эмбеддинги