# Антон Тройников: «ИИ не нужно очеловечивать»

Источник: https://www.youtube.com/watch?v=ogy37CdIljg
Канал: The Cognitive Revolution
Опубликовано: 02.03.2023

---

## Векторные базы данных и будущее ИИ: интервью с Антоном Тройниковым
[[JUMP:0:00]]

Машинное обучение сегодня находится в фазе «кембрийского взрыва», когда интуиция превалирует над устоявшимися инженерными принципами, подобно ранним этапам авиастроения. В этом выпуске подкаста The Cognitive Revolution ведущий Нейтан Лебенс беседует с Антоном Тройниковым, сооснователем Chroma, об эволюции векторных баз данных, потенциале эмбеддингов (векторных представлений данных) и о том, как эти технологии изменят наше взаимодействие с информацией.

## 🧠 Что такое векторные базы данных и почему они важны
[[JUMP:3:37]]

Векторная база данных позволяет выполнять геометрические операции над данными, представленными в виде векторов в многомерном пространстве. В отличие от традиционных SQL-баз, работающих с дискретными структурами, векторные системы оперируют такими понятиями, как расстояние, плотность и кластеризация.

*   **Эмбеддинги:** Это числовые представления данных (текста, изображений, аудио или ДНК), которые позволяют семантически похожим объектам группироваться рядом в векторном пространстве.
*   **Роль в LLM:** Векторные базы данных позволяют использовать большие языковые модели без дорогостоящего дообучения (fine-tuning). Можно «скормить» модели нужные данные (например, личную историю переписки или корпоративную базу знаний), выполнив семантический поиск релевантной информации, которая затем подается в контекстное окно модели.

По словам Тройникова, это кардинально улучшает точность ответов и снижает вероятность галлюцинаций модели. Хотя векторные базы существовали и ранее (например, в рекомендательных системах Pinterest), текущий «взрыв» интереса обусловлен доступностью мощных моделей-трансформеров и дешевизной API-интерфейсов.

## 🚀 Chroma: платформа для ИИ-разработчиков
[[JUMP:9:36]]

Chroma позиционируется не просто как хранилище векторов, а как платформа для приложений, использующих LLM в цикле обработки данных. Тройников отмечает, что при создании Chroma они столкнулись с тем, что существующие на рынке решения были слишком сложными или не отвечали требованиям «ИИ-нативности»:

*   **Affordances (возможности использования):** Необходимость транзакционного подхода (вставки, обновления, поиск), который легко интегрируется с существующими фреймворками, такими как LangChain.
*   **Производительность:** Поиск ближайших соседей (nearest neighbor search) при малом количестве данных решается матричным умножением, но при росте до сотен тысяч векторов становится вычислительно затратным.
*   **Приближенный поиск (ANN):** Алгоритмы Approximate Nearest Neighbor позволяют поддерживать высокую скорость поиска независимо от размера индекса, жертвуя лишь минимальной долей точности (Precision-Recall trade-off).

## 🎨 Stable Attribution: проект об авторстве в ИИ
[[JUMP:35:12]]

Проект Stable Attribution был создан для анализа того, какие именно изображения из обучающей выборки (набор LAION из 5 млрд изображений) оказали наибольшее влияние на результат генерации в Stable Diffusion.

*   **Технический подход:** Поскольку вычислительно невозможно переобучать модель каждый раз, удаляя по одному примеру, команда Тройникова применила подход, основанный на анализе латентного пространства и карт внимания (attention maps).
*   **Природа влияния:** По мнению Тройникова, важно понимать, что это «механическая» интерпретация схожести векторов, а не человеческая оценка искусства. Это способ увидеть, как модель «видит» мир, и проверить потенциал для обратной связи в генеративных системах.

## ⚖️ Риски и «когнитивная революция»
[[JUMP:1:04:29]]

Обсуждая экзистенциальные риски ИИ, Тройников занимает скептическую позицию в отношении сценариев «ИИ-суперразума», стремящегося уничтожить человечество.

*   **Исторический контекст:** Тройников полагает, что риски ИИ сродни разрушительному влиянию новых медиа — от печатного станка (спровоцировавшего Тридцатилетнюю войну) до радио, использовавшегося диктаторами.
*   **Главная угроза:** Вместо «восстания машин» гость опасается дестабилизации общества через целевую пропаганду и использование моделей для совершения опасных действий людьми, которые ранее были ограничены отсутствием знаний.
*   **Устойчивость:** Тройников подчеркивает, что даже при остановке обучения новых моделей, человечество еще долго будет обнаруживать скрытые возможности существующих систем (capabilities overhang).

По его мнению, ИИ — это мощный инструмент адаптации, который может сделать общество более гибким, позволяя людям быстрее становиться экспертами в узких областях. Главный риск, который он выделяет — это возможность очередного «ИИ-зимы» из-за чрезмерных ожиданий и последующего разочарования.