Антон Тройников: «ИИ не нужно очеловечивать»

The Cognitive Revolution 1,3 тыс. 1 ч 26 мин 3 мин 02.03.2023
Главное

Векторные базы данных и будущее ИИ: интервью с Антоном Тройниковым 0:00

Машинное обучение сегодня находится в фазе «кембрийского взрыва», когда интуиция превалирует над устоявшимися инженерными принципами, подобно ранним этапам авиастроения. В этом выпуске подкаста The Cognitive Revolution ведущий Нейтан Лебенс беседует с Антоном Тройниковым, сооснователем Chroma, об эволюции векторных баз данных, потенциале эмбеддингов (векторных представлений данных) и о том, как эти технологии изменят наше взаимодействие с информацией.

🧠 Что такое векторные базы данных и почему они важны 3:37

Векторная база данных позволяет выполнять геометрические операции над данными, представленными в виде векторов в многомерном пространстве. В отличие от традиционных SQL-баз, работающих с дискретными структурами, векторные системы оперируют такими понятиями, как расстояние, плотность и кластеризация.

По словам Тройникова, это кардинально улучшает точность ответов и снижает вероятность галлюцинаций модели. Хотя векторные базы существовали и ранее (например, в рекомендательных системах Pinterest), текущий «взрыв» интереса обусловлен доступностью мощных моделей-трансформеров и дешевизной API-интерфейсов.

🚀 Chroma: платформа для ИИ-разработчиков 9:36

Chroma позиционируется не просто как хранилище векторов, а как платформа для приложений, использующих LLM в цикле обработки данных. Тройников отмечает, что при создании Chroma они столкнулись с тем, что существующие на рынке решения были слишком сложными или не отвечали требованиям «ИИ-нативности»:

🎨 Stable Attribution: проект об авторстве в ИИ 35:12

Проект Stable Attribution был создан для анализа того, какие именно изображения из обучающей выборки (набор LAION из 5 млрд изображений) оказали наибольшее влияние на результат генерации в Stable Diffusion.

⚖️ Риски и «когнитивная революция» 1:04:29

Обсуждая экзистенциальные риски ИИ, Тройников занимает скептическую позицию в отношении сценариев «ИИ-суперразума», стремящегося уничтожить человечество.

По его мнению, ИИ — это мощный инструмент адаптации, который может сделать общество более гибким, позволяя людям быстрее становиться экспертами в узких областях. Главный риск, который он выделяет — это возможность очередного «ИИ-зимы» из-за чрезмерных ожиданий и последующего разочарования.

💬 Цитаты

«Это попытка открыть замок при помощи вареной лапши.»

Антон Тройников 55:05

«Всё, что вам нужно — это вера в то, что вы делаете, и способность довести это до конца.»

Антон Тройников 53:32
👥 Спикеры
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
Эмбеддинг
Числовое векторное представление данных, где семантически похожие объекты расположены близко друг к другу.
Латентное пространство
Многомерное пространство, в котором сжатые признаки данных представляются в виде векторов.
Приближенный поиск ближайших соседей (ANN)
Алгоритмический метод быстрого поиска похожих векторов, жертвующий 100% точностью ради масштабируемости.
Capabilities overhang
Разрыв между тем, на что модель способна на самом деле, и тем, как эффективно мы умеем использовать эти возможности.
📊 Цифры
🗓 Хронология
  1. 2020 GPT-3 становится точкой перелома в развитии языковых моделей.
  2. 2022 Выход Stable Diffusion, сделавший возможным локальное использование генеративных моделей.
  3. 2022 Массовое распространение ChatGPT, упростившее использование ИИ для широкой аудитории.
⚖️ Другая сторона
Искусственный интеллект Chroma Stable Attribution эмбеддинги LLM векторные базы данных