Эдо Либерти: «Векторные базы данных решают проблему галлюцинаций ИИ»

Проблема «галлюцинаций» крупных языковых моделей остается главным препятствием на пути к их надежному внедрению в коммерческую эксплуатацию. В подкасте Eye on AI основатель технологической компании Pinecone Эдо Либерти (Edo Liberty) описывает альтернативный и гораздо более доступный подход к решению этой проблемы с помощью векторных эмбеддингов и специализированных баз данных. В отличие от ресурсоемкого дообучения нейросетей, интеграция внешней долговременной памяти позволяет ИИ оперировать точными фактами в реальном времени, не требуя изменения весов самой модели.

🧠 От академических исследований до создания SageMaker и Pinecone 3:48

Эдо Либерти начал свой путь в сфере искусственного интеллекта с получения докторской степени (PhD) по компьютерным наукам в Йельском университете. Его академические исследования были сосредоточены на теории вычислительных систем, алгоритмах машинного обучения и обработке больших данных. После этого он прошел постдокторантуру в области прикладной математики, глубоко изучая численную линейную алгебру — дисциплину, которая, по его словам, сегодня составляет фундаментальную алгоритмическую основу Pinecone.

В карьере Эдо Либерти было несколько важных этапов:

Основание и успешная продажа первой технологической компании.
Работа в роли директора и руководителя лаборатории искусственного интеллекта Yahoo в Нью-Йорке.
Преподавание в качестве адъюнкт-профессора в Тель-Авивском университете в течение трех лет.

Позже специалист присоединился к Свами Шивасубраманьяну (Swami Siva Subramanian), который в настоящее время возглавляет все направления баз данных в AWS. В тот момент Шивасубраманьян только начинал создавать новое подразделение для разработки облачных сервисов машинного обучения, в котором практически не было сотрудников. Под руководством Либерти эта команда выросла с трех человек до двух тысяч специалистов. Результатом их работы стал выпуск множества сервисов и платформ, включая популярный инструмент Amazon SageMaker.

В середине 2019 года Эдо Либерти покинул Amazon, чтобы основать компанию Pinecone. По его утверждению, уже тогда для инженеров «в окопах» было очевидно, что глубокое обучение и новые способы математического представления данных изменят ИТ-ландшафт. Настоящий взрыв популярности и лавинообразный рост клиентской базы компании произошли после публичного релиза ChatGPT от OpenAI и Bard от Google.

🗄️ Что такое векторная база данных и как она работает 7:00

С технической точки зрения Pinecone представляет собой специализированную векторную базу данных. На практике она выполняет роль внешней долговременной памяти для систем искусственного интеллекта. Как объясняет Эдо Либерти, большие языковые модели являются сугубо математическими вычислительными движками. Они не оперируют словами, грамматическими структурами или синтаксическими деревьями в их привычном понимании. Единственный доступный им способ представления информации — это длинные списки чисел, называемые векторами или эмбеддингами.

Исторически концепция числовых эмбеддингов развивалась следующим образом:

В 2003 году термин «эмбеддинги» (embeddings) впервые использовал ученый Йошуа Бенжио (Yoshua Bengio).
В 2013 году исследователь Томаш Миколов (Tomas Mikolov) создал инструментарий Word2Vec. Это решение позволило эффективно преобразовывать текст в векторные представления для последующих задач глубокого обучения.

Традиционные реляционные или документные базы данных, по мнению основателя Pinecone, архитектурно не приспособлены для хранения, индексации и быстрого поиска подобных математических объектов. Для работы с ними на больших масштабах требуются принципиально иные алгоритмы доступа и специализированное аппаратное обеспечение.

Продукт Pinecone предоставляет разработчикам полностью управляемую облачную инфраструктуру как сервис. Это позволяет компаниям подключать собственные архивы данных — руководства пользователя, переписку в Jira, корпоративные базы знаний и электронную почту — напрямую к языковым моделям через специализированные плагины извлечения информации (retrieval plugins). В результате ИИ может искать точные данные в реальном времени и выдавать обоснованные ответы.

🛑 Иллюзия знаний: природа галлюцинаций и альтернативные подходы 9:15

Феномен «галлюцинаций», при котором нейросеть уверенно генерирует вымышленные факты, считается главным недостатком современных LLM. Эдо Либерти приводит наглядный пример: если спросить ChatGPT о том, как отключить автоматические фонари заднего хода на редкой модели автомобиля Volvo C70X, система выдаст очень красивый, грамматически безупречный, но абсолютно ложный ответ. При этом спикер подчеркивает, что считает технологию языковых моделей колоссальным достижением, поражающим своей связностью.

В современной индустрии ИИ сосуществуют несколько подходов к решению этой проблемы:

Дообучение с подкреплением (RLHF). Главный научный сотрудник OpenAI Илья Суцкевер (Ilya Sutskever) пытается решить проблему галлюцинаций на этапе обучения модели с помощью обратной связи от людей. По мнению ведущего Крейга Смита (Craig Smith), этот метод вызывает сомнения у многих экспертов, поскольку не гарантирует реального заземления модели в физической реальности.
Создание модели мира (World Model). Глава ИИ-лаборатории Meta Ян Лекун (Yann LeCun) работает над концепцией глобальной модели мира, к которой языковая модель могла бы обращаться для сверки с реальностью.
Использование внешней памяти (Подход Pinecone). Эдо Либерти предлагает гораздо более прямолинейный путь — загрузить авторитетные, проверенные документы в векторную базу данных и заставить ИИ обращаться к ним перед генерацией ответа.

Спикер проводит аналогию с обучением в медицинской школе. Студент приходит туда, уже в совершенстве владея языком, и его задача — усвоить колоссальный объем фактов и профильных знаний, а не перестраивать свои речевые механизмы. Лингвистические навыки и долговременная память — это абсолютно разные функции, которые должны обеспечиваться независимыми ИТ-системами.

Для иллюстрации поверхностного владения языком Либерти вспоминает персонажа фильма «Поймай меня, если сможешь». Если человек проведет пять лет в больнице, просто слушая разговоры врачей, он научится убедительно имитировать их речь, но не станет медиком. Точно так же и нейросети: они усвоили колоссальные массивы текстов и звучат умно, но без подключения фактологической базы знаний они не понимают сути обсуждаемых явлений.

🛠️ Практический конвейер: пошаговый процесс векторизации данных 18:48

Интеграция векторной базы данных избавляет разработчиков от необходимости собирать размеченные датасеты, проводить тонкую настройку (fine-tuning) или перезапускать обучение нейросетей. Эдо Либерти пошагово описал технический конвейер (pipeline) по превращению любого текстового источника (например, учебника по истории или медицинской энциклопедии) в рабочую базу знаний:

Оцифровка и импорт данных. Исходный физический или цифровой документ преобразуется в доступный текстовый формат (PDF, файл Word и т. д.).
Сегментация (Chunking). Текст разбивается на небольшие, логически завершенные фрагменты — смысловые предложения или абзацы. Важно, чтобы каждый фрагмент представлял собой самостоятельную единицу знаний, например: «В таком-то году Наполеон вторгся на территорию такой-то страны».
Генерация эмбеддингов. Выделенные текстовые фрагменты пропускаются через специальную эмбеддинг-модель глубокого обучения. Разработчик может запустить ее локально с помощью нескольких строк кода на Python или использовать облачный API. На выходе модель возвращает вектор — упорядоченный список, состоящий, как правило, из 100 или 1000 чисел.
Сохранение в базу данных. Полученный вектор записывается в Pinecone вместе со связанными метаданными. В качестве метаданных сохраняются исходный текст абзаца, указание на номер страницы (например, страница 712) и название первоисточника.

В реальном времени, когда конечный пользователь отправляет текстовый запрос с перечислением симптомов или историческим вопросом, система выполняет следующие действия:

Текстовый запрос пользователя автоматически векторизуется той же эмбеддинг-моделью.
Полученный поисковый вектор отправляется в Pinecone для поиска ближайших соседей.
База данных мгновенно возвращает выборку из наиболее релевантных фрагментов (например, 100 самых близких по смыслу абзацев).
Эти фрагменты упаковываются в скрытый контекстный блок (context) и передаются в чат-интерфейс языковой модели вместе со стандартным вопросом пользователя.

По утверждению Эдо Либерти, благодаря доступности готовых управляемых сервисов участники хакатонов в Сан-Франциско и Нью-Йорке собирают подобные работающие прототипы буквально за один день.

🔒 Правовые аспекты, комплаенс и удаление данных в эпоху ИИ 26:41

Вопросы авторских прав и конфиденциальности данных стоят остро при интеграции ИИ в корпоративный сектор. Эдо Либерти подчеркивает, что Pinecone функционирует строго как поставщик базовой ИТ-инфраструктуры, аналогично традиционным решениям вроде Redis, Elastic, DynamoDB или Google Cloud Spanner. Компания не собирает пользовательские данные, не просматривает их, не передает третьим лицам и не использует для обучения сторонних моделей — вся информация принадлежит исключительно клиентам.

Использование векторных баз данных дает ключевое преимущество с точки зрения юридического соответствия стандартам безопасности:

Полное удаление данных (GDPR). В отличие от нейросетей, где невозможно заставить модель выборочно «забыть» конкретный факт из обучающей выборки, векторная база данных поддерживает стандартные деструктивные операции. Разработчик может выполнить точечную команду удаления (например, стереть вектор под номером 766), и данные исчезнут безвозвратно, не оставив ни одного бита информации в системе.
Доступность для экспериментов. Для независимых разработчиков Pinecone предлагает бесплатный тарифный план, позволяющий хранить миллионы векторов без ограничений по времени.

Спикер признается, что на фоне взрывного интереса к ChatGPT главным вызовом для инженерной команды Pinecone стала необходимость ежедневно разворачивать огромные объемы нового серверного оборудования, чтобы удовлетворить беспрецедентный спрос со стороны рынка.

💻 Автоматизация программирования и будущее ИТ-разработки 31:14

Обсуждая инструменты автоматической генерации кода и интеллектуальных ассистентов типа Copilot, Эдо Либерти сохраняет умеренный прагматизм. Как практикующий инженер, он признает, что специалистам бывает психологически трудно смириться с мыслью об автоматизации их ремесла. Однако, по его оценке, значительная часть повседневного написания кода не представляет высокой сложности и состоит из рутинных операций.

Либерти считает, что в любом программном продукте лишь от 1% до 5% кода являются по-настоящему сложными, уникальными и требующими глубоких архитектурных инсайтов. Оставшийся массив рутины вполне может быть передан интеллектуальным инструментам, что существенно повысит общую эффективность разработчиков.

В то же время глава Pinecone уверен, что индустрия еще далека от создания систем, способных писать комплексное программное обеспечение с нуля без участия человека. В генерации кода нейросети склонны совершать те же галлюцинации: выдавать программы, которые компилируются и выглядят логично, но содержат критические логические ошибки. Тем не менее, по его прогнозу, эта технология неизбежно и радикально трансформирует всю структуру софтверной индустрии в ближайшие годы.