Эдо Либерти: «Модели знают язык, но не знают фактов»

Векторные базы данных: решение проблемы галлюцинаций ИИ 0:00

Большие языковые модели (LLM), такие как ChatGPT, произвели революцию в области технологий, однако их главным недостатком остаются «галлюцинации» — уверенная генерация ложных или вымышленных фактов. Эдо Либерти, эксперт в области ИИ и основатель компании Pinecone, предлагает альтернативу попыткам «доучить» модели с помощью обучения с подкреплением (RLHF). Вместо изменения самой модели Либерти предлагает использовать векторные базы данных для создания «внешней долгосрочной памяти», которая позволяет ИИ обращаться к доверенным источникам в реальном времени.

🧠 Что такое векторные эмбеддинги и база данных Pinecone 7:00

Машинное обучение — это по сути работа с числами. Языковые модели не понимают грамматику или структуру слов в человеческом смысле, они оперируют числовыми представлениями — векторами (эмбеддингами).

Векторы: Это списки чисел, описывающие смысл данных.
Функция Pinecone: Традиционные базы данных не оптимизированы для поиска по таким числовым объектам. Pinecone выступает специализированным слоем хранения и поиска, позволяя модели мгновенно находить релевантный контекст.

По мнению Либерти, это разделяет функции модели: языковая модель отвечает за понимание языка, суммирование и диалог, а векторная база данных — за хранение знаний и фактов. Он сравнивает это с медицинским образованием: человек учит язык в детстве, а затем накапливает знания в процессе обучения — точно так же ИИ должен получать доступ к знаниям извне, а не пытаться «выучить» их в процессе тренировки.

🛡️ Борьба с галлюцинациями 9:09

Основная проблема галлюцинаций заключается в том, что модели «слышали» так много разговоров, что научились звучать убедительно, даже не обладая знаниями о предмете. Эдо Либерти приводит аналогию с фильмом «Поймай меня, если сможешь»: главный герой имитирует врача, потому что наслушался медицинской терминологии, но по факту не обладает медицинскими знаниями.

Использование Pinecone позволяет избежать этого процесса:

Пользователь загружает свои доверенные документы (инструкции, исторические тексты, техническую документацию) в Pinecone.
Когда поступает запрос, система находит наиболее релевантные фрагменты информации.
Найденные факты передаются модели как «контекст» для формирования ответа.

Либерти утверждает, что этот подход полностью устраняет галлюцинации, так как модель опирается на конкретные предоставленные данные, а не на вероятностную генерацию текста.

⚖️ Конфиденциальность, GDPR и простота использования 26:41

Одним из важных преимуществ использования внешних векторных баз данных является возможность гибкого управления информацией.

Удаление данных: Если пользователю необходимо выполнить требования GDPR, он может просто удалить конкретный фрагмент информации из Pinecone. В «зашитых» в модель весах нейросети удалить конкретное знание невозможно.
Прозрачность: Разработчик всегда может сослаться на источник данных, предоставив пользователю конкретную цитату или документ, послуживший основой для ответа.
Доступность: Либерти отмечает, что благодаря готовым API и Managed-сервисам, создание такой системы стало доступным для обычных инженеров и занимает не более одного дня.

💻 Будущее генерации кода и влияние на индустрию 31:21

На вопрос о том, может ли этот подход улучшить автоматическую генерацию кода, Либерти отвечает осторожно. Несмотря на то что инструменты вроде GitHub Copilot уже стали частью профессиональной рутины, создание ПО от начала до конца без участия человека все еще остается далекой перспективой.

По словам Либерти, большая часть кода не является сложной или интуитивной, поэтому ИИ отлично справляется с рутинными задачами. Однако критически важные, сложные архитектурные решения по-прежнему требуют экспертного контроля. Он уверен, что ИИ значительно повысит эффективность разработчиков, но не заменит их в ближайшее время.