Эдо Либерти: «Модели знают язык, но не знают фактов»

Eye on AI 1,6 тыс. 35 мин 3 мин 30.03.2023
Главное

Векторные базы данных: решение проблемы галлюцинаций ИИ 0:00

Большие языковые модели (LLM), такие как ChatGPT, произвели революцию в области технологий, однако их главным недостатком остаются «галлюцинации» — уверенная генерация ложных или вымышленных фактов. Эдо Либерти, эксперт в области ИИ и основатель компании Pinecone, предлагает альтернативу попыткам «доучить» модели с помощью обучения с подкреплением (RLHF). Вместо изменения самой модели Либерти предлагает использовать векторные базы данных для создания «внешней долгосрочной памяти», которая позволяет ИИ обращаться к доверенным источникам в реальном времени.

🧠 Что такое векторные эмбеддинги и база данных Pinecone 7:00

Машинное обучение — это по сути работа с числами. Языковые модели не понимают грамматику или структуру слов в человеческом смысле, они оперируют числовыми представлениями — векторами (эмбеддингами).

По мнению Либерти, это разделяет функции модели: языковая модель отвечает за понимание языка, суммирование и диалог, а векторная база данных — за хранение знаний и фактов. Он сравнивает это с медицинским образованием: человек учит язык в детстве, а затем накапливает знания в процессе обучения — точно так же ИИ должен получать доступ к знаниям извне, а не пытаться «выучить» их в процессе тренировки.

🛡️ Борьба с галлюцинациями 9:09

Основная проблема галлюцинаций заключается в том, что модели «слышали» так много разговоров, что научились звучать убедительно, даже не обладая знаниями о предмете. Эдо Либерти приводит аналогию с фильмом «Поймай меня, если сможешь»: главный герой имитирует врача, потому что наслушался медицинской терминологии, но по факту не обладает медицинскими знаниями.

Использование Pinecone позволяет избежать этого процесса:

  1. Пользователь загружает свои доверенные документы (инструкции, исторические тексты, техническую документацию) в Pinecone.
  2. Когда поступает запрос, система находит наиболее релевантные фрагменты информации.
  3. Найденные факты передаются модели как «контекст» для формирования ответа.

Либерти утверждает, что этот подход полностью устраняет галлюцинации, так как модель опирается на конкретные предоставленные данные, а не на вероятностную генерацию текста.

⚖️ Конфиденциальность, GDPR и простота использования 26:41

Одним из важных преимуществ использования внешних векторных баз данных является возможность гибкого управления информацией.

💻 Будущее генерации кода и влияние на индустрию 31:21

На вопрос о том, может ли этот подход улучшить автоматическую генерацию кода, Либерти отвечает осторожно. Несмотря на то что инструменты вроде GitHub Copilot уже стали частью профессиональной рутины, создание ПО от начала до конца без участия человека все еще остается далекой перспективой.

По словам Либерти, большая часть кода не является сложной или интуитивной, поэтому ИИ отлично справляется с рутинными задачами. Однако критически важные, сложные архитектурные решения по-прежнему требуют экспертного контроля. Он уверен, что ИИ значительно повысит эффективность разработчиков, но не заменит их в ближайшее время.

💬 Цитаты

«Вы можете имитировать врача пять лет, звучать как хороший врач, но при этом ничего не знать.»

Эдо Либерти 14:10

«Если модель не помнит ответа, она просто выдумает что-нибудь.»

Эдо Либерти 18:34
👥 Спикеры
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
Векторные эмбеддинги
Цифровое представление текста в виде списка чисел, понятного моделям машинного обучения.
Галлюцинации ИИ
Случаи, когда модель уверенно генерирует фактологически неверную информацию.
Векторная база данных
База данных, оптимизированная для хранения и быстрого поиска по векторным представлениям объектов.
📊 Цифры
🗓 Хронология
  1. 2003 Иошуа Бенджио представил термин «эмбеддинги».
  2. 2013 Томаш Миколов создал Word2Vec.
  3. 2019 Эдо Либерти ушел из Amazon, чтобы основать Pinecone.
⚖️ Другая сторона
Искусственный интеллект Edo Liberty Pinecone Vector Embeddings ChatGPT