«Enterprise-поиск сложнее Google»: Патрик Льюис о корпоративных ИИ-системах

Machine Learning Street Talk 14,2 тыс. 1 ч 13 мин 7 мин 16.09.2024
Главное

В новом выпуске подкаста Machine Learning Street Talk Патрик Льюис (Patrick Lewis), ученый, который ввел в обиход термин «архитектура генерации с привлечением поиска» (Retrieval-Augmented Generation, RAG), подробно рассказал об эволюции языковых моделей и современных вызовах ИИ. В беседе обсуждаются проблемы оценки качества генерации, создание корпоративных поисковых систем, а также история перехода от простых векторных представлений слов к сложным автономным агентам. Особое внимание уделено практическим механизмам развертывания RAG на примере технологий компании Cohere, где Льюис возглавляет команду разработки.

📊 Оценка RAG и фреймворк POLE: Почему GPT-4 ошибается 1:40

Обсуждая оценку систем RAG, Льюис выделяет несколько ключевых критериев: возможность ответа (answerability), достоверность (faithfulness), измеряемая через текстовые привязки и цитаты, беглость речи (fluency) и воспринимаемая полезность (perceived utility). Последний термин восходит к важной работе Нельсона Лю (Nelson Liu) из Стэнфорда «Верифицируемость в генеративных поисковых системах».

Как отмечает ученый, качество современных языковых моделей существенно опережает наборы данных, используемые для их тестирования. Индустрия до сих пор применяет метрики образца 2020 года, основанные на простых одношаговых вопросах к Википедии, оценивая точное совпадение строк, что Льюис считает крайне неэффективным подходом.

Чтобы решить эту проблему, команда Cohere разработала и представила открытый фреймворк POLE. По словам гостя, многие разработчики ошибочно принимают GPT-4 за идеального ИИ-судью (Oracle LM). Однако Льюис подчеркивает: любого автоматического оценщика необходимо сначала валидировать, сопоставляя его вердикты с «золотым стандартом» — согласованным мнением трех экспертов-людей. Для оценки интер-аннотаторского согласия применяется классическая статистика — каппа Коэна (Cohen's kappa).

В ходе экспериментов с POLE обнаружился контринтуитивный феномен «обратного масштабирования» (reverse scaling law):

Льюис приводит пример, когда GPT-4 давала неверную оценку при сопоставлении ответов на вопросы 2019 года (например, о датах выхода сериалов), поскольку знала актуальное положение дел в мире и путалась из-за внутренних противоречий в своей системе вознаграждений. Потребовалось полдня промпт-инжиниринга, чтобы заставить GPT-4 снизить градус «собственных знаний» и работать на уровне GPT-3.5.

Для решения этой проблемы в POLE используется ансамбль из трех небольших моделей (например, Command R, Haiku и GPT-3.5). Это позволяет сгладить персональные смещения моделей (self-preference bias), делая оценку точнее, быстрее и дешевле, чем при использовании GPT-4.

🧠 Обучение моделей в Cohere: Ставка на чистоту данных 13:07

В процессе создания моделей важную роль играет обучение на демонстрациях (SFT) и сбор пар предпочтений для обучения с подкреплением (RL). Льюис противопоставляет подход компании Cohere стратегии Meta, использованной при обучении Llama 3:

По мнению Льюиса, операционная сложность подготовки качественных выборок сегодня превалирует над технической стороной архитектурных решений.

🛠️ Эволюция агентов и интерфейсов взаимодействия 15:25

Льюис выражает глубокий интерес к теме взаимодействия человека и ИИ (Human-AI Collaboration). Современные мультишаговые системы часто работают как ReAct-агенты (Reasoning and Acting): модель строит план, последовательно вызывает нужные API-инструменты, анализирует наблюдения и решает, продолжать ли поиск или выдать итоговый ответ. Из-за расхождения в понимании намеренней пользователя агент уже к третьему шагу может уйти в неверном направлении. В таких случаях Льюис рекомендует давать пользователю возможность вручную корректировать план агента прямо в процессе работы.

Собеседники провели аналогию с менеджментом: Льюис делится личным опытом, отмечая, что даже при управлении высококлассной командой людей передача намерений бывает затруднена, и сотрудники могут прийти через неделю с совершенно неожиданным результатом.

Гость скептически относится к модному тренду управления браузером или рабочим столом напрямую через LLM:

📜 История создания RAG: От пропсов LAMA к революционному алгоритму 20:33

Ведущий вспоминает свой ранний опыт работы с GPT-3, когда он считал модель обычным «декоративным фокусом» (parlor trick), приводя пример Мэтта Брокмана (Matt Brockman) с удалением записи «John» из базы данных. Однако ортодоксия того времени (эпоха BERT) требовала файнтюнинга репрезентаций под конкретные задачи. Переворот, совершенный OpenAI в GPT-2 и GPT-3, заключался в демонстрации «необучаемого интеллекта» и контекстного обучения (In-Context Learning) без изменения весов модели.

Идея RAG выросла из систем извлечения ответов на вопросы в замкнутом контуре (extractive QA). Докторантура Льюиса в лаборатории FAIR в Лондоне (куда он перешел из стартапа Bloomsbury) была посвящена именно этой теме. В то время нейросети обучали буквально указывать на начальный и конечный токен ответа в рамках одного абзаца текста.

Параллельно развивались два проекта:

Объединив генеративный подход с контекстным чтением документов, Патрик Льюис и Итан Перес (Ethan Perez) стали первыми соавторами эпохальной статьи по RAG, написанной под руководством Себастьяна (Sebastian) и Дао (Dao). Льюис подчеркивает, что аналогичные идеи витали в воздухе, но именно их команде удалось дать явлению звучную трехбуквенную аббревиатуру. За последние два года термин стал нарицательным для целого класса корпоративных ИИ-решений.

🗄️ Архитектура поиска: Почему корпоративный RAG сложнее, чем Google 30:28

Информационный поиск (Information Retrieval, IR) внутри предприятия представляет колоссальную сложность. Ведущий отмечает парадокс: построить эффективный поиск по закрытым корпоративным хранилищам (SharePoint, Blob-объекты) сложнее, чем создать Google. Google обладает терабайтами статистических данных, графом гиперссылок (PageRank) и миллионами кликов пользователей по поисковым запросам, что позволяет легко настраивать ранжирование. Внутри компании данные мультимодальны, а из сигналов доступны только скудные метаданные контента, что исключает полноценное обучение ранжированию на основе пользовательского опыта.

Льюис подробно описывает различия между двумя основными типами поиска:

На практике наиболее эффективными являются гибридные системы, сочетающие оба метода. Задачу также усложняет необходимость циклической переформулировки и расширения запросов (query reformulation/expansion) агентом.

🔒 Проблема галлюцинаций и механизмы заземления 47:31

Серьезным вызовом для RAG остается феномен сикофантии (sycophancy) — склонность ИИ слепо соглашаться с пользователем или уверенно заполнять пробелы в знаниях вымышленными фактами при отсутствии информации в контексте.

Чтобы побороть эту проблему, команда Cohere разработала специализированную систему аннотирования данных для моделей Command R и Command R+. Каждое утверждение модели жестко привязывается к источнику через специальные маркеры цитирования (grounding spans). Если модель не может сослаться на документ, она приучена не генерировать данный факт, переходя в более сухой, прагматичный режим работы.

Патрик Льюис подчеркивает, что ответственность за верификацию данных в конечном итоге лежит на человеку, приводя аналогию с вождением автомобиля. Однако задача разработчиков — сделать процесс проверки максимально прозрачным. Это становится критически важным в эпоху длинных контекстов, когда ИИ обрабатывает сотни документов одновременно, и без точечных цитат система неотличима от обычной немодифицированной LLM.

🔬 Из химии в ИИ: Как Word2Vec открыл таблицу Менделеева 55:57

В конце интервью Патрик Льюис поделился своей личной историей. По образованию он химик-органик, но практическая лабораторная работа привлекала его меньше, чем математические аспекты науки. В 2014–2015 годах, обучаясь на магистратуре в группе профессора Джонатана Гудмана (Jonathan Goodman), он занимался химической информатикой. Льюис собрал миллионы абстракций научных статей по химии и обучил на них знаменитый алгоритм Word2Vec Томаша Миколова (Tomas Mikolov).

Результат визуализации векторов химических элементов с помощью алгоритма t-SNE шокировал исследователя: алгоритм, не имея никаких априорных знаний о химии, на основе одного лишь контекста упоминания слов в статьях («слово познается по его окружению») идеально воспроизвел структуру периодической таблицы Менделеева. Благородные газы, металлы и неметаллы естественным образом сгруппировались в правильные кластеры. Этот момент определил его дальнейшую карьеру в области NLP и манипуляции знаниями.

Объясняя математическую суть Word2Vec, Льюис сравнивает его с алгоритмами коллаборативной фильтрации (как в рекомендациях Netflix): это низкоразмерная аппроксимация огромной разреженной матрицы совместной встречаемости слов (co-occurrence matrix). Модели вроде BERT усложнили этот подход, перейдя к контекстуализированным эмбеддингам, формируемым «на лету» для каждого конкретного предложения. Завершая беседу, спикеры коснулись феномена человеческого мышления, упомянув концепцию «узкого горлышка "сейчас или никогда"» (now or never bottleneck) из книги Ника Чейтера (Nick Chater) и Мортена Кристиансена (Morten Christiansen), подчеркнув, что человеческий метод последовательного редактирования текста аналогичен работе механизма Chain of Thought в современных LLM.

💬 Цитаты

«До тех пор, пока вы не сопоставите оценку модели с человеческим золотым стандартом, у вас нет оценки — у вас есть просто число.»

Патрик Льюис 05:52

«В некотором смысле корпоративный поиск оказывается сложнее, чем построение Google.»

Ведущий MLST 40:09
👥 Спикеры
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
RAG
Архитектура генерации ответов ИИ, сочетающая извлечение релевантных документов из внешней базы данных и их последующий анализ языковой моделью.
ReAct
Парадигма работы ИИ-агентов, совмещающая пошаговое рассуждение (Chain of Thought) со своевременным вызовом внешних инструментов через API.
Сикофантия
Тенденция языковой модели подстраиваться под ожидания пользователя или уверенно выдумывать факты вместо признания отсутствия информации.
Разреженный поиск
Традиционный метод поиска документов по точному совпадению ключевых слов с использованием инвертированного индекса (например, BM25).
Плотный поиск
Метод поиска, основанный на сравнении семантической близости математических векторов (эмбеддингов), сгенерированных нейросетью.
📊 Цифры
🗓 Хронология
  1. 2013 год Томаш Миколов выпускает революционный алгоритм векторного представления слов Word2Vec.
  2. 2015 год Патрик Льюис с помощью Word2Vec обнаруживает скрытую структуру таблицы Менделеева в химической литературе.
  3. 2018 год Выход двунаправленной модели кодирования представлений BERT от Google.
  4. 2020 год Патрик Льюис в соавторстве с Итаном Пересом публикует оригинальную статью по архитектуре Retrieval-Augmented Generation (RAG).
⚖️ Другая сторона
Искусственный интеллект Патрик Льюис Cohere RAG POLE framework Word2Vec