«Enterprise-поиск сложнее Google»: Патрик Льюис о корпоративных ИИ-системах

В новом выпуске подкаста Machine Learning Street Talk Патрик Льюис (Patrick Lewis), ученый, который ввел в обиход термин «архитектура генерации с привлечением поиска» (Retrieval-Augmented Generation, RAG), подробно рассказал об эволюции языковых моделей и современных вызовах ИИ. В беседе обсуждаются проблемы оценки качества генерации, создание корпоративных поисковых систем, а также история перехода от простых векторных представлений слов к сложным автономным агентам. Особое внимание уделено практическим механизмам развертывания RAG на примере технологий компании Cohere, где Льюис возглавляет команду разработки.

📊 Оценка RAG и фреймворк POLE: Почему GPT-4 ошибается 1:40

Обсуждая оценку систем RAG, Льюис выделяет несколько ключевых критериев: возможность ответа (answerability), достоверность (faithfulness), измеряемая через текстовые привязки и цитаты, беглость речи (fluency) и воспринимаемая полезность (perceived utility). Последний термин восходит к важной работе Нельсона Лю (Nelson Liu) из Стэнфорда «Верифицируемость в генеративных поисковых системах».

Как отмечает ученый, качество современных языковых моделей существенно опережает наборы данных, используемые для их тестирования. Индустрия до сих пор применяет метрики образца 2020 года, основанные на простых одношаговых вопросах к Википедии, оценивая точное совпадение строк, что Льюис считает крайне неэффективным подходом.

Чтобы решить эту проблему, команда Cohere разработала и представила открытый фреймворк POLE. По словам гостя, многие разработчики ошибочно принимают GPT-4 за идеального ИИ-судью (Oracle LM). Однако Льюис подчеркивает: любого автоматического оценщика необходимо сначала валидировать, сопоставляя его вердикты с «золотым стандартом» — согласованным мнением трех экспертов-людей. Для оценки интер-аннотаторского согласия применяется классическая статистика — каппа Коэна (Cohen's kappa).

В ходе экспериментов с POLE обнаружился контринтуитивный феномен «обратного масштабирования» (reverse scaling law):

Крупные и мощные модели вроде GPT-4 часто уступают более компактным системам в простых задачах оценки.
GPT-4 склонна к «избыточному рассуждению» (over-reasoning) и опирается на факты из своего базового обучения, а не на предложенный контекст.
Модель демонстрирует повышенную чувствительность к структуре промпта.

Льюис приводит пример, когда GPT-4 давала неверную оценку при сопоставлении ответов на вопросы 2019 года (например, о датах выхода сериалов), поскольку знала актуальное положение дел в мире и путалась из-за внутренних противоречий в своей системе вознаграждений. Потребовалось полдня промпт-инжиниринга, чтобы заставить GPT-4 снизить градус «собственных знаний» и работать на уровне GPT-3.5.

Для решения этой проблемы в POLE используется ансамбль из трех небольших моделей (например, Command R, Haiku и GPT-3.5). Это позволяет сгладить персональные смещения моделей (self-preference bias), делая оценку точнее, быстрее и дешевле, чем при использовании GPT-4.

🧠 Обучение моделей в Cohere: Ставка на чистоту данных 13:07

В процессе создания моделей важную роль играет обучение на демонстрациях (SFT) и сбор пар предпочтений для обучения с подкреплением (RL). Льюис противопоставляет подход компании Cohere стратегии Meta, использованной при обучении Llama 3:

Разработчики Llama 3 собрали датасет предпочтений объемом в несколько миллионов пар, что Льюис называет огромной финансовой нагрузкой, неизбежно ведущей к потере качества и субъективности данных.
Стратегия Cohere строится на жестком контроле «чистоты» данных (cleanliness). Компания практически не использует синтетические данные для базовой оптимизации метрик RAG, считая это лишь финальным штрихом.

По мнению Льюиса, операционная сложность подготовки качественных выборок сегодня превалирует над технической стороной архитектурных решений.

🛠️ Эволюция агентов и интерфейсов взаимодействия 15:25

Льюис выражает глубокий интерес к теме взаимодействия человека и ИИ (Human-AI Collaboration). Современные мультишаговые системы часто работают как ReAct-агенты (Reasoning and Acting): модель строит план, последовательно вызывает нужные API-инструменты, анализирует наблюдения и решает, продолжать ли поиск или выдать итоговый ответ. Из-за расхождения в понимании намеренней пользователя агент уже к третьему шагу может уйти в неверном направлении. В таких случаях Льюис рекомендует давать пользователю возможность вручную корректировать план агента прямо в процессе работы.

Собеседники провели аналогию с менеджментом: Льюис делится личным опытом, отмечая, что даже при управлении высококлассной командой людей передача намерений бывает затруднена, и сотрудники могут прийти через неделю с совершенно неожиданным результатом.

Гость скептически относится к модному тренду управления браузером или рабочим столом напрямую через LLM:

Такой подход Льюис считает медленным, неэффективным и подверженным ошибкам.
Он приводит метафору дорожной сети: вместо создания беспилотного автомобиля для сложнейшей среды, созданной под человека, разумеется построить оптимизированную сеть дорог. Для ИИ такой сетью должны стать прямые интерфейсы прикладного программирования (API), а не симуляция действий человека в браузере.

📜 История создания RAG: От пропсов LAMA к революционному алгоритму 20:33

Ведущий вспоминает свой ранний опыт работы с GPT-3, когда он считал модель обычным «декоративным фокусом» (parlor trick), приводя пример Мэтта Брокмана (Matt Brockman) с удалением записи «John» из базы данных. Однако ортодоксия того времени (эпоха BERT) требовала файнтюнинга репрезентаций под конкретные задачи. Переворот, совершенный OpenAI в GPT-2 и GPT-3, заключался в демонстрации «необучаемого интеллекта» и контекстного обучения (In-Context Learning) без изменения весов модели.

Идея RAG выросла из систем извлечения ответов на вопросы в замкнутом контуре (extractive QA). Докторантура Льюиса в лаборатории FAIR в Лондоне (куда он перешел из стартапа Bloomsbury) была посвящена именно этой теме. В то время нейросети обучали буквально указывать на начальный и конечный токен ответа в рамках одного абзаца текста.

Параллельно развивались два проекта:

LAMA probe — инструмент для измерения реляционных знаний в BERT или простых GPT посредством заполнения пропусков (например: «Президентом США является __**»).
Alpaca (проект Льюиса, созданный задолго до знаменитой модели Alpaca от Стэнфорда) — исследование того, насколько улучшаются результаты модели, если перед вопросом добавить релевантный абзац текста.

Объединив генеративный подход с контекстным чтением документов, Патрик Льюис и Итан Перес (Ethan Perez) стали первыми соавторами эпохальной статьи по RAG, написанной под руководством Себастьяна (Sebastian) и Дао (Dao). Льюис подчеркивает, что аналогичные идеи витали в воздухе, но именно их команде удалось дать явлению звучную трехбуквенную аббревиатуру. За последние два года термин стал нарицательным для целого класса корпоративных ИИ-решений.

🗄️ Архитектура поиска: Почему корпоративный RAG сложнее, чем Google 30:28

Информационный поиск (Information Retrieval, IR) внутри предприятия представляет колоссальную сложность. Ведущий отмечает парадокс: построить эффективный поиск по закрытым корпоративным хранилищам (SharePoint, Blob-объекты) сложнее, чем создать Google. Google обладает терабайтами статистических данных, графом гиперссылок (PageRank) и миллионами кликов пользователей по поисковым запросам, что позволяет легко настраивать ранжирование. Внутри компании данные мультимодальны, а из сигналов доступны только скудные метаданные контента, что исключает полноценное обучение ранжированию на основе пользовательского опыта.

Льюис подробно описывает различия между двумя основными типами поиска:

Разреженный поиск (Sparse Retrieval) — классический подход на основе инвертированного индекса и слов (TF-IDF, BM25). Документ разбивается на слова, строятся длинные разреженные векторы по размеру словаря. Плюс подхода — высокая специфика и быстрое нахождение редких терминов (низкоэнтропийных слов) за константное время через хэш-таблицы. Минус — неспособность обрабатывать обобщенные синонимичные запросы.
Плотный поиск (Dense Retrieval) — семантический поиск, преобразующий текст в низкоразмерные непрерывные векторы с помощью нейросетей (эмбеддингов). Он отлично улавливает смысл, но может терять точность при обработке редких, узкоспециализированных профессиональных терминов.

На практике наиболее эффективными являются гибридные системы, сочетающие оба метода. Задачу также усложняет необходимость циклической переформулировки и расширения запросов (query reformulation/expansion) агентом.

🔒 Проблема галлюцинаций и механизмы заземления 47:31

Серьезным вызовом для RAG остается феномен сикофантии (sycophancy) — склонность ИИ слепо соглашаться с пользователем или уверенно заполнять пробелы в знаниях вымышленными фактами при отсутствии информации в контексте.

Чтобы побороть эту проблему, команда Cohere разработала специализированную систему аннотирования данных для моделей Command R и Command R+. Каждое утверждение модели жестко привязывается к источнику через специальные маркеры цитирования (grounding spans). Если модель не может сослаться на документ, она приучена не генерировать данный факт, переходя в более сухой, прагматичный режим работы.

Патрик Льюис подчеркивает, что ответственность за верификацию данных в конечном итоге лежит на человеку, приводя аналогию с вождением автомобиля. Однако задача разработчиков — сделать процесс проверки максимально прозрачным. Это становится критически важным в эпоху длинных контекстов, когда ИИ обрабатывает сотни документов одновременно, и без точечных цитат система неотличима от обычной немодифицированной LLM.

🔬 Из химии в ИИ: Как Word2Vec открыл таблицу Менделеева 55:57

В конце интервью Патрик Льюис поделился своей личной историей. По образованию он химик-органик, но практическая лабораторная работа привлекала его меньше, чем математические аспекты науки. В 2014–2015 годах, обучаясь на магистратуре в группе профессора Джонатана Гудмана (Jonathan Goodman), он занимался химической информатикой. Льюис собрал миллионы абстракций научных статей по химии и обучил на них знаменитый алгоритм Word2Vec Томаша Миколова (Tomas Mikolov).

Результат визуализации векторов химических элементов с помощью алгоритма t-SNE шокировал исследователя: алгоритм, не имея никаких априорных знаний о химии, на основе одного лишь контекста упоминания слов в статьях («слово познается по его окружению») идеально воспроизвел структуру периодической таблицы Менделеева. Благородные газы, металлы и неметаллы естественным образом сгруппировались в правильные кластеры. Этот момент определил его дальнейшую карьеру в области NLP и манипуляции знаниями.

Объясняя математическую суть Word2Vec, Льюис сравнивает его с алгоритмами коллаборативной фильтрации (как в рекомендациях Netflix): это низкоразмерная аппроксимация огромной разреженной матрицы совместной встречаемости слов (co-occurrence matrix). Модели вроде BERT усложнили этот подход, перейдя к контекстуализированным эмбеддингам, формируемым «на лету» для каждого конкретного предложения. Завершая беседу, спикеры коснулись феномена человеческого мышления, упомянув концепцию «узкого горлышка "сейчас или никогда"» (now or never bottleneck) из книги Ника Чейтера (Nick Chater) и Мортена Кристиансена (Morten Christiansen), подчеркнув, что человеческий метод последовательного редактирования текста аналогичен работе механизма Chain of Thought в современных LLM.