Патрик Льюис: «GPT-4 — это не оракул для оценки RAG-систем»

В этом интервью Патрик Льюис (Patrick Lewis), один из создателей технологии Retrieval-Augmented Generation (RAG) и исследователь в Meta AI и Cohere, обсуждает с Тимом Скарфе (Tim Scarfe) путь от первых языковых моделей до сложных агентных систем. Разговор затрагивает тонкости оценки качества генерации, механизмы плотного и разреженного поиска, а также личную историю Льюиса — от химика-синтетика до учёного, обнаружившего периодическую таблицу в массиве текстов с помощью алгоритмов.

🧪 Эволюция оценки: почему GPT-4 — плохой судья 1:40

Оценка RAG-систем (Retrieval-Augmented Generation) значительно сложнее, чем оценка обычных чат-ботов, поскольку требует измерения нескольких конфликтующих параметров. Патрик Льюис выделяет ключевые метрики, опираясь на работы Нельсона Лю из Стэнфорда :

Достоверность (Faithfulness): насколько ответ модели соответствует предоставленным документам.
Цитируемость (Citations): наличие конкретных указаний на источники в тексте.
Воспринимаемая полезность (Perceived utility): насколько ответ кажется полезным пользователю, даже если он содержит фактические ошибки.
Беглость (Fluency): качество структуры и языка ответа.

По мнению Льюиса, современные метрики «отстают» от качества самих моделей . Отрасль всё ещё часто использует наборы данных 2020 года, основанные на простых вопросах к Wikipedia, где современные LLM показывают запредельно высокие, но малоинформативные результаты.

Особое внимание Патрик Льюис уделяет проблеме «оценки оценщиков». Распространённая практика — использовать GPT-4 как «оракула» для проверки других моделей. Однако исследования Cohere показали, что мощные модели не всегда являются лучшими судьями .

Основные проблемы использования LLM в качестве оценщиков:

Предвзятость к стилю и семейству моделей: модели склонны отдавать предпочтение ответам, структура которых похожа на их собственную .
Избыточное рассуждение (Over-reasoning): GPT-4 может снижать оценку правильному ответу, если он противоречит её внутренним знаниям, полученным при обучении, даже если в контексте RAG ответ верен .
Обратный закон масштабирования: Льюис отмечает, что в некоторых простых задачах на соответствие фактов GPT-3.5 справлялась лучше, чем GPT-4, потому что последняя слишком «умничала» и запутывалась в нюансах .

Для решения этих проблем команда Льюиса разработала POLE — метод ансамблирования нескольких небольших моделей-оценщиков. Ансамбль из менее мощных моделей зачастую оказывается точнее, дешевле и быстрее, чем один гигант уровня GPT-4 .

🏗️ Архитектура доверия: как обучаются современные RAG-модели 13:07

Обсуждая процесс создания моделей, таких как Command R от Cohere, Патрик Льюис подчеркивает важность чистоты данных над их масштабом. В то время как Llama 3 обучается на миллионах пар предпочтений, Cohere делает ставку на «одержимость чистотой» .

Процесс обучения включает несколько этапов:

SFT (Supervised Fine-Tuning): обучение на высококачественных демонстрациях правильного поведения.
Обучение с подкреплением (RL): финальная полировка модели. Льюис считает этот этап «вишенкой на торте», в то время как основой («тестом») является тщательный подбор данных .
Гармонизация данных: разработчики следят за тем, чтобы модель не просто генерировала текст, но и привыкала к структуре цитирования. В Cohere используют специальные шаблоны промптов, которые «переключают» модель в режим RAG, делая её ответы суше, но достовернее .

🤖 Агенты и коллаборация: за пределами простого поиска 15:38

Будущее RAG Льюис видит в переходе от простых систем «вопрос-ответ» к исследовательским агентам. Он упоминает концепцию React — метод, при котором модель строит план действий, вызывает инструменты (например, поиск), анализирует результаты и решает, нужно ли ей больше данных или она готова ответить .

Ключевой проблемой здесь остается «разрыв намерений» (intent gap). По словам Льюиса, даже человек-менеджер может неправильно передать задачу сотруднику, и то же самое происходит с ИИ-агентами: к третьему шагу рассуждений модель может уйти в совершенно неверном направлении .

Патрик Льюис скептически относится к идее, что ИИ должен просто «управлять браузером» как человек . По его мнению, это медленно и неэффективно. Правильнее создавать новые интерфейсы взаимодействия (API), оптимизированные специально для ИИ, а не заставлять модель имитировать движения мышки по экрану.

📜 История создания: как появился термин RAG 23:47

Термин Retrieval-Augmented Generation возник на пересечении двух групп исследователей в Meta AI (тогда — Facebook AI Research). Одна группа занималась «извлечением ответов» (extractive QA), а другая — «зондированием знаний» в языковых моделях (проекты Llama Probe и Alpaca, не путать с современными моделями с теми же названиями) .

Патрик Льюис вспоминает:

«Мы просто соединили две идеи: генеративную модель и доступ к неструктурированной базе знаний. Мы не думали, что это станет индустриальным стандартом. Это был просто очередной научный подход, которому мы дали трёхбуквенную аббревиатуру» .

До появления RAG стандартом было «извлечение фрагмента» (span extraction), когда модель просто указывала на начало и конец текста в документе, где содержится ответ . Льюис и его соавторы предложили позволить модели генерировать свободный текст, используя найденные документы как контекст.

🔍 Механика поиска: плотные vs разреженные векторы 40:21

Эффективность RAG напрямую зависит от качества информационного поиска (IR). Льюис отмечает, что построить корпоративную поисковую систему сложнее, чем Google . У Google есть миллиарды кликов и PageRank для ранжирования, а внутри компании данные часто мультимодальны и разбросаны по SharePoint или Notion без какой-либо статистики использования.

Обсуждаются два подхода к поиску:

Разреженный поиск (Sparse Search): классические методы вроде BM25 или TF-IDF, основанные на точном совпадении слов . Они отлично справляются со специфическими терминами и редкими словами.
Плотный поиск (Dense Search): использование нейронных эмбеддингов, где документы и запросы превращаются в векторы в семантическом пространстве . Этот метод лучше понимает смысл, но может уступать в точности при работе с редкими именами собственными.

По мнению Льюиса, наиболее производительные системы сегодня — это гибридные решения, сочетающие оба метода .

🧬 От химии к ИИ: магия Word2Vec 55:57

Личный путь Патрика Льюиса начался с органической химии. В 2014-2015 годах, работая над магистерским проектом, он применил алгоритм Word2Vec к миллионам аннотаций химических статей .

Результат поразил исследователя: когда он визуализировал векторные представления химических элементов, они самоорганизовались в группы, в точности повторяющие Периодическую таблицу Менделеева . Алгоритм без всяких химических знаний «понял», что благородные газы должны быть в одном кластере, а металлы — в другом, просто на основе того, как о них пишут учёные.

Этот опыт стал для Льюиса доказательством того, что «распределённые представления» (distributed representations) способны аккумулировать и структурировать человеческие знания в сжатом виде .

🕰️ Будущее интерфейсов и «узкое горлышко» внимания 1:11:02

В завершение беседы участники обсуждают, почему современные модели обучаются генерировать текст последовательно (слева направо), а не всё сразу. Льюис проводит аналогию с человеческим мышлением: хотя мы можем планировать иерархически, выражаем мы мысли только в линейной последовательности времени .

Тим Скарфе упоминает концепцию «бутылочного горлышка „сейчас или никогда“» (Now-or-never bottleneck), согласно которой человеческое внимание крайне ограничено и вынуждено обрабатывать информацию порционно . Льюис соглашается, что успех методов вроде «Цепочки рассуждений» (Chain of Thought) связан именно с этим: модели, как и человеку, нужно «проговорить» промежуточные шаги, чтобы прийти к верному сложному выводу .