# Патрик Льюис: «GPT-4 — это не оракул для оценки RAG-систем»

Источник: https://www.youtube.com/watch?v=CMLCpZarQkE
Канал: Machine Learning Street Talk
Опубликовано: 16.09.2024

---

В этом интервью Патрик Льюис (Patrick Lewis), один из создателей технологии Retrieval-Augmented Generation (RAG) и исследователь в Meta AI и Cohere, обсуждает с Тимом Скарфе (Tim Scarfe) путь от первых языковых моделей до сложных агентных систем. Разговор затрагивает тонкости оценки качества генерации, механизмы плотного и разреженного поиска, а также личную историю Льюиса — от химика-синтетика до учёного, обнаружившего периодическую таблицу в массиве текстов с помощью алгоритмов.

## 🧪 Эволюция оценки: почему GPT-4 — плохой судья
[[JUMP:01:40]]

Оценка RAG-систем (Retrieval-Augmented Generation) значительно сложнее, чем оценка обычных чат-ботов, поскольку требует измерения нескольких конфликтующих параметров. Патрик Льюис выделяет ключевые метрики, опираясь на работы Нельсона Лю из Стэнфорда [02:21]:

*   **Достоверность (Faithfulness):** насколько ответ модели соответствует предоставленным документам.
*   **Цитируемость (Citations):** наличие конкретных указаний на источники в тексте.
*   **Воспринимаемая полезность (Perceived utility):** насколько ответ кажется полезным пользователю, даже если он содержит фактические ошибки.
*   **Беглость (Fluency):** качество структуры и языка ответа.

По мнению Льюиса, современные метрики «отстают» от качества самих моделей [03:29]. Отрасль всё ещё часто использует наборы данных 2020 года, основанные на простых вопросах к Wikipedia, где современные LLM показывают запредельно высокие, но малоинформативные результаты.

Особое внимание Патрик Льюис уделяет проблеме «оценки оценщиков». Распространённая практика — использовать GPT-4 как «оракула» для проверки других моделей. Однако исследования Cohere показали, что мощные модели не всегда являются лучшими судьями [06:37].

Основные проблемы использования LLM в качестве оценщиков:

1.  **Предвзятость к стилю и семейству моделей:** модели склонны отдавать предпочтение ответам, структура которых похожа на их собственную [07:17].
2.  **Избыточное рассуждение (Over-reasoning):** GPT-4 может снижать оценку правильному ответу, если он противоречит её внутренним знаниям, полученным при обучении, даже если в контексте RAG ответ верен [11:11].
3.  **Обратный закон масштабирования:** Льюис отмечает, что в некоторых простых задачах на соответствие фактов GPT-3.5 справлялась лучше, чем GPT-4, потому что последняя слишком «умничала» и запутывалась в нюансах [12:26].

Для решения этих проблем команда Льюиса разработала POLE — метод ансамблирования нескольких небольших моделей-оценщиков. Ансамбль из менее мощных моделей зачастую оказывается точнее, дешевле и быстрее, чем один гигант уровня GPT-4 [07:44].

## 🏗️ Архитектура доверия: как обучаются современные RAG-модели
[[JUMP:13:07]]

Обсуждая процесс создания моделей, таких как Command R от Cohere, Патрик Льюис подчеркивает важность чистоты данных над их масштабом. В то время как Llama 3 обучается на миллионах пар предпочтений, Cohere делает ставку на «одержимость чистотой» [13:52].

Процесс обучения включает несколько этапов:

*   **SFT (Supervised Fine-Tuning):** обучение на высококачественных демонстрациях правильного поведения.
*   **Обучение с подкреплением (RL):** финальная полировка модели. Льюис считает этот этап «вишенкой на торте», в то время как основой («тестом») является тщательный подбор данных [14:43].
*   **Гармонизация данных:** разработчики следят за тем, чтобы модель не просто генерировала текст, но и привыкала к структуре цитирования. В Cohere используют специальные шаблоны промптов, которые «переключают» модель в режим RAG, делая её ответы суше, но достовернее [52:39].

## 🤖 Агенты и коллаборация: за пределами простого поиска
[[JUMP:15:38]]

Будущее RAG Льюис видит в переходе от простых систем «вопрос-ответ» к исследовательским агентам. Он упоминает концепцию React — метод, при котором модель строит план действий, вызывает инструменты (например, поиск), анализирует результаты и решает, нужно ли ей больше данных или она готова ответить [16:18].

Ключевой проблемой здесь остается «разрыв намерений» (intent gap). По словам Льюиса, даже человек-менеджер может неправильно передать задачу сотруднику, и то же самое происходит с ИИ-агентами: к третьему шагу рассуждений модель может уйти в совершенно неверном направлении [20:03].

Патрик Льюис скептически относится к идее, что ИИ должен просто «управлять браузером» как человек [18:53]. По его мнению, это медленно и неэффективно. Правильнее создавать новые интерфейсы взаимодействия (API), оптимизированные специально для ИИ, а не заставлять модель имитировать движения мышки по экрану.

## 📜 История создания: как появился термин RAG
[[JUMP:23:47]]

Термин Retrieval-Augmented Generation возник на пересечении двух групп исследователей в Meta AI (тогда — Facebook AI Research). Одна группа занималась «извлечением ответов» (extractive QA), а другая — «зондированием знаний» в языковых моделях (проекты Llama Probe и Alpaca, не путать с современными моделями с теми же названиями) [26:33].

Патрик Льюис вспоминает:
> «Мы просто соединили две идеи: генеративную модель и доступ к неструктурированной базе знаний. Мы не думали, что это станет индустриальным стандартом. Это был просто очередной научный подход, которому мы дали трёхбуквенную аббревиатуру» [30:13].

До появления RAG стандартом было «извлечение фрагмента» (span extraction), когда модель просто указывала на начало и конец текста в документе, где содержится ответ [24:43]. Льюис и его соавторы предложили позволить модели генерировать свободный текст, используя найденные документы как контекст.

## 🔍 Механика поиска: плотные vs разреженные векторы
[[JUMP:40:21]]

Эффективность RAG напрямую зависит от качества информационного поиска (IR). Льюис отмечает, что построить корпоративную поисковую систему сложнее, чем Google [40:09]. У Google есть миллиарды кликов и PageRank для ранжирования, а внутри компании данные часто мультимодальны и разбросаны по SharePoint или Notion без какой-либо статистики использования.

Обсуждаются два подхода к поиску:

1.  **Разреженный поиск (Sparse Search):** классические методы вроде BM25 или TF-IDF, основанные на точном совпадении слов [42:54]. Они отлично справляются со специфическими терминами и редкими словами.
2.  **Плотный поиск (Dense Search):** использование нейронных эмбеддингов, где документы и запросы превращаются в векторы в семантическом пространстве [45:26]. Этот метод лучше понимает смысл, но может уступать в точности при работе с редкими именами собственными.

По мнению Льюиса, наиболее производительные системы сегодня — это гибридные решения, сочетающие оба метода [46:05].

## 🧬 От химии к ИИ: магия Word2Vec
[[JUMP:55:57]]

Личный путь Патрика Льюиса начался с органической химии. В 2014-2015 годах, работая над магистерским проектом, он применил алгоритм Word2Vec к миллионам аннотаций химических статей [57:36].

Результат поразил исследователя: когда он визуализировал векторные представления химических элементов, они самоорганизовались в группы, в точности повторяющие Периодическую таблицу Менделеева [57:51]. Алгоритм без всяких химических знаний «понял», что благородные газы должны быть в одном кластере, а металлы — в другом, просто на основе того, как о них пишут учёные.

Этот опыт стал для Льюиса доказательством того, что «распределённые представления» (distributed representations) способны аккумулировать и структурировать человеческие знания в сжатом виде [1:02:27].

## 🕰️ Будущее интерфейсов и «узкое горлышко» внимания
[[JUMP:1:11:02]]

В завершение беседы участники обсуждают, почему современные модели обучаются генерировать текст последовательно (слева направо), а не всё сразу. Льюис проводит аналогию с человеческим мышлением: хотя мы можем планировать иерархически, выражаем мы мысли только в линейной последовательности времени [1:10:35].

Тим Скарфе упоминает концепцию «бутылочного горлышка „сейчас или никогда“» (Now-or-never bottleneck), согласно которой человеческое внимание крайне ограничено и вынуждено обрабатывать информацию порционно [1:11:45]. Льюис соглашается, что успех методов вроде «Цепочки рассуждений» (Chain of Thought) связан именно с этим: модели, как и человеку, нужно «проговорить» промежуточные шаги, чтобы прийти к верному сложному выводу [1:13:10].