Патрик Льюис: «GPT-4 — это не оракул для оценки RAG-систем»

Machine Learning Street Talk 14,2 тыс. 1 ч 13 мин 5 мин 16.09.2024
Главное

В этом интервью Патрик Льюис (Patrick Lewis), один из создателей технологии Retrieval-Augmented Generation (RAG) и исследователь в Meta AI и Cohere, обсуждает с Тимом Скарфе (Tim Scarfe) путь от первых языковых моделей до сложных агентных систем. Разговор затрагивает тонкости оценки качества генерации, механизмы плотного и разреженного поиска, а также личную историю Льюиса — от химика-синтетика до учёного, обнаружившего периодическую таблицу в массиве текстов с помощью алгоритмов.

🧪 Эволюция оценки: почему GPT-4 — плохой судья 1:40

Оценка RAG-систем (Retrieval-Augmented Generation) значительно сложнее, чем оценка обычных чат-ботов, поскольку требует измерения нескольких конфликтующих параметров. Патрик Льюис выделяет ключевые метрики, опираясь на работы Нельсона Лю из Стэнфорда :

По мнению Льюиса, современные метрики «отстают» от качества самих моделей . Отрасль всё ещё часто использует наборы данных 2020 года, основанные на простых вопросах к Wikipedia, где современные LLM показывают запредельно высокие, но малоинформативные результаты.

Особое внимание Патрик Льюис уделяет проблеме «оценки оценщиков». Распространённая практика — использовать GPT-4 как «оракула» для проверки других моделей. Однако исследования Cohere показали, что мощные модели не всегда являются лучшими судьями .

Основные проблемы использования LLM в качестве оценщиков:

  1. Предвзятость к стилю и семейству моделей: модели склонны отдавать предпочтение ответам, структура которых похожа на их собственную .
  2. Избыточное рассуждение (Over-reasoning): GPT-4 может снижать оценку правильному ответу, если он противоречит её внутренним знаниям, полученным при обучении, даже если в контексте RAG ответ верен .
  3. Обратный закон масштабирования: Льюис отмечает, что в некоторых простых задачах на соответствие фактов GPT-3.5 справлялась лучше, чем GPT-4, потому что последняя слишком «умничала» и запутывалась в нюансах .

Для решения этих проблем команда Льюиса разработала POLE — метод ансамблирования нескольких небольших моделей-оценщиков. Ансамбль из менее мощных моделей зачастую оказывается точнее, дешевле и быстрее, чем один гигант уровня GPT-4 .

🏗️ Архитектура доверия: как обучаются современные RAG-модели 13:07

Обсуждая процесс создания моделей, таких как Command R от Cohere, Патрик Льюис подчеркивает важность чистоты данных над их масштабом. В то время как Llama 3 обучается на миллионах пар предпочтений, Cohere делает ставку на «одержимость чистотой» .

Процесс обучения включает несколько этапов:

🤖 Агенты и коллаборация: за пределами простого поиска 15:38

Будущее RAG Льюис видит в переходе от простых систем «вопрос-ответ» к исследовательским агентам. Он упоминает концепцию React — метод, при котором модель строит план действий, вызывает инструменты (например, поиск), анализирует результаты и решает, нужно ли ей больше данных или она готова ответить .

Ключевой проблемой здесь остается «разрыв намерений» (intent gap). По словам Льюиса, даже человек-менеджер может неправильно передать задачу сотруднику, и то же самое происходит с ИИ-агентами: к третьему шагу рассуждений модель может уйти в совершенно неверном направлении .

Патрик Льюис скептически относится к идее, что ИИ должен просто «управлять браузером» как человек . По его мнению, это медленно и неэффективно. Правильнее создавать новые интерфейсы взаимодействия (API), оптимизированные специально для ИИ, а не заставлять модель имитировать движения мышки по экрану.

📜 История создания: как появился термин RAG 23:47

Термин Retrieval-Augmented Generation возник на пересечении двух групп исследователей в Meta AI (тогда — Facebook AI Research). Одна группа занималась «извлечением ответов» (extractive QA), а другая — «зондированием знаний» в языковых моделях (проекты Llama Probe и Alpaca, не путать с современными моделями с теми же названиями) .

Патрик Льюис вспоминает:

«Мы просто соединили две идеи: генеративную модель и доступ к неструктурированной базе знаний. Мы не думали, что это станет индустриальным стандартом. Это был просто очередной научный подход, которому мы дали трёхбуквенную аббревиатуру» .

До появления RAG стандартом было «извлечение фрагмента» (span extraction), когда модель просто указывала на начало и конец текста в документе, где содержится ответ . Льюис и его соавторы предложили позволить модели генерировать свободный текст, используя найденные документы как контекст.

🔍 Механика поиска: плотные vs разреженные векторы 40:21

Эффективность RAG напрямую зависит от качества информационного поиска (IR). Льюис отмечает, что построить корпоративную поисковую систему сложнее, чем Google . У Google есть миллиарды кликов и PageRank для ранжирования, а внутри компании данные часто мультимодальны и разбросаны по SharePoint или Notion без какой-либо статистики использования.

Обсуждаются два подхода к поиску:

  1. Разреженный поиск (Sparse Search): классические методы вроде BM25 или TF-IDF, основанные на точном совпадении слов . Они отлично справляются со специфическими терминами и редкими словами.
  2. Плотный поиск (Dense Search): использование нейронных эмбеддингов, где документы и запросы превращаются в векторы в семантическом пространстве . Этот метод лучше понимает смысл, но может уступать в точности при работе с редкими именами собственными.

По мнению Льюиса, наиболее производительные системы сегодня — это гибридные решения, сочетающие оба метода .

🧬 От химии к ИИ: магия Word2Vec 55:57

Личный путь Патрика Льюиса начался с органической химии. В 2014-2015 годах, работая над магистерским проектом, он применил алгоритм Word2Vec к миллионам аннотаций химических статей .

Результат поразил исследователя: когда он визуализировал векторные представления химических элементов, они самоорганизовались в группы, в точности повторяющие Периодическую таблицу Менделеева . Алгоритм без всяких химических знаний «понял», что благородные газы должны быть в одном кластере, а металлы — в другом, просто на основе того, как о них пишут учёные.

Этот опыт стал для Льюиса доказательством того, что «распределённые представления» (distributed representations) способны аккумулировать и структурировать человеческие знания в сжатом виде .

🕰️ Будущее интерфейсов и «узкое горлышко» внимания 1:11:02

В завершение беседы участники обсуждают, почему современные модели обучаются генерировать текст последовательно (слева направо), а не всё сразу. Льюис проводит аналогию с человеческим мышлением: хотя мы можем планировать иерархически, выражаем мы мысли только в линейной последовательности времени .

Тим Скарфе упоминает концепцию «бутылочного горлышка „сейчас или никогда“» (Now-or-never bottleneck), согласно которой человеческое внимание крайне ограничено и вынуждено обрабатывать информацию порционно . Льюис соглашается, что успех методов вроде «Цепочки рассуждений» (Chain of Thought) связан именно с этим: модели, как и человеку, нужно «проговорить» промежуточные шаги, чтобы прийти к верному сложному выводу .

💬 Цитаты

«До того, как вы получите оценку, вам нужно оценить вашего оценщика. Если вы используете LLM как судью, вы должны понимать её корреляцию с золотым стандартом — мнением людей.»

Патрик Льюис 05:52

«GPT-4 иногда бывает впечатляюще неправа, потому что она слишком сильно опирается на свои базовые знания и игнорирует предоставленные ей документы.»

Патрик Льюис 11:11

«Алгоритм Word2Vec обнаружил периодическую таблицу внутри литературы без всяких явных инструкций. Это был безумный момент для меня.»

Патрик Льюис 57:51
👥 Спикеры
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
RAG
Технология, объединяющая генеративную модель (LLM) с внешней базой знаний для получения более точных ответов.
BM25
Классическая функция ранжирования, используемая поисковыми системами для оценки релевантности документов запросу.
SFT
Supervised Fine-Tuning — этап дообучения модели на заранее подготовленных примерах «запрос-ответ».
Word2Vec
Алгоритм для представления слов в виде векторов, где близкие по смыслу слова оказываются рядом в пространстве.
📊 Цифры
🗓 Хронология
  1. 2013 Миколов публикует статью о Word2Vec.
  2. 2015 Патрик Льюис обнаруживает периодическую таблицу в эмбеддингах текстов.
  3. 2018 Выход модели BERT от Google.
  4. 2020 Публикация оригинальной статьи о Retrieval-Augmented Generation.
  5. 2024 Выпуск моделей Command R и R+ в Cohere, оптимизированных для RAG.
⚖️ Другая сторона
Искусственный интеллект Retrieval-Augmented Generation Патрик Льюис Cohere Word2Vec Meta AI