Патрик Льюис: «RAG делает ответы ИИ верифицируемыми»

Эволюция Retrieval Augmented Generation: разговор с Патриком Льюисом 🧬 0:50

В индустрии искусственного интеллекта концепция Retrieval Augmented Generation (RAG) стала своеобразным «Святым Граалем», позволяющим преодолеть ключевую проблему современных языковых моделей — их склонность к галлюцинациям. В интервью каналу Machine Learning Street Talk ученый Патрик Льюис, один из соавторов знаковой научной работы по RAG, объясняет, почему этот подход кардинально меняет способы взаимодействия машин с данными.

Что такое RAG и зачем это нужно? 🔍 5:26

По словам Льюиса, RAG — это не просто «костыль» для ИИ, а архитектурный сдвиг, при котором модель учится извлекать актуальную информацию из внешнего хранилища перед генерацией ответа.

Механизм работы: Входной запрос анализируется, после чего система обращается к базе знаний для поиска наиболее релевантных данных. Затем этот «контекст» вместе с исходным запросом передается языковой модели для формирования ответа.
Верифицируемость: Патрик Льюис подчеркивает, что мы не можем заставить модель «говорить правду» в философском смысле, но мы можем сделать её ответы верифицируемыми. Механизм цитирования или обоснования позволяет модели указать на конкретный артефакт из реального мира, который подтверждает её утверждение.
Обновляемость: Главный изъян обычных моделей — их статичность: они «заперты» в моменте завершения обучения. Модели с RAG обладают «внешней памятью» (например, интернет или индекс документов), которую можно обновлять, добавляя новые знания или удаляя нежелательную информацию.

Проблемы «утечки» данных и чистота экспериментов 🧪 8:04

В процессе работы над моделью Atlas, использующей парадигму RAG, Льюис столкнулся с интересным феноменом, который он назвал «читерством» модели на бенчмарках.

При оценке на наборе данных MMLU (Massively Multitask Language Understanding) модель показывала аномально высокие результаты. Анализ показал, что модель просто извлекала ответы из Stack Exchange, куда пользователи ранее выкладывали решения тех же самых экзаменационных задач. Как отмечает ученый, это не было отражением интеллекта системы, а лишь «утечкой» данных. Способность RAG отключать конкретные источники (например, исключить Stack Exchange из поиска) позволила исследователям «очистить» модель и измерить её реальные способности к обобщению без прямого запоминания.

Оптимизация и архитектура: от RAG до Fusion-in-Decoder 🏗️ 16:44

Одной из главных проблем при масштабировании является ограничение контекстного окна и квадратичная сложность трансформеров.

Патрик Льюис выделяет несколько методов борьбы с этим:

Параллельная обработка: Вместо того чтобы «скармливать» модели один огромный текст, можно обрабатывать запрос с 16 разными документами параллельно в разных потоках GPU.
Fusion-in-Decoder (FiD): Разработанная коллегами Льюиса (Готье и Эдуаром) архитектура FiD позволяет «сшивать» информацию из разных источников внутри декодера, избегая необходимости пропускать через него бесконечно длинную последовательность.

Будущее обработки длинных текстов 📚 21:27

Завершая беседу, Льюис коснулся вопроса о том, стоит ли стремиться к созданию модели с контекстным окном, способным «проглотить» всю книгу целиком за один проход. По его мнению, это не совсем соответствует тому, как человек усваивает информацию: мы читаем активно, делая заметки и переосмысливая прочитанное.

По словам ученого, для ИИ перспективнее «активное чтение»:

Модель читает фрагмент текста.
Генерирует рабочую память (краткое содержание или «черновик»).
Использует этот «черновик» для анализа следующей части.

Это переводит авторегрессионную модель на более высокий уровень оперирования последовательностями. Однако, как отмечает Льюис, даже при наличии огромного контекстного окна остается проблема нехватки данных для обучения моделей использованию таких длинных зависимостей, так как большинство текстов в интернете относительно короткие.