Патрик Льюис: «RAG делает ответы ИИ верифицируемыми»

Machine Learning Street Talk 14,9 тыс. 25 мин 3 мин 08.02.2023
Главное

Эволюция Retrieval Augmented Generation: разговор с Патриком Льюисом 🧬 0:50

В индустрии искусственного интеллекта концепция Retrieval Augmented Generation (RAG) стала своеобразным «Святым Граалем», позволяющим преодолеть ключевую проблему современных языковых моделей — их склонность к галлюцинациям. В интервью каналу Machine Learning Street Talk ученый Патрик Льюис, один из соавторов знаковой научной работы по RAG, объясняет, почему этот подход кардинально меняет способы взаимодействия машин с данными.

Что такое RAG и зачем это нужно? 🔍 5:26

По словам Льюиса, RAG — это не просто «костыль» для ИИ, а архитектурный сдвиг, при котором модель учится извлекать актуальную информацию из внешнего хранилища перед генерацией ответа.

Проблемы «утечки» данных и чистота экспериментов 🧪 8:04

В процессе работы над моделью Atlas, использующей парадигму RAG, Льюис столкнулся с интересным феноменом, который он назвал «читерством» модели на бенчмарках.

При оценке на наборе данных MMLU (Massively Multitask Language Understanding) модель показывала аномально высокие результаты. Анализ показал, что модель просто извлекала ответы из Stack Exchange, куда пользователи ранее выкладывали решения тех же самых экзаменационных задач. Как отмечает ученый, это не было отражением интеллекта системы, а лишь «утечкой» данных. Способность RAG отключать конкретные источники (например, исключить Stack Exchange из поиска) позволила исследователям «очистить» модель и измерить её реальные способности к обобщению без прямого запоминания.

Оптимизация и архитектура: от RAG до Fusion-in-Decoder 🏗️ 16:44

Одной из главных проблем при масштабировании является ограничение контекстного окна и квадратичная сложность трансформеров.

Патрик Льюис выделяет несколько методов борьбы с этим:

  1. Параллельная обработка: Вместо того чтобы «скармливать» модели один огромный текст, можно обрабатывать запрос с 16 разными документами параллельно в разных потоках GPU.
  2. Fusion-in-Decoder (FiD): Разработанная коллегами Льюиса (Готье и Эдуаром) архитектура FiD позволяет «сшивать» информацию из разных источников внутри декодера, избегая необходимости пропускать через него бесконечно длинную последовательность.

Будущее обработки длинных текстов 📚 21:27

Завершая беседу, Льюис коснулся вопроса о том, стоит ли стремиться к созданию модели с контекстным окном, способным «проглотить» всю книгу целиком за один проход. По его мнению, это не совсем соответствует тому, как человек усваивает информацию: мы читаем активно, делая заметки и переосмысливая прочитанное.

По словам ученого, для ИИ перспективнее «активное чтение»:

Это переводит авторегрессионную модель на более высокий уровень оперирования последовательностями. Однако, как отмечает Льюис, даже при наличии огромного контекстного окна остается проблема нехватки данных для обучения моделей использованию таких длинных зависимостей, так как большинство текстов в интернете относительно короткие.

💬 Цитаты

«Мы не можем заставить языковые модели генерировать истину, но мы можем сделать их более верифицируемыми.»

Патрик Льюис 02:20

«Чтение — это более активный процесс: вы читаете, потребляете информацию, резюмируете и помещаете это в рабочую память.»

Патрик Льюис 23:01
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
RAG (Retrieval Augmented Generation)
Метод обучения ИИ, при котором модель сначала находит факты во внешней базе данных, а затем использует их для генерации ответа.
Галюцинации ИИ
Ситуации, когда языковая модель уверенно генерирует ложную или вымышленную информацию.
KIE (Key Information Extraction)
Извлечение ключевых данных из неструктурированной информации (видео, текст).
FiD (Fusion-in-Decoder)
Архитектура, позволяющая модели эффективно объединять информацию из множества документов, избегая перегрузки памяти.
Авторегрессия
Метод генерации текста, где следующее слово предсказывается на основе всех предыдущих слов.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Patrick Lewis Retrieval Augmented Generation Large Language Models Atlas model