Как REALM учит нейросети искать ответы в Википедии

Yannic Kilcher 15,9 тыс. 1 ч 3 мин 14.08.2020
Главное

REALM: Революция в обучении языковых моделей через поиск 2:41

Современные языковые модели, такие как GPT-3, по своей сути являются «вещами в себе»: все накопленные ими знания о мире намертво «запекаются» в их параметры в процессе обучения. Это делает структуру знаний непрозрачной, а обновление информации — практически невозможным без переобучения всей модели. Статья, разбираемая Янником Килхером, описывает архитектуру REALM (Retrieval-Augmented Language Model Pre-Training), которая предлагает кардинально иной подход: модель при ответе на вопрос или генерации текста обращается к внешнему корпусу знаний, имитируя работу поисковой системы.

🧠 Проблема «запечённых» знаний 4:36

Янник Килхер отмечает, что традиционное обучение языковых моделей строится на принципе «поглощения» всего корпуса текстов для выявления статистических закономерностей. В результате модель знает, что у равностороннего треугольника углы по 60 градусов, не потому что она «понимает» геометрию, а потому что это знание статистически закреплено в её весах.

Основные проблемы этого подхода:

🏗 Архитектура REALM: поиск как часть процесса 8:35

Килхер объясняет, что REALM разделяет «языковые способности» модели и её «базу знаний». Система состоит из трех ключевых компонентов, работающих в связке:

  1. Поисковый механизм (Knowledge Retriever): берет запрос (или маскированную строку) и находит в корпусе знаний (например, Википедии) наиболее релевантные документы.
  2. Эмбеддер корпуса: преобразует все документы из базы знаний в векторное представление, чтобы их можно было быстро искать через скалярное произведение (inner product).
  3. Знание-ориентированный энкодер (Knowledge Augmented Encoder): принимает на вход вопрос и найденные документы, а затем генерирует ответ.

Важнейшей инновацией является то, что процесс поиска дифференцируемый. Это значит, что система может обучаться методом обратного распространения ошибки сквозь поисковый шаг: если поиск привел к неверному ответу, градиент обновляет и энкодер, и поисковый механизм.

🛠 Сложности реализации: «смертельная петля» и холодный старт 34:23

Килхер акцентирует внимание на том, что этот процесс легко может уйти в «смертельную петлю». Если поисковик изначально плох, он не находит правильные документы, энкодер не получает полезного сигнала и не учится использовать найденную информацию, а поисковик, в свою очередь, не получает сигналов для улучшения.

Для борьбы с этим авторы REALM применяют несколько инженерных «хаков»:

🎯 Salient Span Masking: новый стандарт маскировки 48:38

Килхер особо выделяет технику маскировки, использованную в REALM. Вместо случайного удаления отдельных слов модель обучается на «маскировании значимых фрагментов» (salient spans) — например, названий стран, дат или именованных сущностей.

По мнению Килхера, это заставляет модель решать гораздо более сложные задачи, требующие понимания глобальных связей в тексте, а не просто локальной статистики. Хотя он признает, что это «немного грязный» метод, так как он сильно привязан к особенностям датасетов, результаты показывают, что он значительно превосходит стандартную случайную маскировку.

📊 Итоги и перспективы 51:56

В сравнении с предыдущими state-of-the-art моделями, REALM демонстрирует существенный прирост точности на задачах Open-domain Question Answering (OQA). Килхер отмечает, что модель успешно справляется даже с вопросами, где ответ не очевиден и требует синтеза информации из документов.

Однако он делает важную оговорку: система всё еще далека от совершенства. Даже при использовании лучших найденных документов уверенность модели в правильном ответе может колебаться, что указывает на необходимость дальнейшей работы над тем, как модели интегрируют и интерпретируют найденную «внешнюю» информацию.

💬 Цитаты

«Knowledge is stored implicitly in the parameters of a neural network, requiring ever larger networks to cover more facts.»

Янник Килхер 6:24

«You want to induce your model to learn more global knowledge, more world knowledge, more semantics of the language.»

Янник Килхер 47:20
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Open-domain Question Answering (OQA)
Задача, где модель должна ответить на произвольный вопрос, используя внешние источники данных.
Masked Language Modeling
Метод обучения, при котором модель учится предсказывать пропущенные (маскированные) слова в предложении.
Retrieval-Augmented
Подход, при котором модель перед генерацией ответа выполняет поиск релевантной информации в базе данных.
Inner product search
Метод поиска наиболее близких векторов в многомерном пространстве для сопоставления запроса и документа.
Salient span
Фрагмент текста, содержащий значимую информацию, например именованные сущности или даты.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект REALM Retrieval-Augmented Generation NLP Wikipedia Masked Language Modeling