Как REALM учит нейросети искать ответы в Википедии

REALM: Революция в обучении языковых моделей через поиск 2:41

Современные языковые модели, такие как GPT-3, по своей сути являются «вещами в себе»: все накопленные ими знания о мире намертво «запекаются» в их параметры в процессе обучения. Это делает структуру знаний непрозрачной, а обновление информации — практически невозможным без переобучения всей модели. Статья, разбираемая Янником Килхером, описывает архитектуру REALM (Retrieval-Augmented Language Model Pre-Training), которая предлагает кардинально иной подход: модель при ответе на вопрос или генерации текста обращается к внешнему корпусу знаний, имитируя работу поисковой системы.

🧠 Проблема «запечённых» знаний 4:36

Янник Килхер отмечает, что традиционное обучение языковых моделей строится на принципе «поглощения» всего корпуса текстов для выявления статистических закономерностей. В результате модель знает, что у равностороннего треугольника углы по 60 градусов, не потому что она «понимает» геометрию, а потому что это знание статистически закреплено в её весах.

Основные проблемы этого подхода:

Отсутствие интерпретируемости: знания распределены по весам нейросети, их невозможно легко извлечь или проверить.
Масштабируемость: чтобы модель знала больше фактов, её приходится делать всё больше, что крайне затратно.
Статичность: модель не может актуализировать свои знания, если в мире произошло событие, произошедшее после даты окончания её обучения.

🏗 Архитектура REALM: поиск как часть процесса 8:35

Килхер объясняет, что REALM разделяет «языковые способности» модели и её «базу знаний». Система состоит из трех ключевых компонентов, работающих в связке:

Поисковый механизм (Knowledge Retriever): берет запрос (или маскированную строку) и находит в корпусе знаний (например, Википедии) наиболее релевантные документы.
Эмбеддер корпуса: преобразует все документы из базы знаний в векторное представление, чтобы их можно было быстро искать через скалярное произведение (inner product).
Знание-ориентированный энкодер (Knowledge Augmented Encoder): принимает на вход вопрос и найденные документы, а затем генерирует ответ.

Важнейшей инновацией является то, что процесс поиска дифференцируемый. Это значит, что система может обучаться методом обратного распространения ошибки сквозь поисковый шаг: если поиск привел к неверному ответу, градиент обновляет и энкодер, и поисковый механизм.

🛠 Сложности реализации: «смертельная петля» и холодный старт 34:23

Килхер акцентирует внимание на том, что этот процесс легко может уйти в «смертельную петлю». Если поисковик изначально плох, он не находит правильные документы, энкодер не получает полезного сигнала и не учится использовать найденную информацию, а поисковик, в свою очередь, не получает сигналов для улучшения.

Для борьбы с этим авторы REALM применяют несколько инженерных «хаков»:

Warm-start через Inverse Cloze Task (ICT): перед основным обучением модели проходят предварительную тренировку, где они учатся восстанавливать документ, из которого был взят конкретный отрывок текста.
Асинхронное обновление индекса: так как при обновлении параметров модели её веса меняются, поисковый индекс устаревает. Разработчики используют отдельный процесс, который перестраивает индекс каждые несколько сотен шагов, чтобы не тратить вычислительные ресурсы на постоянную переиндексацию.
Prohibiting trivial retrievals: при обучении запрещено находить тот самый документ, из которого был взят тестовый запрос, чтобы модель не училась просто «копировать» ответ из контекста.

🎯 Salient Span Masking: новый стандарт маскировки 48:38

Килхер особо выделяет технику маскировки, использованную в REALM. Вместо случайного удаления отдельных слов модель обучается на «маскировании значимых фрагментов» (salient spans) — например, названий стран, дат или именованных сущностей.

По мнению Килхера, это заставляет модель решать гораздо более сложные задачи, требующие понимания глобальных связей в тексте, а не просто локальной статистики. Хотя он признает, что это «немного грязный» метод, так как он сильно привязан к особенностям датасетов, результаты показывают, что он значительно превосходит стандартную случайную маскировку.

📊 Итоги и перспективы 51:56

В сравнении с предыдущими state-of-the-art моделями, REALM демонстрирует существенный прирост точности на задачах Open-domain Question Answering (OQA). Килхер отмечает, что модель успешно справляется даже с вопросами, где ответ не очевиден и требует синтеза информации из документов.

Однако он делает важную оговорку: система всё еще далека от совершенства. Даже при использовании лучших найденных документов уверенность модели в правильном ответе может колебаться, что указывает на необходимость дальнейшей работы над тем, как модели интегрируют и интерпретируют найденную «внешнюю» информацию.