Авторы DSI: «Будущее информационного поиска — в дифференцируемых трансформерах»

Революция в поиске: Transformer Memory как дифференцируемый индекс 0:52

В недавнем интервью создатель популярного YouTube-канала Yannic Kilcher обсудил с исследователями Итаем (Itae) и Доном Метцлером (Don Metzler) их инновационную работу — «Transformer Memory as a Differentiable Search Index» (DSI). Основная идея проекта заключается в попытке радикально изменить архитектуру информационного поиска, отказавшись от традиционных методов в пользу хранения данных непосредственно в весах трансформерной модели.

🧠 Концепция дифференцируемого поиска 1:18

Традиционные системы информационного поиска (IR) десятилетиями полагались на сложные инфраструктуры, включающие отдельные блоки для индексации и ранжирования. Авторы исследования задались вопросом: можно ли научить большую языковую модель «запоминать» весь корпус документов прямо в своих параметрах?

По словам Итая, проект вырос из желания понять пределы возможностей трансформеров: сколько данных они могут эффективно закодировать в весах, и можно ли использовать это для задач поиска. Дон Метцлер отметил, что этот подход является логическим развитием их предыдущей работы «Rethinking Search». Идея состоит в том, чтобы взять большие языковые модели (LLM), которые уже понимают взаимосвязи между токенами, и «обучить» их напрямую связывать запросы с идентификаторами документов (docids).

🛠 Технические нюансы и архитектура 5:51

В ходе обсуждения Янник Килчер поднял вопрос о том, почему исследователи предпочли контрактивные цели (dual encoders) вместо использования кросс-энкодеров (cross-encoders), которые традиционно показывают более высокую точность в задачах ранжирования.

Аргументы авторов:

Вычислительная эффективность: Кросс-энкодеры требуют вычисления оценки для каждой пары «запрос-документ» в реальном времени, что крайне ресурсозатратно.
Масштабируемость: DSI генерирует идентификаторы документов (docids) более экономичным способом, что, по мнению команды, является более справедливым сравнением в рамках их текущих задач.
Длина контекста: Традиционные кросс-энкодеры ограничены длиной последовательности, что вынуждает работать с фрагментами текста, а не с документами целиком. Подход DSI, работающий с ID, потенциально позволяет моделировать более длинные и сложные документы.

📊 Масштабирование и проблемы обучения 14:33

Одной из главных тем беседы стали результаты работы модели при разном объеме данных. Авторы признали, что на данный момент они ограничены наборами данных до 300 000 документов, что для сферы IR не является пределом.

Трудности обучения: При увеличении количества документов задача становится значительно сложнее, так как модели требуется поддерживать связь между запросами и гораздо большим числом идентификаторов.
Нестабильность: Итай отметил, что работа с «атомарными» (случайными) ID документов часто сопровождается проблемами сходимости и тренировочной нестабильностью.
Роль пре-тренинга: Предварительное обучение (в стиле T5) критически важно. Без него модели гораздо сложнее «выучить» структуру поиска. Дон Метцлер добавил, что они до конца не понимают, какая именно информация сохраняется в модели после дообучения (fine-tuning).

🔭 Будущее и «Северная звезда» проекта 35:07

Янник Килчер поинтересовался долгосрочными целями исследователей. Авторы видят «Северную звезду» проекта в создании единой архитектуры, где retrieval (поиск) больше не будет отдельной инфраструктурой.

Будущие направления развития:

Унификация: Возможность объединения поиска, машинного перевода и генерации текста в рамках одной модели.
Обновление данных: Одна из самых острых проблем — как эффективно добавлять новые документы в уже обученную модель.
Разреженные модели: Исследователи надеются, что использование архитектур вроде Switch Transformer поможет масштабировать систему до десятков миллионов документов.

В завершение, Дон Метцлер и Итай подтвердили, что планируют опубликовать исходный код проекта в течение второго квартала 2026 года, несмотря на сложности прохождения бюрократических процедур, связанных с open-source политикой.