Авторы DSI: «Будущее информационного поиска — в дифференцируемых трансформерах»

Yannic Kilcher 8,1 тыс. 43 мин 3 мин 17.04.2022
Главное

Революция в поиске: Transformer Memory как дифференцируемый индекс 0:52

В недавнем интервью создатель популярного YouTube-канала Yannic Kilcher обсудил с исследователями Итаем (Itae) и Доном Метцлером (Don Metzler) их инновационную работу — «Transformer Memory as a Differentiable Search Index» (DSI). Основная идея проекта заключается в попытке радикально изменить архитектуру информационного поиска, отказавшись от традиционных методов в пользу хранения данных непосредственно в весах трансформерной модели.

🧠 Концепция дифференцируемого поиска 1:18

Традиционные системы информационного поиска (IR) десятилетиями полагались на сложные инфраструктуры, включающие отдельные блоки для индексации и ранжирования. Авторы исследования задались вопросом: можно ли научить большую языковую модель «запоминать» весь корпус документов прямо в своих параметрах?

По словам Итая, проект вырос из желания понять пределы возможностей трансформеров: сколько данных они могут эффективно закодировать в весах, и можно ли использовать это для задач поиска. Дон Метцлер отметил, что этот подход является логическим развитием их предыдущей работы «Rethinking Search». Идея состоит в том, чтобы взять большие языковые модели (LLM), которые уже понимают взаимосвязи между токенами, и «обучить» их напрямую связывать запросы с идентификаторами документов (docids).

🛠 Технические нюансы и архитектура 5:51

В ходе обсуждения Янник Килчер поднял вопрос о том, почему исследователи предпочли контрактивные цели (dual encoders) вместо использования кросс-энкодеров (cross-encoders), которые традиционно показывают более высокую точность в задачах ранжирования.

Аргументы авторов:

📊 Масштабирование и проблемы обучения 14:33

Одной из главных тем беседы стали результаты работы модели при разном объеме данных. Авторы признали, что на данный момент они ограничены наборами данных до 300 000 документов, что для сферы IR не является пределом.

🔭 Будущее и «Северная звезда» проекта 35:07

Янник Килчер поинтересовался долгосрочными целями исследователей. Авторы видят «Северную звезду» проекта в создании единой архитектуры, где retrieval (поиск) больше не будет отдельной инфраструктурой.

Будущие направления развития:

  1. Унификация: Возможность объединения поиска, машинного перевода и генерации текста в рамках одной модели.
  2. Обновление данных: Одна из самых острых проблем — как эффективно добавлять новые документы в уже обученную модель.
  3. Разреженные модели: Исследователи надеются, что использование архитектур вроде Switch Transformer поможет масштабировать систему до десятков миллионов документов.

В завершение, Дон Метцлер и Итай подтвердили, что планируют опубликовать исходный код проекта в течение второго квартала 2026 года, несмотря на сложности прохождения бюрократических процедур, связанных с open-source политикой.

💬 Цитаты

«Мы просто решили проверить: а что, если сохранить весь датасет в весах трансформера?»

«Я хочу, чтобы retrieval перестал быть отдельной инфраструктурой.»

«Пока мы не понимаем, где именно внутри модели сохраняются эти документы. Это самый разочаровывающий ответ, но я правда не знаю.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
DSI (Differentiable Search Index)
Метод индексации, при котором модель учится напрямую отображать запрос в идентификатор документа.
Dual Encoder
Архитектура модели, где запрос и документ кодируются в отдельные векторы для быстрого поиска.
Cross-Encoder
Архитектура, в которой запрос и документ обрабатываются совместно, что дает более точные, но медленные результаты.
Docid
Уникальный идентификатор документа, который модель учится генерировать в ответ на запрос.
Zero-shot retrieval
Способность модели находить документы без предварительного обучения на конкретных парах запрос-документ.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Transformer Memory Differentiable Search Index DSI Information Retrieval Yannic Kilcher