Янник Кильхер о DSI: как нейросети запоминают документы

Yannic Kilcher 25,7 тыс. 51 мин 2 мин 16.04.2022
Главное

Будущее поиска: как превратить веса нейросети в базу данных 0:00

Исследователи из Google представили концепцию Differentiable Search Index (DSI) — революционный подход, в котором привычный поисковый движок не просто индексирует документы, а «запоминает» их содержание прямо в своих весах. В этом обзоре Янник Кильхер разбирает, как нейронная сеть учится напрямую сопоставлять запрос пользователя с уникальным идентификатором документа, минуя классические этапы токенизации и инвертированного индекса.

🔍 Классический поиск против Differentiable Search Index 3:19

Традиционный поиск опирается на инвертированные индексы: текст разбивается на токены, для каждого слова создается список упоминаний в документах, а затем система ранжирует их по метрикам вроде BM25. Современный нейронный поиск чаще использует двухэтапную схему: документы и запросы превращаются в векторы (эмбеддинги), а система ищет ближайших соседей в векторном пространстве.

DSI предлагает радикально иной путь:

🛠 Инженерные стратегии и архитектура 16:57

Авторы исследования провели серию экспериментов, чтобы понять, какие параметры влияют на точность индексации.

Методы индексации:

Представление ID документов:

  1. Атомарные (неструктурированные) идентификаторы: Каждому документу присваивается уникальный ID. Это превращает задачу в многоклассовую классификацию.
  2. Наивные строковые идентификаторы: ID представляется в виде последовательности токенов (чисел).
  3. Семантические идентификаторы: Hierarchical Clustering (иерархическая кластеризация) разбивает документы на группы (например, «бытовая техника» -> «холодильники»). Предполагается, что общие префиксы ID помогают модели лучше понимать структуру данных.

📊 Результаты и критика 39:16

Янник Кильхер отмечает, что результаты эксперимента выглядят несколько неоднородными и «шумными», что вызывает вопросы к стабильности метода.

Кильхер скептически относится к использованию DSI в классических поисковиках для миллионов документов. Однако он подчеркивает, что этот подход может стать критически важным для агентов с обучением с подкреплением (reinforcement learning), которым требуется хранить и извлекать информацию в ходе выполнения эпизода.

💬 Цитаты

«Это по сути мем: мы пытались нейрализировать поиск, но всё ещё использовали двухэтапный процесс, а потом подумали: почему бы просто не попросить нейросеть выдать ID документа?»

Янник Кильхер 07:46

«DSI делает что-то необычное, и авторы приложили инженерные усилия, чтобы понять, что работает, а что — нет.»

Янник Кильхер 51:23
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Differentiable Search Index
Метод, при котором задача поиска решается целиком внутри дифференцируемой нейросети без использования внешних индексов.
BM25
Классический алгоритм ранжирования документов, который до сих пор является золотым стандартом для многих поисковых систем.
Dual Encoder
Архитектура, использующая два отдельных энкодера для векторизации запроса и документа с последующим поиском ближайших соседей.
Autoregressive generation
Процесс генерации последовательности, где каждый следующий токен предсказывается на основе предыдущих.
Zero-shot
Способность модели выполнять задачу без предварительного обучения на конкретных примерах для неё.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Differentiable Search Index Transformer Yannic Kilcher T5 Neural Search