# Армине Нурбахш: «DocLLM возвращает пространственное мышление в языковые модели»

Источник: https://www.youtube.com/watch?v=PZ6xwfLEueQ
Канал: The TWIML AI Podcast
Опубликовано: 19.02.2024

---

Подкаст **The TWIML AI Podcast** представил глубокий разбор архитектуры **DocLLM** — специализированной языковой модели, разработанной в JP Morgan AI Research для работы со сложными корпоративными документами. **Армине Нурбахш**, исполнительный директор подразделения AI Research в JP Morgan, рассказала о том, почему стандартные LLM пасуют перед годовыми отчетами и как пространственное внимание меняет правила игры в Document AI.

## 📄 От одномерного NLP к визуально насыщенному контенту
[[JUMP:01:08]]

Путь Армине Нурбахш в анализе документов начался «по чистой случайности» [01:08]. Еще в 2006 году, имея бэкграунд в Computer Science и опыт преподавания английского как второго языка (ESL), она получила исследовательскую стипендию в Сингапуре под руководством профессора Криса Ку (Chris Coup). Вместо ожидаемой оптимизации баз данных ей предложили заняться таргетным анализом тональности политических новостей [01:46].

Работа в S&P Global и JP Morgan позволила Армине сфокусироваться на нуждах финансового сектора. Основная проблема здесь — огромные объемы неструктурированных данных:

*   Аналитики вынуждены изучать сотни страниц документации для составления кредитных рейтингов [02:53].
*   Корпоративные документы варьируются от плотных финансовых отчетов (annual reports) до разреженных форм типа инвойсов и налоговых деклараций [04:00].
*   Стандартные подходы, такие как простой OCR (оптическое распознавание символов), не решают задачу, так как игнорируют визуальную структуру документа [04:41].

## 🏗️ Проблемы архитектуры: почему BERT уже недостаточно
[[JUMP:05:34]]

До появления DocLLM в области понимания документов (VDU — Visually Rich Document Understanding) доминировали модели архитектуры «encoder-only» (семейство BERT). По словам Армине Нурбахш, у этого подхода в 2023 году выявились критические ограничения [05:34]:

1.  **Проблема масштабирования данных:** Для тонкой настройки (fine-tuning) энкодеров под каждую новую задачу (извлечение данных, классификация и т.д.) требуется огромное количество размеченных данных, которых в индустрии катастрофически не хватает [07:16].
2.  **Эффект распределения:** Модель, обученная на одном типе документов, плохо адаптируется к новым типам верстки, требуя создания сотен отдельных версий для разных бизнес-процессов [07:29].
3.  **Неэффективность визуальных энкодеров:** Многие модели используют тяжелые Vision-трансформеры, адаптированные из задачи классификации обычных изображений. Для документов они избыточны: освещение и цвета здесь стабильны, а вот сетка и структура игнорировались [09:53].

В JP Morgan решили пойти по пути создания «фундаментальной модели для документов», используя генеративный подход (decoder-only), аналогичный архитектуре GPT [07:54].

## 🧠 Технические инновации DocLLM
[[JUMP:10:46]]

DocLLM отходит от привычного использования «пикселей» и фокусируется на тексте и пространственной разметке (bounding boxes). Ключевым нововведением стало разделение модальностей.

### Пространственное внимание и расцепление (Disentanglement)
Армине Нурбахш утверждает, что простое добавление координат (layout information) к тексту неэффективно. В DocLLM реализовано раздельное моделирование:

*   **Self-attention для верстки:** Модель сначала строит «ментальную карту» пространственного расположения блоков независимо от текста. Она понимает, что крупный блок сверху — вероятно, заголовок, вне зависимости от того, что там написано [11:48][39:26].
*   **Fusion:** Только после этого пространственные и текстовые представления объединяются. Благодаря большим скрытым представлениям эти данные остаются «ортогональными», т.е. не вносят шум друг в друга [40:19].

### Метод Fill-In-the-Middle (FIM)
[[JUMP:14:52]]
Для обучения генеративной модели на небольших датасетах команда использовала модифицированный метод «заполнения середины», предложенный OpenAI в 2022 году. Вместо классического предсказания следующего токена, модель учится восстанавливать пропущенные блоки текста внутри документа, имея доступ и к левому, и к правому контексту [15:18]. 

Армине подчеркивает, что DocLLM обучалась восстанавливать данные на уровне целых семантических блоков (например, адреса или параграфа), а не отдельных слов. Это заставляет модель понимать структуру [16:23].

## 📊 Результаты тестов и «проклятие» таблиц
[[JUMP:21:57]]

Модель тестировалась на 16 различных датасетах (включая DocVQA для визуальных ответов на вопросы и IIT-CDP — коллекцию из 7 млн документов табачной промышленности) по четырем направлениям:

1.  **KIE (Key Information Extraction):** Извлечение ключевой информации — здесь DocLLM показала лучшие результаты [23:55].
2.  **VQA (Visual Question Answer):** Ответы на вопросы по верстке — результаты на уровне GPT-4 [24:07].
3.  **Классификация документов.**
4.  **Tabular Reasoning (Работа с таблицами):** Самая сложная зона.

[[JUMP:23:43]]
Работа с таблицами остается «ахиллесовой пятой» всех LLM. По словам Нурбахш, при встрече с таблицей модели нужно мгновенно переключить логику чтения с линейной на колоночную/строчную [23:30]. DocLLM уступает GPT-4 в сложных вычислениях (например, «на сколько процентов изменилась чистая прибыль с 2022 по 2023 год?»), так как это требует не только пространственного, но и глубокого математического анализа [25:25].

## ⚙️ Эффективность обучения: «Блаженство в малом»
[[JUMP:43:51]]

Обучение DocLLM было на удивление экономичным. Из-за дефицита качественных открытых данных команде не пришлось строить модели на сотни миллиардов параметров.

*   **Базовые архитектуры:** Использовались веса Falcon (1B параметров) и Llama 2 (7B параметров).
*   **Инфраструктура:** Обучение и настройка заняли всего **8 недель** на одной инстанции AWS G5 (с 8 GPU NVIDIA A10G) [45:25].
*   **Оптимизация:** Применялась библиотека *Hugging Face Accelerate* и умная упаковка батчей (sample packing), чтобы минимизировать пустые места (padding) без потери качества на документах одного типа [44:31][45:10].

## 🔮 Будущие направления и борьба с галлюцинациями
[[JUMP:31:56]]

Армине Нурбахш выделила несколько приоритетных векторов развития проекта:

*   **Заземление (Grounding):** Чтобы избежать галлюцинаций, модель должна не просто генерировать ответ, но и подсвечивать координаты (bounding boxes) в документе, откуда взята информация [34:21].
*   **Числовые представления:** Исследуется возможность представлять числа не как токены, а через «порядки величин», что может упростить для модели понимание масштаба цифр в таблицах [36:07].
*   **Сложная визуализация:** В будущем в DocLLM планируют вернуть полноценный визуальный сигнал (пиксели) для анализа графиков, диаграмм и инфографики в презентациях для инвесторов [37:53].

В завершение команда JP Morgan AI Research анонсировала скорый выпуск набора данных для обучения инструкциям (instruction tuning dataset), что должно помочь другим исследователям в области Document AI [46:05].