Армине Нурбахш: «DocLLM возвращает пространственное мышление в языковые модели»

Подкаст The TWIML AI Podcast представил глубокий разбор архитектуры DocLLM — специализированной языковой модели, разработанной в JP Morgan AI Research для работы со сложными корпоративными документами. Армине Нурбахш, исполнительный директор подразделения AI Research в JP Morgan, рассказала о том, почему стандартные LLM пасуют перед годовыми отчетами и как пространственное внимание меняет правила игры в Document AI.

📄 От одномерного NLP к визуально насыщенному контенту 1:08

Путь Армине Нурбахш в анализе документов начался «по чистой случайности» . Еще в 2006 году, имея бэкграунд в Computer Science и опыт преподавания английского как второго языка (ESL), она получила исследовательскую стипендию в Сингапуре под руководством профессора Криса Ку (Chris Coup). Вместо ожидаемой оптимизации баз данных ей предложили заняться таргетным анализом тональности политических новостей .

Работа в S&P Global и JP Morgan позволила Армине сфокусироваться на нуждах финансового сектора. Основная проблема здесь — огромные объемы неструктурированных данных:

Аналитики вынуждены изучать сотни страниц документации для составления кредитных рейтингов .
Корпоративные документы варьируются от плотных финансовых отчетов (annual reports) до разреженных форм типа инвойсов и налоговых деклараций .
Стандартные подходы, такие как простой OCR (оптическое распознавание символов), не решают задачу, так как игнорируют визуальную структуру документа .

🏗️ Проблемы архитектуры: почему BERT уже недостаточно 5:34

До появления DocLLM в области понимания документов (VDU — Visually Rich Document Understanding) доминировали модели архитектуры «encoder-only» (семейство BERT). По словам Армине Нурбахш, у этого подхода в 2023 году выявились критические ограничения :

Проблема масштабирования данных: Для тонкой настройки (fine-tuning) энкодеров под каждую новую задачу (извлечение данных, классификация и т.д.) требуется огромное количество размеченных данных, которых в индустрии катастрофически не хватает .
Эффект распределения: Модель, обученная на одном типе документов, плохо адаптируется к новым типам верстки, требуя создания сотен отдельных версий для разных бизнес-процессов .
Неэффективность визуальных энкодеров: Многие модели используют тяжелые Vision-трансформеры, адаптированные из задачи классификации обычных изображений. Для документов они избыточны: освещение и цвета здесь стабильны, а вот сетка и структура игнорировались .

В JP Morgan решили пойти по пути создания «фундаментальной модели для документов», используя генеративный подход (decoder-only), аналогичный архитектуре GPT .

🧠 Технические инновации DocLLM 10:46

DocLLM отходит от привычного использования «пикселей» и фокусируется на тексте и пространственной разметке (bounding boxes). Ключевым нововведением стало разделение модальностей.

Пространственное внимание и расцепление (Disentanglement)

Армине Нурбахш утверждает, что простое добавление координат (layout information) к тексту неэффективно. В DocLLM реализовано раздельное моделирование:

Self-attention для верстки: Модель сначала строит «ментальную карту» пространственного расположения блоков независимо от текста. Она понимает, что крупный блок сверху — вероятно, заголовок, вне зависимости от того, что там написано .
Fusion: Только после этого пространственные и текстовые представления объединяются. Благодаря большим скрытым представлениям эти данные остаются «ортогональными», т.е. не вносят шум друг в друга .

Метод Fill-In-the-Middle (FIM) 14:52

Для обучения генеративной модели на небольших датасетах команда использовала модифицированный метод «заполнения середины», предложенный OpenAI в 2022 году. Вместо классического предсказания следующего токена, модель учится восстанавливать пропущенные блоки текста внутри документа, имея доступ и к левому, и к правому контексту .

Армине подчеркивает, что DocLLM обучалась восстанавливать данные на уровне целых семантических блоков (например, адреса или параграфа), а не отдельных слов. Это заставляет модель понимать структуру .

📊 Результаты тестов и «проклятие» таблиц 21:57

Модель тестировалась на 16 различных датасетах (включая DocVQA для визуальных ответов на вопросы и IIT-CDP — коллекцию из 7 млн документов табачной промышленности) по четырем направлениям:

KIE (Key Information Extraction): Извлечение ключевой информации — здесь DocLLM показала лучшие результаты .
VQA (Visual Question Answer): Ответы на вопросы по верстке — результаты на уровне GPT-4 .
Классификация документов.
Tabular Reasoning (Работа с таблицами): Самая сложная зона.

23:43

Работа с таблицами остается «ахиллесовой пятой» всех LLM. По словам Нурбахш, при встрече с таблицей модели нужно мгновенно переключить логику чтения с линейной на колоночную/строчную . DocLLM уступает GPT-4 в сложных вычислениях (например, «на сколько процентов изменилась чистая прибыль с 2022 по 2023 год?»), так как это требует не только пространственного, но и глубокого математического анализа .

⚙️ Эффективность обучения: «Блаженство в малом» 43:51

Обучение DocLLM было на удивление экономичным. Из-за дефицита качественных открытых данных команде не пришлось строить модели на сотни миллиардов параметров.

Базовые архитектуры: Использовались веса Falcon (1B параметров) и Llama 2 (7B параметров).
Инфраструктура: Обучение и настройка заняли всего 8 недель на одной инстанции AWS G5 (с 8 GPU NVIDIA A10G) .
Оптимизация: Применялась библиотека Hugging Face Accelerate и умная упаковка батчей (sample packing), чтобы минимизировать пустые места (padding) без потери качества на документах одного типа .

🔮 Будущие направления и борьба с галлюцинациями 31:56

Армине Нурбахш выделила несколько приоритетных векторов развития проекта:

Заземление (Grounding): Чтобы избежать галлюцинаций, модель должна не просто генерировать ответ, но и подсвечивать координаты (bounding boxes) в документе, откуда взята информация .
Числовые представления: Исследуется возможность представлять числа не как токены, а через «порядки величин», что может упростить для модели понимание масштаба цифр в таблицах .
Сложная визуализация: В будущем в DocLLM планируют вернуть полноценный визуальный сигнал (пиксели) для анализа графиков, диаграмм и инфографики в презентациях для инвесторов .

В завершение команда JP Morgan AI Research анонсировала скорый выпуск набора данных для обучения инструкциям (instruction tuning dataset), что должно помочь другим исследователям в области Document AI .