Подкаст The TWIML AI Podcast представил глубокий разбор архитектуры DocLLM — специализированной языковой модели, разработанной в JP Morgan AI Research для работы со сложными корпоративными документами. Армине Нурбахш, исполнительный директор подразделения AI Research в JP Morgan, рассказала о том, почему стандартные LLM пасуют перед годовыми отчетами и как пространственное внимание меняет правила игры в Document AI.
📄 От одномерного NLP к визуально насыщенному контенту 1:08
Путь Армине Нурбахш в анализе документов начался «по чистой случайности» . Еще в 2006 году, имея бэкграунд в Computer Science и опыт преподавания английского как второго языка (ESL), она получила исследовательскую стипендию в Сингапуре под руководством профессора Криса Ку (Chris Coup). Вместо ожидаемой оптимизации баз данных ей предложили заняться таргетным анализом тональности политических новостей .
Работа в S&P Global и JP Morgan позволила Армине сфокусироваться на нуждах финансового сектора. Основная проблема здесь — огромные объемы неструктурированных данных:
- Аналитики вынуждены изучать сотни страниц документации для составления кредитных рейтингов .
- Корпоративные документы варьируются от плотных финансовых отчетов (annual reports) до разреженных форм типа инвойсов и налоговых деклараций .
- Стандартные подходы, такие как простой OCR (оптическое распознавание символов), не решают задачу, так как игнорируют визуальную структуру документа .
🏗️ Проблемы архитектуры: почему BERT уже недостаточно 5:34
До появления DocLLM в области понимания документов (VDU — Visually Rich Document Understanding) доминировали модели архитектуры «encoder-only» (семейство BERT). По словам Армине Нурбахш, у этого подхода в 2023 году выявились критические ограничения :
- Проблема масштабирования данных: Для тонкой настройки (fine-tuning) энкодеров под каждую новую задачу (извлечение данных, классификация и т.д.) требуется огромное количество размеченных данных, которых в индустрии катастрофически не хватает .
- Эффект распределения: Модель, обученная на одном типе документов, плохо адаптируется к новым типам верстки, требуя создания сотен отдельных версий для разных бизнес-процессов .
- Неэффективность визуальных энкодеров: Многие модели используют тяжелые Vision-трансформеры, адаптированные из задачи классификации обычных изображений. Для документов они избыточны: освещение и цвета здесь стабильны, а вот сетка и структура игнорировались .
В JP Morgan решили пойти по пути создания «фундаментальной модели для документов», используя генеративный подход (decoder-only), аналогичный архитектуре GPT .
🧠 Технические инновации DocLLM 10:46
DocLLM отходит от привычного использования «пикселей» и фокусируется на тексте и пространственной разметке (bounding boxes). Ключевым нововведением стало разделение модальностей.
Пространственное внимание и расцепление (Disentanglement)
Армине Нурбахш утверждает, что простое добавление координат (layout information) к тексту неэффективно. В DocLLM реализовано раздельное моделирование:
- Self-attention для верстки: Модель сначала строит «ментальную карту» пространственного расположения блоков независимо от текста. Она понимает, что крупный блок сверху — вероятно, заголовок, вне зависимости от того, что там написано .
- Fusion: Только после этого пространственные и текстовые представления объединяются. Благодаря большим скрытым представлениям эти данные остаются «ортогональными», т.е. не вносят шум друг в друга .
Метод Fill-In-the-Middle (FIM) 14:52
Для обучения генеративной модели на небольших датасетах команда использовала модифицированный метод «заполнения середины», предложенный OpenAI в 2022 году. Вместо классического предсказания следующего токена, модель учится восстанавливать пропущенные блоки текста внутри документа, имея доступ и к левому, и к правому контексту .
Армине подчеркивает, что DocLLM обучалась восстанавливать данные на уровне целых семантических блоков (например, адреса или параграфа), а не отдельных слов. Это заставляет модель понимать структуру .
📊 Результаты тестов и «проклятие» таблиц 21:57
Модель тестировалась на 16 различных датасетах (включая DocVQA для визуальных ответов на вопросы и IIT-CDP — коллекцию из 7 млн документов табачной промышленности) по четырем направлениям:
- KIE (Key Information Extraction): Извлечение ключевой информации — здесь DocLLM показала лучшие результаты .
- VQA (Visual Question Answer): Ответы на вопросы по верстке — результаты на уровне GPT-4 .
- Классификация документов.
- Tabular Reasoning (Работа с таблицами): Самая сложная зона.
Работа с таблицами остается «ахиллесовой пятой» всех LLM. По словам Нурбахш, при встрече с таблицей модели нужно мгновенно переключить логику чтения с линейной на колоночную/строчную . DocLLM уступает GPT-4 в сложных вычислениях (например, «на сколько процентов изменилась чистая прибыль с 2022 по 2023 год?»), так как это требует не только пространственного, но и глубокого математического анализа .
⚙️ Эффективность обучения: «Блаженство в малом» 43:51
Обучение DocLLM было на удивление экономичным. Из-за дефицита качественных открытых данных команде не пришлось строить модели на сотни миллиардов параметров.
- Базовые архитектуры: Использовались веса Falcon (1B параметров) и Llama 2 (7B параметров).
- Инфраструктура: Обучение и настройка заняли всего 8 недель на одной инстанции AWS G5 (с 8 GPU NVIDIA A10G) .
- Оптимизация: Применялась библиотека Hugging Face Accelerate и умная упаковка батчей (sample packing), чтобы минимизировать пустые места (padding) без потери качества на документах одного типа .
🔮 Будущие направления и борьба с галлюцинациями 31:56
Армине Нурбахш выделила несколько приоритетных векторов развития проекта:
- Заземление (Grounding): Чтобы избежать галлюцинаций, модель должна не просто генерировать ответ, но и подсвечивать координаты (bounding boxes) в документе, откуда взята информация .
- Числовые представления: Исследуется возможность представлять числа не как токены, а через «порядки величин», что может упростить для модели понимание масштаба цифр в таблицах .
- Сложная визуализация: В будущем в DocLLM планируют вернуть полноценный визуальный сигнал (пиксели) для анализа графиков, диаграмм и инфографики в презентациях для инвесторов .
В завершение команда JP Morgan AI Research анонсировала скорый выпуск набора данных для обучения инструкциям (instruction tuning dataset), что должно помочь другим исследователям в области Document AI .