Армине Нурбахш: «DocLLM возвращает пространственное мышление в языковые модели»

The TWIML AI Podcast 1,8 тыс. 46 мин 4 мин 19.02.2024
Главное

Подкаст The TWIML AI Podcast представил глубокий разбор архитектуры DocLLM — специализированной языковой модели, разработанной в JP Morgan AI Research для работы со сложными корпоративными документами. Армине Нурбахш, исполнительный директор подразделения AI Research в JP Morgan, рассказала о том, почему стандартные LLM пасуют перед годовыми отчетами и как пространственное внимание меняет правила игры в Document AI.

📄 От одномерного NLP к визуально насыщенному контенту 1:08

Путь Армине Нурбахш в анализе документов начался «по чистой случайности» . Еще в 2006 году, имея бэкграунд в Computer Science и опыт преподавания английского как второго языка (ESL), она получила исследовательскую стипендию в Сингапуре под руководством профессора Криса Ку (Chris Coup). Вместо ожидаемой оптимизации баз данных ей предложили заняться таргетным анализом тональности политических новостей .

Работа в S&P Global и JP Morgan позволила Армине сфокусироваться на нуждах финансового сектора. Основная проблема здесь — огромные объемы неструктурированных данных:

🏗️ Проблемы архитектуры: почему BERT уже недостаточно 5:34

До появления DocLLM в области понимания документов (VDU — Visually Rich Document Understanding) доминировали модели архитектуры «encoder-only» (семейство BERT). По словам Армине Нурбахш, у этого подхода в 2023 году выявились критические ограничения :

  1. Проблема масштабирования данных: Для тонкой настройки (fine-tuning) энкодеров под каждую новую задачу (извлечение данных, классификация и т.д.) требуется огромное количество размеченных данных, которых в индустрии катастрофически не хватает .
  2. Эффект распределения: Модель, обученная на одном типе документов, плохо адаптируется к новым типам верстки, требуя создания сотен отдельных версий для разных бизнес-процессов .
  3. Неэффективность визуальных энкодеров: Многие модели используют тяжелые Vision-трансформеры, адаптированные из задачи классификации обычных изображений. Для документов они избыточны: освещение и цвета здесь стабильны, а вот сетка и структура игнорировались .

В JP Morgan решили пойти по пути создания «фундаментальной модели для документов», используя генеративный подход (decoder-only), аналогичный архитектуре GPT .

🧠 Технические инновации DocLLM 10:46

DocLLM отходит от привычного использования «пикселей» и фокусируется на тексте и пространственной разметке (bounding boxes). Ключевым нововведением стало разделение модальностей.

Пространственное внимание и расцепление (Disentanglement)

Армине Нурбахш утверждает, что простое добавление координат (layout information) к тексту неэффективно. В DocLLM реализовано раздельное моделирование:

Метод Fill-In-the-Middle (FIM) 14:52

Для обучения генеративной модели на небольших датасетах команда использовала модифицированный метод «заполнения середины», предложенный OpenAI в 2022 году. Вместо классического предсказания следующего токена, модель учится восстанавливать пропущенные блоки текста внутри документа, имея доступ и к левому, и к правому контексту .

Армине подчеркивает, что DocLLM обучалась восстанавливать данные на уровне целых семантических блоков (например, адреса или параграфа), а не отдельных слов. Это заставляет модель понимать структуру .

📊 Результаты тестов и «проклятие» таблиц 21:57

Модель тестировалась на 16 различных датасетах (включая DocVQA для визуальных ответов на вопросы и IIT-CDP — коллекцию из 7 млн документов табачной промышленности) по четырем направлениям:

  1. KIE (Key Information Extraction): Извлечение ключевой информации — здесь DocLLM показала лучшие результаты .
  2. VQA (Visual Question Answer): Ответы на вопросы по верстке — результаты на уровне GPT-4 .
  3. Классификация документов.
  4. Tabular Reasoning (Работа с таблицами): Самая сложная зона.

23:43

Работа с таблицами остается «ахиллесовой пятой» всех LLM. По словам Нурбахш, при встрече с таблицей модели нужно мгновенно переключить логику чтения с линейной на колоночную/строчную . DocLLM уступает GPT-4 в сложных вычислениях (например, «на сколько процентов изменилась чистая прибыль с 2022 по 2023 год?»), так как это требует не только пространственного, но и глубокого математического анализа .

⚙️ Эффективность обучения: «Блаженство в малом» 43:51

Обучение DocLLM было на удивление экономичным. Из-за дефицита качественных открытых данных команде не пришлось строить модели на сотни миллиардов параметров.

🔮 Будущие направления и борьба с галлюцинациями 31:56

Армине Нурбахш выделила несколько приоритетных векторов развития проекта:

В завершение команда JP Morgan AI Research анонсировала скорый выпуск набора данных для обучения инструкциям (instruction tuning dataset), что должно помочь другим исследователям в области Document AI .

💬 Цитаты

«Если у вас есть одна предобученная модель и 200 задач, вам приходится создавать 200 отдельных версий. Мы же хотели создать фундаментальную модель с единым интерфейсом промптов.»

Армине Нурбахш 00:00

«Визуальные энкодеры часто неэффективны в документах — они потребляют ресурсы, но модель всё равно продолжает полагаться преимущественно на текст.»

Армине Нурбахш 09:53
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
VDU (Visually Rich Document Understanding)
Область ИИ, занимающаяся пониманием документов, где смысл зависит от визуального расположения элементов.
KIE (Key Information Extraction)
Задача по извлечению конкретных данных из текста, например, дат, сумм или имен.
Bounding box
Координаты прямоугольника, описывающего положение слова или блока на странице.
Fill-In-the-Middle (FIM)
Метод обучения, при котором модель должна восстановить пропущенный кусок текста в середине предложения или абзаца.
📊 Цифры
🗓 Хронология
  1. 2006 Армине Нурбахш начала заниматься анализом тональности новостей в Сингапуре.
  2. весна 2023 Начало разработки DocLLM после успеха ChatGPT.
  3. 2023 Публикация работы по DocLLM и сравнение результатов с GPT-4.
⚖️ Другая сторона
Искусственный интеллект DocLLM Армине Нурбахш JP Morgan AI Research Document AI Llama 2