# Как мультимодальный ИИ извлекает знания из триллионов архивных PDF-файлов

Источник: https://www.youtube.com/watch?v=iOItsOJ1y6o
Канал: The TWIML AI Podcast
Опубликовано: 02.12.2021

---

В новом выпуске подкаста TWIML AI ведущий Сэм Чаррингтон беседует с Дагом Бёрдиком, ведущим научным сотрудником IBM Research. Разговор посвящен одной из самых недооцененных, но критически важных проблем в индустрии искусственного интеллекта — извлечению структурированных данных из «сложных» документов (PDF, сканы), которые изначально создавались для человеческого глаза, а не для машинной обработки.

## 📄 Проблема «застывших данных»: почему PDF — это тупик для ИИ
[[JUMP:02:42]]

По словам Дага Бёрдика, исторически работа его группы в IBM была сосредоточена на NLP (обработке естественного языка) и разрешении сущностей. С данными из интернета (HTML, XML) проблем не возникало, так как они имеют внутреннюю разметку. Однако семь-восемь лет назад перед командой встала задача перенести эти технологии на PDF-документы, и здесь они столкнулись с фундаментальным препятствием [03:06].

Бёрдик подчеркивает, что PDF — это прежде всего архивный формат, предназначенный для визуального отображения. Когда документ (например, из Word) сохраняется в PDF, из него вычищаются все метаданные о структуре [03:20]. Таблица перестает быть набором строк и столбцов, превращаясь в россыпь отдельных символов и графических примитивов (линий). Для машины такая таблица — это просто «набор букв в пространстве». 

Ситуация осложняется масштабами:

*   В мире существует около 4 триллионов PDF-документов [08:28].
*   Ежегодно создаются еще сотни миллиардов новых файлов.
*   Даже если Adobe внедрит новые стандарты метаданных завтра, триллионы «наследуемых» документов останутся нечитаемыми для ИИ без специальной обработки [09:08].

## 🦠 Кейс CORD-19: как таблицы спасали жизни в пандемию
[[JUMP:04:35]]

Реальную ценность технологий извлечения данных Даг иллюстрирует на примере сотрудничества с Институтом ИИ Аллена (AI2) над датасетом CORD-19 [05:01]. Это был корпус из 130 000 научных статей о коронавирусе. Проблема заключалась в том, что исследователи могли извлечь из PDF только «плоский» текст, в то время как ключевая научная информация — результаты экспериментов и протоколы — содержалась в таблицах.

*   **Запрос сообщества:** Извлечение таблиц стало самой востребованной функцией в соревновании на Kaggle на базе этого датасета [07:10].
*   **Решение IBM:** Команда Бёрдика применила свои наработки по идентификации таблиц, позволив ученым анализировать данные в структурированном виде, что значительно ускорило обработку медицинской информации в критический период [06:44].

## 🤖 Мультимодальный подход: когда зрение встречается с текстом
[[JUMP:11:06]]

Бёрдик объясняет, что долгое время сообщество по обработке документов было раздроблено. Одни (специалисты по компьютерному зрению) подходили к PDF как к изображению, пытаясь найти границы объектов [12:00]. Другие (NLP-специалисты) пытались работать только с текстом.

Сегодняшний «золотой стандарт» — это мультимодальные решения. Бёрдик приводит аналогию: даже семилетний ребенок может интуитивно найти таблицу на странице [09:35]. Он делает это на основе визуальных подсказок (выравнивание текста, линии границ). Но чтобы понять сложную таблицу, нужно знать язык. 

По мнению Бёрдика, современные модели должны объединять:

1.  **Визуальные признаки:** разметку, линии, пустое пространство (CNN и детекторы объектов).
2.  **Семантический контекст:** понимание того, что написано в ячейках (на базе BERT или трансформеров) [36:42].

Это необходимо, чтобы отличить реальную таблицу от графика или блока текста, который просто выглядит как таблица.

## 📊 Обучение на гигантах: FinTabNet и PubTabNet
[[JUMP:14:00]]

Для обучения глубоких моделей требуются сотни тысяч примеров. Бёрдик рассказывает, как IBM удалось создать такие датасеты, используя «естественную» разметку в открытых источниках [15:07]:

*   **FinTabNet:** Данные из системы SEC EDGAR. Компании подают отчеты и в структурированном XML, и в PDF. Сопоставив их, IBM получила 80 000 страниц идеально размеченных финансовых таблиц [16:11].
*   **PubTabNet:** Аналогичный подход с базой PubMed, где научные статьи доступны одновременно в PDF и в hand-curated XML-формате [16:35].

Для «таблиц в дикой природе» (счета-фактуры, формы разных компаний) IBM разработала систему **Table Lab** [19:14]. Бёрдик утверждает, что благодаря предварительному обучению на больших данных (pre-training), для адаптации системы к новому специфическому формату (fine-tuning) достаточно разметить всего 10–20 страниц [19:53].

## 🧱 Архитектура пайплайна: от пикселей к знаниям
[[JUMP:23:45]]

Процесс обработки в IBM разделен на два ключевых этапа:

1.  **Конвертация документа:** Извлечение текста (OCR для сканов) и одновременный поиск таблиц. Бёрдик отмечает инновацию их метода (описанного на WACV 2021) — совместное обучение детектора объектов поиску и границ всей таблицы, и отдельных ячеек внутри неё [25:16]. Это работает точнее, чем последовательный поиск.
2.  **Понимание документа (Document Understanding):** Превращение сетки ячеек в логическую структуру. На этом этапе NLP-модели определяют, какая ячейка является заголовком (header), а какая — данными (body cell) [27:03].

Главная сложность здесь — иерархические заголовки. Например, ячейка с числом «280» сама по себе бесполезна. Чтобы превратить её в «факт», ИИ должен понять, что она относится к колонке «Q4 2020», строке «Чистая прибыль» и имеет множитель «в миллионах долларов» [31:43]. В итоге эти данные упаковываются в граф знаний (knowledge graph).

## 📈 Будущее: графики, блок-схемы и новые метрики
[[JUMP:40:54]]

Даг Бёрдик активно критикует стандартные академические метрики. Он указывает на проблему: если в таблице из 100 строк система определит 98 верно, но «отрежет» 2 верхние строки с заголовками, формальная точность составит 98% [42:42]. Однако с точки зрения бизнеса точность такого решения — 0%, так как без заголовков данные в таблице невозможно интерпретировать. Бёрдик призывает индустрию переходить к «функциональным метрикам» [43:20].

Что касается новых горизонтов, исследователь выделяет:

*   **Интерпретация графиков и блок-схем:** Работа над этим уже ведется в IBM Research [34:06]. Цель — превратить визуальный процесс или диаграмму в набор логических фактов.
*   **Сквозное обучение (End-to-end):** Переход от жестких пайплайнов к моделям, которые могут обмениваться информацией между этапами (например, понимание текста помогает уточнить границы таблицы) [48:25].
*   **Петля обратной связи:** Возможность для пользователя исправить конечный факт, после чего система сама «прокатит» это исправление назад по всему пайплайну, чтобы понять, на каком этапе (OCR, детекция ячеек или семантика) произошла ошибка [47:33].