Как мультимодальный ИИ извлекает знания из триллионов архивных PDF-файлов

В новом выпуске подкаста TWIML AI ведущий Сэм Чаррингтон беседует с Дагом Бёрдиком, ведущим научным сотрудником IBM Research. Разговор посвящен одной из самых недооцененных, но критически важных проблем в индустрии искусственного интеллекта — извлечению структурированных данных из «сложных» документов (PDF, сканы), которые изначально создавались для человеческого глаза, а не для машинной обработки.

📄 Проблема «застывших данных»: почему PDF — это тупик для ИИ 2:42

По словам Дага Бёрдика, исторически работа его группы в IBM была сосредоточена на NLP (обработке естественного языка) и разрешении сущностей. С данными из интернета (HTML, XML) проблем не возникало, так как они имеют внутреннюю разметку. Однако семь-восемь лет назад перед командой встала задача перенести эти технологии на PDF-документы, и здесь они столкнулись с фундаментальным препятствием .

Бёрдик подчеркивает, что PDF — это прежде всего архивный формат, предназначенный для визуального отображения. Когда документ (например, из Word) сохраняется в PDF, из него вычищаются все метаданные о структуре . Таблица перестает быть набором строк и столбцов, превращаясь в россыпь отдельных символов и графических примитивов (линий). Для машины такая таблица — это просто «набор букв в пространстве».

Ситуация осложняется масштабами:

В мире существует около 4 триллионов PDF-документов .
Ежегодно создаются еще сотни миллиардов новых файлов.
Даже если Adobe внедрит новые стандарты метаданных завтра, триллионы «наследуемых» документов останутся нечитаемыми для ИИ без специальной обработки .

🦠 Кейс CORD-19: как таблицы спасали жизни в пандемию 4:35

Реальную ценность технологий извлечения данных Даг иллюстрирует на примере сотрудничества с Институтом ИИ Аллена (AI2) над датасетом CORD-19 . Это был корпус из 130 000 научных статей о коронавирусе. Проблема заключалась в том, что исследователи могли извлечь из PDF только «плоский» текст, в то время как ключевая научная информация — результаты экспериментов и протоколы — содержалась в таблицах.

Запрос сообщества: Извлечение таблиц стало самой востребованной функцией в соревновании на Kaggle на базе этого датасета .
Решение IBM: Команда Бёрдика применила свои наработки по идентификации таблиц, позволив ученым анализировать данные в структурированном виде, что значительно ускорило обработку медицинской информации в критический период .

🤖 Мультимодальный подход: когда зрение встречается с текстом 11:06

Бёрдик объясняет, что долгое время сообщество по обработке документов было раздроблено. Одни (специалисты по компьютерному зрению) подходили к PDF как к изображению, пытаясь найти границы объектов . Другие (NLP-специалисты) пытались работать только с текстом.

Сегодняшний «золотой стандарт» — это мультимодальные решения. Бёрдик приводит аналогию: даже семилетний ребенок может интуитивно найти таблицу на странице . Он делает это на основе визуальных подсказок (выравнивание текста, линии границ). Но чтобы понять сложную таблицу, нужно знать язык.

По мнению Бёрдика, современные модели должны объединять:

Визуальные признаки: разметку, линии, пустое пространство (CNN и детекторы объектов).
Семантический контекст: понимание того, что написано в ячейках (на базе BERT или трансформеров) .

Это необходимо, чтобы отличить реальную таблицу от графика или блока текста, который просто выглядит как таблица.

📊 Обучение на гигантах: FinTabNet и PubTabNet 14:00

Для обучения глубоких моделей требуются сотни тысяч примеров. Бёрдик рассказывает, как IBM удалось создать такие датасеты, используя «естественную» разметку в открытых источниках :

FinTabNet: Данные из системы SEC EDGAR. Компании подают отчеты и в структурированном XML, и в PDF. Сопоставив их, IBM получила 80 000 страниц идеально размеченных финансовых таблиц .
PubTabNet: Аналогичный подход с базой PubMed, где научные статьи доступны одновременно в PDF и в hand-curated XML-формате .

Для «таблиц в дикой природе» (счета-фактуры, формы разных компаний) IBM разработала систему Table Lab . Бёрдик утверждает, что благодаря предварительному обучению на больших данных (pre-training), для адаптации системы к новому специфическому формату (fine-tuning) достаточно разметить всего 10–20 страниц .

🧱 Архитектура пайплайна: от пикселей к знаниям 23:45

Процесс обработки в IBM разделен на два ключевых этапа:

Конвертация документа: Извлечение текста (OCR для сканов) и одновременный поиск таблиц. Бёрдик отмечает инновацию их метода (описанного на WACV 2021) — совместное обучение детектора объектов поиску и границ всей таблицы, и отдельных ячеек внутри неё . Это работает точнее, чем последовательный поиск.
Понимание документа (Document Understanding): Превращение сетки ячеек в логическую структуру. На этом этапе NLP-модели определяют, какая ячейка является заголовком (header), а какая — данными (body cell) .

Главная сложность здесь — иерархические заголовки. Например, ячейка с числом «280» сама по себе бесполезна. Чтобы превратить её в «факт», ИИ должен понять, что она относится к колонке «Q4 2020», строке «Чистая прибыль» и имеет множитель «в миллионах долларов» . В итоге эти данные упаковываются в граф знаний (knowledge graph).

📈 Будущее: графики, блок-схемы и новые метрики 40:54

Даг Бёрдик активно критикует стандартные академические метрики. Он указывает на проблему: если в таблице из 100 строк система определит 98 верно, но «отрежет» 2 верхние строки с заголовками, формальная точность составит 98% . Однако с точки зрения бизнеса точность такого решения — 0%, так как без заголовков данные в таблице невозможно интерпретировать. Бёрдик призывает индустрию переходить к «функциональным метрикам» .

Что касается новых горизонтов, исследователь выделяет:

Интерпретация графиков и блок-схем: Работа над этим уже ведется в IBM Research . Цель — превратить визуальный процесс или диаграмму в набор логических фактов.
Сквозное обучение (End-to-end): Переход от жестких пайплайнов к моделям, которые могут обмениваться информацией между этапами (например, понимание текста помогает уточнить границы таблицы) .
Петля обратной связи: Возможность для пользователя исправить конечный факт, после чего система сама «прокатит» это исправление назад по всему пайплайну, чтобы понять, на каком этапе (OCR, детекция ячеек или семантика) произошла ошибка .