Как мультимодальный ИИ извлекает знания из триллионов архивных PDF-файлов

The TWIML AI Podcast 547 49 мин 4 мин 02.12.2021
Главное

В новом выпуске подкаста TWIML AI ведущий Сэм Чаррингтон беседует с Дагом Бёрдиком, ведущим научным сотрудником IBM Research. Разговор посвящен одной из самых недооцененных, но критически важных проблем в индустрии искусственного интеллекта — извлечению структурированных данных из «сложных» документов (PDF, сканы), которые изначально создавались для человеческого глаза, а не для машинной обработки.

📄 Проблема «застывших данных»: почему PDF — это тупик для ИИ 2:42

По словам Дага Бёрдика, исторически работа его группы в IBM была сосредоточена на NLP (обработке естественного языка) и разрешении сущностей. С данными из интернета (HTML, XML) проблем не возникало, так как они имеют внутреннюю разметку. Однако семь-восемь лет назад перед командой встала задача перенести эти технологии на PDF-документы, и здесь они столкнулись с фундаментальным препятствием .

Бёрдик подчеркивает, что PDF — это прежде всего архивный формат, предназначенный для визуального отображения. Когда документ (например, из Word) сохраняется в PDF, из него вычищаются все метаданные о структуре . Таблица перестает быть набором строк и столбцов, превращаясь в россыпь отдельных символов и графических примитивов (линий). Для машины такая таблица — это просто «набор букв в пространстве».

Ситуация осложняется масштабами:

🦠 Кейс CORD-19: как таблицы спасали жизни в пандемию 4:35

Реальную ценность технологий извлечения данных Даг иллюстрирует на примере сотрудничества с Институтом ИИ Аллена (AI2) над датасетом CORD-19 . Это был корпус из 130 000 научных статей о коронавирусе. Проблема заключалась в том, что исследователи могли извлечь из PDF только «плоский» текст, в то время как ключевая научная информация — результаты экспериментов и протоколы — содержалась в таблицах.

🤖 Мультимодальный подход: когда зрение встречается с текстом 11:06

Бёрдик объясняет, что долгое время сообщество по обработке документов было раздроблено. Одни (специалисты по компьютерному зрению) подходили к PDF как к изображению, пытаясь найти границы объектов . Другие (NLP-специалисты) пытались работать только с текстом.

Сегодняшний «золотой стандарт» — это мультимодальные решения. Бёрдик приводит аналогию: даже семилетний ребенок может интуитивно найти таблицу на странице . Он делает это на основе визуальных подсказок (выравнивание текста, линии границ). Но чтобы понять сложную таблицу, нужно знать язык.

По мнению Бёрдика, современные модели должны объединять:

  1. Визуальные признаки: разметку, линии, пустое пространство (CNN и детекторы объектов).
  2. Семантический контекст: понимание того, что написано в ячейках (на базе BERT или трансформеров) .

Это необходимо, чтобы отличить реальную таблицу от графика или блока текста, который просто выглядит как таблица.

📊 Обучение на гигантах: FinTabNet и PubTabNet 14:00

Для обучения глубоких моделей требуются сотни тысяч примеров. Бёрдик рассказывает, как IBM удалось создать такие датасеты, используя «естественную» разметку в открытых источниках :

Для «таблиц в дикой природе» (счета-фактуры, формы разных компаний) IBM разработала систему Table Lab . Бёрдик утверждает, что благодаря предварительному обучению на больших данных (pre-training), для адаптации системы к новому специфическому формату (fine-tuning) достаточно разметить всего 10–20 страниц .

🧱 Архитектура пайплайна: от пикселей к знаниям 23:45

Процесс обработки в IBM разделен на два ключевых этапа:

  1. Конвертация документа: Извлечение текста (OCR для сканов) и одновременный поиск таблиц. Бёрдик отмечает инновацию их метода (описанного на WACV 2021) — совместное обучение детектора объектов поиску и границ всей таблицы, и отдельных ячеек внутри неё . Это работает точнее, чем последовательный поиск.
  2. Понимание документа (Document Understanding): Превращение сетки ячеек в логическую структуру. На этом этапе NLP-модели определяют, какая ячейка является заголовком (header), а какая — данными (body cell) .

Главная сложность здесь — иерархические заголовки. Например, ячейка с числом «280» сама по себе бесполезна. Чтобы превратить её в «факт», ИИ должен понять, что она относится к колонке «Q4 2020», строке «Чистая прибыль» и имеет множитель «в миллионах долларов» . В итоге эти данные упаковываются в граф знаний (knowledge graph).

📈 Будущее: графики, блок-схемы и новые метрики 40:54

Даг Бёрдик активно критикует стандартные академические метрики. Он указывает на проблему: если в таблице из 100 строк система определит 98 верно, но «отрежет» 2 верхние строки с заголовками, формальная точность составит 98% . Однако с точки зрения бизнеса точность такого решения — 0%, так как без заголовков данные в таблице невозможно интерпретировать. Бёрдик призывает индустрию переходить к «функциональным метрикам» .

Что касается новых горизонтов, исследователь выделяет:

💬 Цитаты

«Если я отрежу верхние две строки в таблице из ста строк, точность будет 98%, но полезность для бизнеса — ноль, так как контекст потерян.»

Даг Бёрдик 42:42

«Мы должны относиться к PDF как к изображению, потому что в нем нет метаданных о структуре.»

Даг Бёрдик 09:35
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
PDF
Формат электронных документов, предназначенный для представления в неизменном виде независимо от устройства.
OCR
Технология оптического распознавания символов, превращающая изображения текста в машиночитаемый текст.
Трансформеры
Тип архитектуры нейронных сетей, который лучше всего справляется с пониманием контекста в тексте.
Fine-tuning
Дообучение уже готовой большой модели на небольшом количестве специфических данных.
📊 Цифры
🗓 Хронология
  1. 7-8 лет назад Команда IBM Research начала заниматься проблемой извлечения данных из PDF.
  2. 2020 Сотрудничество с AI2 по проекту CORD-19 для борьбы с пандемией.
  3. 2021 Публикация научной работы по Table Lab на конференции IUI и по экстракции таблиц на WACV.
⚖️ Другая сторона
Искусственный интеллект Doug Burdick IBM Research PDF conversion Multimodal Learning Table Lab