В рамках конференции AI Dev 25 в Нью-Йорке представители компании Landing AI представили инновационную платформу Agentic Document Extraction (ADE). Дэвид Пак и Эмили рассказали о том, как агентный подход в искусственном интеллекте меняет работу с неструктурированными данными в финансовом секторе, позволяя автоматизировать сложнейшие процессы — от проверки клиентов (KYC) до одобрения кредитов.
🤖 Новая эра извлечения данных: Платформа ADE 0:07
Дэвид Пак, руководитель группы прикладного проектирования ИИ в Landing AI, представил Agentic Document Extraction (ADE) — ориентированную на разработчиков платформу корпоративного уровня . В отличие от традиционных OCR-систем (оптического распознавания символов), ADE построена на принципах агентного ИИ и мультимодальности.
Ключевые особенности архитектуры платформы:
- Фундаментальный слой: Использование специализированных трансформеров (Document Pre-trained Transformers), обученных специфике верстки документов, таблиц, графиков и сложных диаграмм .
- Слой парсинга: Перевод визуальной информации в машиночитаемые форматы JSON и Markdown с сохранением логических связей и структуры .
- Агентное мышление: Система не просто считывает текст, но применяет логику и контекст для решения проблем, возникающих при обработке визуально насыщенного контента .
- Слой приложений: Инструменты для классификации, разделения документов и извлечения полей, которые интегрируются в конкретные бизнес-процессы заказчиков .
Дэвид особо подчеркнул роль основателя компании, доктора Эндрю Ына (Andrew Ng), который активно курирует R&D-направление . Его подход, ориентированный на данные (data-centric AI), позволяет системе постоянно совершенствоваться по мере обработки миллиардов изображений и документов .
🏦 Кейс в финансовом секторе: Автоматизация KYC и кредитования 8:44
Одним из наиболее ярким примеров внедрения ADE стала работа с крупнейшим финансовым институтом в области процедур «Знай своего клиента» (Know Your Customer, KYC). Ранее тысячи аналитиков вручную проверяли банковские выписки, учредительные документы и налоговые декларации .
Результаты внедрения ADE оказались значительными:
- На 70% сократился объем ручного труда при проверке документов .
- Минимизация рисков: Снизилась вероятность ошибок, приводящих к огромным регуляторным штрафам .
- Масштабируемость: Сейчас банк расширяет систему на управление капиталом и периодические проверки клиентов .
Еще один сценарий — обработка кредитной заявки . Обычно кредитный офицер получает «сборную посылку» (loan packet) в одном PDF: расчетные листки, форму W-2, выписки по счету и удостоверения личности. Раньше аналитикам приходилось вручную искать нужные разделы и перебивать данные.
ADE полностью автоматизирует этот процесс:
- Классификация и сплиттинг: Система понимает, где заканчивается паспорт и начинается выписка .
- Извлечение по схеме: Для каждого типа документа применяется своя «схема» (например, только Gross Pay и Net Pay для расчетного листка) .
- Визуальное обоснование (Visual Grounding): Каждое извлеченное значение привязано к конкретным координатам в исходном документе, что критично для аудита .
💻 Техническая демонстрация и возможности API 13:31
В ходе демонстрации на примере документов Fidelity Дэвид показал, как система справляется со сложными таблицами . Главная проблема LLM при работе с документами — непонимание пространственного расположения. ADE понимает иерархию (родительские и дочерние строки за счет отступов) «из коробки» .
Технические возможности платформы включают:
- Parse API: Превращает весь документ в Markdown или JSON.
- Field Extraction API: Позволяет извлекать данные по заданному описанию, используя возможности «промпт-инжиниринга для полей» .
- Zero-shot подход: Платформа не требует обучения на шаблонах конкретного клиента — она понимает структуру новых документов сразу .
- Интеграция с RAG: Данные можно векторизовать, сохранять в базах (например, ChromaDB) и создавать чат-ботов для общения с документами на естественном языке .
Дэвид продемонстрировал Python-библиотеку, доступную в GitHub-репозитории Landing AI . Она позволяет визуализировать те самые «кропы» (вырезанные фрагменты изображения) рядом с извлеченными данными. Это помогает аналитикам мгновенно проверить корректность работы ИИ, видя конкретную ячейку таблицы прямо в интерфейсе своей системы .
🛡️ Безопасность и оценка точности 26:10
По вопросам надежности Дэвид Пак привел впечатляющие данные тестов. На стандартном датасете DocVQA современные state-of-the-art модели (VLM и OCR на базе глубокого обучения) показывают точность в районе 90–95%, в то время как решение Landing AI достигает более 99% точности .
Вопросы безопасности в корпоративной среде решены за счет:
- Stateless архитектуры: Данные не хранятся на серверах Landing AI после обработки (Zero Data Retention) .
- Гибкого деплоя: Платформу можно развернуть как в облаке (SaaS, Private Link), так и на собственных серверах заказчика (On-premise / Bare metal) .
- Комплаенса: Полное соответствие стандартам HIPAA и GDPR .
Эмили, курирующая программу для разработчиков (Builders Program), добавила, что сейчас Landing AI активно поддерживает сообщество, предоставляя ранний доступ к инструментам и помощь во внедрении . Также в начале следующего года компания планирует запустить новый образовательный курс на платформе DeepLearning.AI, посвященный этим технологиям .