Дэвид Пак о будущем финтеха: «Агентный ИИ сокращает ручную проверку документов на 70%»

В рамках конференции AI Dev 25 в Нью-Йорке представители компании Landing AI представили инновационную платформу Agentic Document Extraction (ADE). Дэвид Пак и Эмили рассказали о том, как агентный подход в искусственном интеллекте меняет работу с неструктурированными данными в финансовом секторе, позволяя автоматизировать сложнейшие процессы — от проверки клиентов (KYC) до одобрения кредитов.

🤖 Новая эра извлечения данных: Платформа ADE 0:07

Дэвид Пак, руководитель группы прикладного проектирования ИИ в Landing AI, представил Agentic Document Extraction (ADE) — ориентированную на разработчиков платформу корпоративного уровня . В отличие от традиционных OCR-систем (оптического распознавания символов), ADE построена на принципах агентного ИИ и мультимодальности.

Ключевые особенности архитектуры платформы:

Фундаментальный слой: Использование специализированных трансформеров (Document Pre-trained Transformers), обученных специфике верстки документов, таблиц, графиков и сложных диаграмм .
Слой парсинга: Перевод визуальной информации в машиночитаемые форматы JSON и Markdown с сохранением логических связей и структуры .
Агентное мышление: Система не просто считывает текст, но применяет логику и контекст для решения проблем, возникающих при обработке визуально насыщенного контента .
Слой приложений: Инструменты для классификации, разделения документов и извлечения полей, которые интегрируются в конкретные бизнес-процессы заказчиков .

Дэвид особо подчеркнул роль основателя компании, доктора Эндрю Ына (Andrew Ng), который активно курирует R&D-направление . Его подход, ориентированный на данные (data-centric AI), позволяет системе постоянно совершенствоваться по мере обработки миллиардов изображений и документов .

🏦 Кейс в финансовом секторе: Автоматизация KYC и кредитования 8:44

Одним из наиболее ярким примеров внедрения ADE стала работа с крупнейшим финансовым институтом в области процедур «Знай своего клиента» (Know Your Customer, KYC). Ранее тысячи аналитиков вручную проверяли банковские выписки, учредительные документы и налоговые декларации .

Результаты внедрения ADE оказались значительными:

На 70% сократился объем ручного труда при проверке документов .
Минимизация рисков: Снизилась вероятность ошибок, приводящих к огромным регуляторным штрафам .
Масштабируемость: Сейчас банк расширяет систему на управление капиталом и периодические проверки клиентов .

Еще один сценарий — обработка кредитной заявки . Обычно кредитный офицер получает «сборную посылку» (loan packet) в одном PDF: расчетные листки, форму W-2, выписки по счету и удостоверения личности. Раньше аналитикам приходилось вручную искать нужные разделы и перебивать данные.

ADE полностью автоматизирует этот процесс:

Классификация и сплиттинг: Система понимает, где заканчивается паспорт и начинается выписка .
Извлечение по схеме: Для каждого типа документа применяется своя «схема» (например, только Gross Pay и Net Pay для расчетного листка) .
Визуальное обоснование (Visual Grounding): Каждое извлеченное значение привязано к конкретным координатам в исходном документе, что критично для аудита .

💻 Техническая демонстрация и возможности API 13:31

В ходе демонстрации на примере документов Fidelity Дэвид показал, как система справляется со сложными таблицами . Главная проблема LLM при работе с документами — непонимание пространственного расположения. ADE понимает иерархию (родительские и дочерние строки за счет отступов) «из коробки» .

Технические возможности платформы включают:

Parse API: Превращает весь документ в Markdown или JSON.
Field Extraction API: Позволяет извлекать данные по заданному описанию, используя возможности «промпт-инжиниринга для полей» .
Zero-shot подход: Платформа не требует обучения на шаблонах конкретного клиента — она понимает структуру новых документов сразу .
Интеграция с RAG: Данные можно векторизовать, сохранять в базах (например, ChromaDB) и создавать чат-ботов для общения с документами на естественном языке .

Дэвид продемонстрировал Python-библиотеку, доступную в GitHub-репозитории Landing AI . Она позволяет визуализировать те самые «кропы» (вырезанные фрагменты изображения) рядом с извлеченными данными. Это помогает аналитикам мгновенно проверить корректность работы ИИ, видя конкретную ячейку таблицы прямо в интерфейсе своей системы .

🛡️ Безопасность и оценка точности 26:10

По вопросам надежности Дэвид Пак привел впечатляющие данные тестов. На стандартном датасете DocVQA современные state-of-the-art модели (VLM и OCR на базе глубокого обучения) показывают точность в районе 90–95%, в то время как решение Landing AI достигает более 99% точности .

Вопросы безопасности в корпоративной среде решены за счет:

Stateless архитектуры: Данные не хранятся на серверах Landing AI после обработки (Zero Data Retention) .
Гибкого деплоя: Платформу можно развернуть как в облаке (SaaS, Private Link), так и на собственных серверах заказчика (On-premise / Bare metal) .
Комплаенса: Полное соответствие стандартам HIPAA и GDPR .

Эмили, курирующая программу для разработчиков (Builders Program), добавила, что сейчас Landing AI активно поддерживает сообщество, предоставляя ранний доступ к инструментам и помощь во внедрении . Также в начале следующего года компания планирует запустить новый образовательный курс на платформе DeepLearning.AI, посвященный этим технологиям .