Анант Бхардвадж: «RPA будет полностью поглощена ИИ-автоматизацией»

В новом эпизоде подкаста a16z партнер фонда Гвидо Аппенцеллер и основатель компании Instabase Анант Бхардвадж обсуждают фундаментальный сдвиг в работе с корпоративными данными. Главная тема — как современные большие языковые модели (LLM) и агенты заменяют хрупкие системы RPA (Robotic Process Automation) и позволяют автоматизировать процессы, которые раньше требовали участия сотен людей.

📄 Что такое неструктурированные данные и почему они были «кладбищем» автоматизации 0:42

Анант Бхардвадж определяет неструктурированные данные максимально просто: это любая информация, которую невозможно поместить в аккуратную таблицу базы данных для выполнения SQL-запроса . К этой категории относятся PDF-документы, изображения, электронные письма, презентации PowerPoint и файлы Excel со сложным форматированием .

Исторически эта сфера была недоступна для классической автоматизации. Бхардвадж вспоминает свои исследования в MIT в 2015 году, когда проект Data Hub пытался решить проблему поиска ответов в данных без фиксированной схемы . Проблема заключалась в том, что:

У данных нет единого шаблона (schema).
Непонятно, какие вопросы к ним релевантны, пока информация не извлечена.
Данные «размазаны» по разным приложениям и файловым системам .

После переезда в Кремниевую долину Бхардвадж обнаружил, что предприятия (особенно банки и страховые компании) тонут в «грязных» данных: заявки на ипотеку могут представлять собой 100-страничные пакеты, где выписки из банков перемешаны с фотографиями кошек и личными письмами . Старые методы обработки — такие как «шаблоны» (поиск данных по фиксированным координатам пикселей) или регулярные выражения — оказывались слишком хрупкими и ломались при любом изменении скана или формата документа .

🛠 Эволюция технологий: от «синтеза программ» до трансформеров 3:32

Бхардвадж описывает четыре этапа попыток решения проблемы неструктурированных данных до появления современных LLM:

Шаблоны (Templates): Поиск номера паспорта в «10 пикселях ниже и 20 пикселях правее» определенной метки. Метод крайне ненадежен .
Правила и ключевые слова: Поиск по фразам вроде «начало периода». Работает плохо, так как язык документов вариативен .
Классическое машинное обучение: Попытки обучить модели на специфических признаках (features) типов документов, что оказалось слишком сложным для масштабирования .
Синтез программ (Program Synthesis): Исследование Instabase 2017 года, где компьютер пытался «на лету» написать код (например, регулярное выражение) для извлечения данных на основе примеров ввода-вывода. Метод был детерминированным и надежным, но не справлялся с изменениями структуры .

Прорыв произошел с появлением архитектуры Transformer и модели BERT . Однако базовый BERT плохо понимал пространственное расположение текста на странице. Команда Instabase разработала собственную модель, которая кодировала не только позицию слова в предложении, но и его X/Y-координаты на листе . Это позволило модели «видеть» структуру документа. На этом решении компания утроила свою выручку в период с 2021 по 2022 год .

📉 Почему RAG и «голые» LLM недостаточно надежны для банков 6:46

С появлением GPT-4 стало ясно, что размер модели имеет значение (The Bitter Lesson). Однако, по мнению Бхардваджа, для критически важных процессов (например, выдачи кредитов) одной LLM недостаточно . Он выделяет две основные проблемы:

Ограничение контекстного окна: Большие пакеты документов не влезают в память модели целиком .
«Удивительные» ошибки: LLM могут идеально обработать 99% документа, но случайно пропустить четыре важные ячейки в финансовой таблице. В банковской сфере такая ошибка недопустима .

Бхардвадж утверждает, что правильный подход — это «составные ИИ-системы» (Compound AI Systems). Вместо того чтобы просто загружать PDF в чат, Instabase использует специализированные алгоритмы для извлечения таблиц («table-to-text»), проверки подписей и чекбоксов . Затем система проводит кросс-валидацию: совпадает ли номер паспорта в анкете с данными из справки о доходах? Такой подход позволяет принимать решение по кредиту за 5 секунд вместо нескольких недель .

🎯 Предсказуемость важнее 100% точности 12:52

Интересный тезис дискуссии: крупному бизнесу не нужна абсолютная точность (которой не бывает и у людей), им нужна предсказуемость.

Анант Бхардвадж поясняет:

Люди ошибаются в 3–4% случаев, но эти ошибки понятны .
ИИ делает ошибки непредсказуемым образом, что пугает комплаенс-отделы.
Банки готовы работать с системой, которая точна на 80%, если она четко маркирует остальные 20% как «сомнительные» для проверки человеком .

Гвидо Аппенцеллер добавляет, что требования к ИИ часто завышены: регуляторы могут требовать объяснения каждого изменения в «весах» модели, что технически невозможно . Поэтому будущее — за системами, которые обеспечивают аудит и объяснимость (explainability) через цепочку промежуточных шагов, а не через «черный ящик» .

🤖 Будущее агентов: «Время компиляции» против «Времени выполнения» 21:30

Собеседники подробно разобрали хайп вокруг ИИ-агентов. Бхардвадж предлагает разделять использование агентов на два этапа:

Compile-time (Этап сборки): Агент помогает разработчику создать рабочий процесс, пишет первый черновик кода, предлагает логику. Это дает огромный прирост производительности .
Run-time (Этап исполнения): Здесь Бхардвадж выступает против полной автономности. В банке процесс должен быть детерминированным. Если агент каждый раз выбирает новый путь решения задачи, это невозможно отладить и проверить .

Его видение: ИИ-агент создает «застывший» (frozen) алгоритм, который после одобрения человеком работает предсказуемо. Он сравнивает это с корпоративной иерархией: топ-менеджеры (люди) ставят цели, а сотрудники (агенты) действуют в рамках четко заданных полномочий и лимитов (например, лимит трат по карте не более $50) .

💀 Смерть RPA и переход к федеративной автоматизации 27:49

Главный прогноз Бхардваджа: технология RPA (Robotic Process Automation), основанная на записи кликов пользователя по экрану, будет полностью «съедена» ИИ-автоматизацией . Старый подход RPA слишком хрупок, так как интерфейсы меняются.

Новое видение включает:

MCP (Model Context Protocol): Протоколы, позволяющие ИИ динамически обнаруживать возможности различных систем и вызывать их функции .
Федеративное исполнение: Вместо одного центрального контроллера организация будет состоять из тысяч специализированных агентов, которые находят друг друга и общаются для решения сложной задачи .
Identity Pass-through: Решение проблемы безопасности, когда ИИ-агент действует от имени конкретного пользователя, наследуя его права доступа, но с дополнительными ограничениями .

В завершение Аппенцеллер сравнивает текущий момент с бумом доткомов: те компании, которые не оседлают волну ИИ сейчас из-за страхов комплаенса, рискуют повторить судьбу ритейлеров, проигнорировавших интернет . Использование ИИ в неструктурированных данных дает три преимущества: резкое снижение затрат, кратное ускорение процессов и принципиально новый клиентский опыт (например, кредитование через WhatsApp) [16:20, 33:21].