# Анант Бхардвадж: «RPA будет полностью поглощена ИИ-автоматизацией»

Источник: https://www.youtube.com/watch?v=GqviWpv5t4o
Канал: a16z (Andreessen Horowitz)
Опубликовано: 10.06.2025

---

В новом эпизоде подкаста a16z партнер фонда Гвидо Аппенцеллер и основатель компании Instabase Анант Бхардвадж обсуждают фундаментальный сдвиг в работе с корпоративными данными. Главная тема — как современные большие языковые модели (LLM) и агенты заменяют хрупкие системы RPA (Robotic Process Automation) и позволяют автоматизировать процессы, которые раньше требовали участия сотен людей.

## 📄 Что такое неструктурированные данные и почему они были «кладбищем» автоматизации
[[JUMP:00:42]]

Анант Бхардвадж определяет неструктурированные данные максимально просто: это любая информация, которую невозможно поместить в аккуратную таблицу базы данных для выполнения SQL-запроса [00:55]. К этой категории относятся PDF-документы, изображения, электронные письма, презентации PowerPoint и файлы Excel со сложным форматированием [01:08].

Исторически эта сфера была недоступна для классической автоматизации. Бхардвадж вспоминает свои исследования в MIT в 2015 году, когда проект Data Hub пытался решить проблему поиска ответов в данных без фиксированной схемы [01:34]. Проблема заключалась в том, что:

*   У данных нет единого шаблона (schema).
*   Непонятно, какие вопросы к ним релевантны, пока информация не извлечена.
*   Данные «размазаны» по разным приложениям и файловым системам [01:46].

После переезда в Кремниевую долину Бхардвадж обнаружил, что предприятия (особенно банки и страховые компании) тонут в «грязных» данных: заявки на ипотеку могут представлять собой 100-страничные пакеты, где выписки из банков перемешаны с фотографиями кошек и личными письмами [08:27]. Старые методы обработки — такие как «шаблоны» (поиск данных по фиксированным координатам пикселей) или регулярные выражения — оказывались слишком хрупкими и ломались при любом изменении скана или формата документа [02:53].

## 🛠 Эволюция технологий: от «синтеза программ» до трансформеров
[[JUMP:03:32]]

Бхардвадж описывает четыре этапа попыток решения проблемы неструктурированных данных до появления современных LLM:

1.  **Шаблоны (Templates):** Поиск номера паспорта в «10 пикселях ниже и 20 пикселях правее» определенной метки. Метод крайне ненадежен [02:53].
2.  **Правила и ключевые слова:** Поиск по фразам вроде «начало периода». Работает плохо, так как язык документов вариативен [03:20].
3.  **Классическое машинное обучение:** Попытки обучить модели на специфических признаках (features) типов документов, что оказалось слишком сложным для масштабирования [03:32].
4.  **Синтез программ (Program Synthesis):** Исследование Instabase 2017 года, где компьютер пытался «на лету» написать код (например, регулярное выражение) для извлечения данных на основе примеров ввода-вывода. Метод был детерминированным и надежным, но не справлялся с изменениями структуры [03:45].

Прорыв произошел с появлением архитектуры Transformer и модели BERT [04:37]. Однако базовый BERT плохо понимал пространственное расположение текста на странице. Команда Instabase разработала собственную модель, которая кодировала не только позицию слова в предложении, но и его X/Y-координаты на листе [05:42]. Это позволило модели «видеть» структуру документа. На этом решении компания утроила свою выручку в период с 2021 по 2022 год [06:33].

## 📉 Почему RAG и «голые» LLM недостаточно надежны для банков
[[JUMP:06:46]]

С появлением GPT-4 стало ясно, что размер модели имеет значение (The Bitter Lesson). Однако, по мнению Бхардваджа, для критически важных процессов (например, выдачи кредитов) одной LLM недостаточно [07:24]. Он выделяет две основные проблемы:

*   **Ограничение контекстного окна:** Большие пакеты документов не влезают в память модели целиком [09:07].
*   **«Удивительные» ошибки:** LLM могут идеально обработать 99% документа, но случайно пропустить четыре важные ячейки в финансовой таблице. В банковской сфере такая ошибка недопустима [09:35].

Бхардвадж утверждает, что правильный подход — это «составные ИИ-системы» (Compound AI Systems). Вместо того чтобы просто загружать PDF в чат, Instabase использует специализированные алгоритмы для извлечения таблиц («table-to-text»), проверки подписей и чекбоксов [10:13]. Затем система проводит кросс-валидацию: совпадает ли номер паспорта в анкете с данными из справки о доходах? Такой подход позволяет принимать решение по кредиту за 5 секунд вместо нескольких недель [11:03].

## 🎯 Предсказуемость важнее 100% точности
[[JUMP:12:52]]

Интересный тезис дискуссии: крупному бизнесу не нужна абсолютная точность (которой не бывает и у людей), им нужна **предсказуемость**. 

Анант Бхардвадж поясняет:

*   Люди ошибаются в 3–4% случаев, но эти ошибки понятны [13:59].
*   ИИ делает ошибки непредсказуемым образом, что пугает комплаенс-отделы.
*   Банки готовы работать с системой, которая точна на 80%, если она четко маркирует остальные 20% как «сомнительные» для проверки человеком [14:39].

Гвидо Аппенцеллер добавляет, что требования к ИИ часто завышены: регуляторы могут требовать объяснения каждого изменения в «весах» модели, что технически невозможно [19:58]. Поэтому будущее — за системами, которые обеспечивают аудит и объяснимость (explainability) через цепочку промежуточных шагов, а не через «черный ящик» [20:39].

## 🤖 Будущее агентов: «Время компиляции» против «Времени выполнения»
[[JUMP:21:30]]

Собеседники подробно разобрали хайп вокруг ИИ-агентов. Бхардвадж предлагает разделять использование агентов на два этапа:

1.  **Compile-time (Этап сборки):** Агент помогает разработчику создать рабочий процесс, пишет первый черновик кода, предлагает логику. Это дает огромный прирост производительности [23:01].
2.  **Run-time (Этап исполнения):** Здесь Бхардвадж выступает против полной автономности. В банке процесс должен быть детерминированным. Если агент каждый раз выбирает новый путь решения задачи, это невозможно отладить и проверить [22:35].

Его видение: ИИ-агент создает «застывший» (frozen) алгоритм, который после одобрения человеком работает предсказуемо. Он сравнивает это с корпоративной иерархией: топ-менеджеры (люди) ставят цели, а сотрудники (агенты) действуют в рамках четко заданных полномочий и лимитов (например, лимит трат по карте не более $50) [31:42].

## 💀 Смерть RPA и переход к федеративной автоматизации
[[JUMP:27:49]]

Главный прогноз Бхардваджа: технология RPA (Robotic Process Automation), основанная на записи кликов пользователя по экрану, будет полностью «съедена» ИИ-автоматизацией [27:49]. Старый подход RPA слишком хрупок, так как интерфейсы меняются.

Новое видение включает:

*   **MCP (Model Context Protocol):** Протоколы, позволяющие ИИ динамически обнаруживать возможности различных систем и вызывать их функции [30:23].
*   **Федеративное исполнение:** Вместо одного центрального контроллера организация будет состоять из тысяч специализированных агентов, которые находят друг друга и общаются для решения сложной задачи [26:55].
*   **Identity Pass-through:** Решение проблемы безопасности, когда ИИ-агент действует от имени конкретного пользователя, наследуя его права доступа, но с дополнительными ограничениями [31:30].

В завершение Аппенцеллер сравнивает текущий момент с бумом доткомов: те компании, которые не оседлают волну ИИ сейчас из-за страхов комплаенса, рискуют повторить судьбу ритейлеров, проигнорировавших интернет [32:56]. Использование ИИ в неструктурированных данных дает три преимущества: резкое снижение затрат, кратное ускорение процессов и принципиально новый клиентский опыт (например, кредитование через WhatsApp) [16:20, 33:21].