Анант Бхардвадж: «RPA будет полностью поглощена ИИ-автоматизацией»

a16z (Andreessen Horowitz) 4,2 тыс. 33 мин 5 мин 10.06.2025
Главное

В новом эпизоде подкаста a16z партнер фонда Гвидо Аппенцеллер и основатель компании Instabase Анант Бхардвадж обсуждают фундаментальный сдвиг в работе с корпоративными данными. Главная тема — как современные большие языковые модели (LLM) и агенты заменяют хрупкие системы RPA (Robotic Process Automation) и позволяют автоматизировать процессы, которые раньше требовали участия сотен людей.

📄 Что такое неструктурированные данные и почему они были «кладбищем» автоматизации 0:42

Анант Бхардвадж определяет неструктурированные данные максимально просто: это любая информация, которую невозможно поместить в аккуратную таблицу базы данных для выполнения SQL-запроса . К этой категории относятся PDF-документы, изображения, электронные письма, презентации PowerPoint и файлы Excel со сложным форматированием .

Исторически эта сфера была недоступна для классической автоматизации. Бхардвадж вспоминает свои исследования в MIT в 2015 году, когда проект Data Hub пытался решить проблему поиска ответов в данных без фиксированной схемы . Проблема заключалась в том, что:

После переезда в Кремниевую долину Бхардвадж обнаружил, что предприятия (особенно банки и страховые компании) тонут в «грязных» данных: заявки на ипотеку могут представлять собой 100-страничные пакеты, где выписки из банков перемешаны с фотографиями кошек и личными письмами . Старые методы обработки — такие как «шаблоны» (поиск данных по фиксированным координатам пикселей) или регулярные выражения — оказывались слишком хрупкими и ломались при любом изменении скана или формата документа .

🛠 Эволюция технологий: от «синтеза программ» до трансформеров 3:32

Бхардвадж описывает четыре этапа попыток решения проблемы неструктурированных данных до появления современных LLM:

  1. Шаблоны (Templates): Поиск номера паспорта в «10 пикселях ниже и 20 пикселях правее» определенной метки. Метод крайне ненадежен .
  2. Правила и ключевые слова: Поиск по фразам вроде «начало периода». Работает плохо, так как язык документов вариативен .
  3. Классическое машинное обучение: Попытки обучить модели на специфических признаках (features) типов документов, что оказалось слишком сложным для масштабирования .
  4. Синтез программ (Program Synthesis): Исследование Instabase 2017 года, где компьютер пытался «на лету» написать код (например, регулярное выражение) для извлечения данных на основе примеров ввода-вывода. Метод был детерминированным и надежным, но не справлялся с изменениями структуры .

Прорыв произошел с появлением архитектуры Transformer и модели BERT . Однако базовый BERT плохо понимал пространственное расположение текста на странице. Команда Instabase разработала собственную модель, которая кодировала не только позицию слова в предложении, но и его X/Y-координаты на листе . Это позволило модели «видеть» структуру документа. На этом решении компания утроила свою выручку в период с 2021 по 2022 год .

📉 Почему RAG и «голые» LLM недостаточно надежны для банков 6:46

С появлением GPT-4 стало ясно, что размер модели имеет значение (The Bitter Lesson). Однако, по мнению Бхардваджа, для критически важных процессов (например, выдачи кредитов) одной LLM недостаточно . Он выделяет две основные проблемы:

Бхардвадж утверждает, что правильный подход — это «составные ИИ-системы» (Compound AI Systems). Вместо того чтобы просто загружать PDF в чат, Instabase использует специализированные алгоритмы для извлечения таблиц («table-to-text»), проверки подписей и чекбоксов . Затем система проводит кросс-валидацию: совпадает ли номер паспорта в анкете с данными из справки о доходах? Такой подход позволяет принимать решение по кредиту за 5 секунд вместо нескольких недель .

🎯 Предсказуемость важнее 100% точности 12:52

Интересный тезис дискуссии: крупному бизнесу не нужна абсолютная точность (которой не бывает и у людей), им нужна предсказуемость.

Анант Бхардвадж поясняет:

Гвидо Аппенцеллер добавляет, что требования к ИИ часто завышены: регуляторы могут требовать объяснения каждого изменения в «весах» модели, что технически невозможно . Поэтому будущее — за системами, которые обеспечивают аудит и объяснимость (explainability) через цепочку промежуточных шагов, а не через «черный ящик» .

🤖 Будущее агентов: «Время компиляции» против «Времени выполнения» 21:30

Собеседники подробно разобрали хайп вокруг ИИ-агентов. Бхардвадж предлагает разделять использование агентов на два этапа:

  1. Compile-time (Этап сборки): Агент помогает разработчику создать рабочий процесс, пишет первый черновик кода, предлагает логику. Это дает огромный прирост производительности .
  2. Run-time (Этап исполнения): Здесь Бхардвадж выступает против полной автономности. В банке процесс должен быть детерминированным. Если агент каждый раз выбирает новый путь решения задачи, это невозможно отладить и проверить .

Его видение: ИИ-агент создает «застывший» (frozen) алгоритм, который после одобрения человеком работает предсказуемо. Он сравнивает это с корпоративной иерархией: топ-менеджеры (люди) ставят цели, а сотрудники (агенты) действуют в рамках четко заданных полномочий и лимитов (например, лимит трат по карте не более $50) .

💀 Смерть RPA и переход к федеративной автоматизации 27:49

Главный прогноз Бхардваджа: технология RPA (Robotic Process Automation), основанная на записи кликов пользователя по экрану, будет полностью «съедена» ИИ-автоматизацией . Старый подход RPA слишком хрупок, так как интерфейсы меняются.

Новое видение включает:

В завершение Аппенцеллер сравнивает текущий момент с бумом доткомов: те компании, которые не оседлают волну ИИ сейчас из-за страхов комплаенса, рискуют повторить судьбу ритейлеров, проигнорировавших интернет . Использование ИИ в неструктурированных данных дает три преимущества: резкое снижение затрат, кратное ускорение процессов и принципиально новый клиентский опыт (например, кредитование через WhatsApp) [16:20, 33:21].

💬 Цитаты

«Неструктурированные данные — это всё, что нельзя поместить в аккуратную таблицу базы данных для SQL-запроса.»

Анант Бхардвадж 00:55

«Предприятиям не нужна 100% точность. Им нужна предсказуемость: скажите нам, какие 20% данных должен проверить человек.»

Анант Бхардвадж 14:39

«Если вы не оседлаете волну ИИ сейчас, вы закончите как Barnes & Noble в эпоху расцвета интернета.»

Гвидо Аппенцеллер 33:08
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
RPA
Robotic Process Automation — технология автоматизации, имитирующая действия человека в интерфейсе программ (клики, ввод текста).
RAG
Retrieval-Augmented Generation — метод, при котором ИИ ищет информацию во внешних документах перед генерацией ответа.
Compile-time (в контексте агентов)
Этап проектирования и настройки рабочего процесса, когда агент помогает создать логику.
Runtime
Этап непосредственного выполнения программы или процесса в реальном времени.
📊 Цифры
🗓 Хронология
  1. 2015 Анант Бхардвадж проводит исследования по работе с большими данными в MIT.
  2. 2017 Выход статьи о трансформерах и начало работы Instabase над синтезом программ.
  3. Ноябрь 2022 Запуск ChatGPT от OpenAI, изменивший ландшафт рынка AI.
  4. 2021-2022 Компания Instabase утроила свою выручку.
⚖️ Другая сторона
Искусственный интеллект Instabase Andreessen Horowitz RPA Unstructured Data Model Context Protocol