В новом эпизоде подкаста a16z партнер фонда Гвидо Аппенцеллер и основатель компании Instabase Анант Бхардвадж обсуждают фундаментальный сдвиг в работе с корпоративными данными. Главная тема — как современные большие языковые модели (LLM) и агенты заменяют хрупкие системы RPA (Robotic Process Automation) и позволяют автоматизировать процессы, которые раньше требовали участия сотен людей.
📄 Что такое неструктурированные данные и почему они были «кладбищем» автоматизации 0:42
Анант Бхардвадж определяет неструктурированные данные максимально просто: это любая информация, которую невозможно поместить в аккуратную таблицу базы данных для выполнения SQL-запроса . К этой категории относятся PDF-документы, изображения, электронные письма, презентации PowerPoint и файлы Excel со сложным форматированием .
Исторически эта сфера была недоступна для классической автоматизации. Бхардвадж вспоминает свои исследования в MIT в 2015 году, когда проект Data Hub пытался решить проблему поиска ответов в данных без фиксированной схемы . Проблема заключалась в том, что:
- У данных нет единого шаблона (schema).
- Непонятно, какие вопросы к ним релевантны, пока информация не извлечена.
- Данные «размазаны» по разным приложениям и файловым системам .
После переезда в Кремниевую долину Бхардвадж обнаружил, что предприятия (особенно банки и страховые компании) тонут в «грязных» данных: заявки на ипотеку могут представлять собой 100-страничные пакеты, где выписки из банков перемешаны с фотографиями кошек и личными письмами . Старые методы обработки — такие как «шаблоны» (поиск данных по фиксированным координатам пикселей) или регулярные выражения — оказывались слишком хрупкими и ломались при любом изменении скана или формата документа .
🛠 Эволюция технологий: от «синтеза программ» до трансформеров 3:32
Бхардвадж описывает четыре этапа попыток решения проблемы неструктурированных данных до появления современных LLM:
- Шаблоны (Templates): Поиск номера паспорта в «10 пикселях ниже и 20 пикселях правее» определенной метки. Метод крайне ненадежен .
- Правила и ключевые слова: Поиск по фразам вроде «начало периода». Работает плохо, так как язык документов вариативен .
- Классическое машинное обучение: Попытки обучить модели на специфических признаках (features) типов документов, что оказалось слишком сложным для масштабирования .
- Синтез программ (Program Synthesis): Исследование Instabase 2017 года, где компьютер пытался «на лету» написать код (например, регулярное выражение) для извлечения данных на основе примеров ввода-вывода. Метод был детерминированным и надежным, но не справлялся с изменениями структуры .
Прорыв произошел с появлением архитектуры Transformer и модели BERT . Однако базовый BERT плохо понимал пространственное расположение текста на странице. Команда Instabase разработала собственную модель, которая кодировала не только позицию слова в предложении, но и его X/Y-координаты на листе . Это позволило модели «видеть» структуру документа. На этом решении компания утроила свою выручку в период с 2021 по 2022 год .
📉 Почему RAG и «голые» LLM недостаточно надежны для банков 6:46
С появлением GPT-4 стало ясно, что размер модели имеет значение (The Bitter Lesson). Однако, по мнению Бхардваджа, для критически важных процессов (например, выдачи кредитов) одной LLM недостаточно . Он выделяет две основные проблемы:
- Ограничение контекстного окна: Большие пакеты документов не влезают в память модели целиком .
- «Удивительные» ошибки: LLM могут идеально обработать 99% документа, но случайно пропустить четыре важные ячейки в финансовой таблице. В банковской сфере такая ошибка недопустима .
Бхардвадж утверждает, что правильный подход — это «составные ИИ-системы» (Compound AI Systems). Вместо того чтобы просто загружать PDF в чат, Instabase использует специализированные алгоритмы для извлечения таблиц («table-to-text»), проверки подписей и чекбоксов . Затем система проводит кросс-валидацию: совпадает ли номер паспорта в анкете с данными из справки о доходах? Такой подход позволяет принимать решение по кредиту за 5 секунд вместо нескольких недель .
🎯 Предсказуемость важнее 100% точности 12:52
Интересный тезис дискуссии: крупному бизнесу не нужна абсолютная точность (которой не бывает и у людей), им нужна предсказуемость.
Анант Бхардвадж поясняет:
- Люди ошибаются в 3–4% случаев, но эти ошибки понятны .
- ИИ делает ошибки непредсказуемым образом, что пугает комплаенс-отделы.
- Банки готовы работать с системой, которая точна на 80%, если она четко маркирует остальные 20% как «сомнительные» для проверки человеком .
Гвидо Аппенцеллер добавляет, что требования к ИИ часто завышены: регуляторы могут требовать объяснения каждого изменения в «весах» модели, что технически невозможно . Поэтому будущее — за системами, которые обеспечивают аудит и объяснимость (explainability) через цепочку промежуточных шагов, а не через «черный ящик» .
🤖 Будущее агентов: «Время компиляции» против «Времени выполнения» 21:30
Собеседники подробно разобрали хайп вокруг ИИ-агентов. Бхардвадж предлагает разделять использование агентов на два этапа:
- Compile-time (Этап сборки): Агент помогает разработчику создать рабочий процесс, пишет первый черновик кода, предлагает логику. Это дает огромный прирост производительности .
- Run-time (Этап исполнения): Здесь Бхардвадж выступает против полной автономности. В банке процесс должен быть детерминированным. Если агент каждый раз выбирает новый путь решения задачи, это невозможно отладить и проверить .
Его видение: ИИ-агент создает «застывший» (frozen) алгоритм, который после одобрения человеком работает предсказуемо. Он сравнивает это с корпоративной иерархией: топ-менеджеры (люди) ставят цели, а сотрудники (агенты) действуют в рамках четко заданных полномочий и лимитов (например, лимит трат по карте не более $50) .
💀 Смерть RPA и переход к федеративной автоматизации 27:49
Главный прогноз Бхардваджа: технология RPA (Robotic Process Automation), основанная на записи кликов пользователя по экрану, будет полностью «съедена» ИИ-автоматизацией . Старый подход RPA слишком хрупок, так как интерфейсы меняются.
Новое видение включает:
- MCP (Model Context Protocol): Протоколы, позволяющие ИИ динамически обнаруживать возможности различных систем и вызывать их функции .
- Федеративное исполнение: Вместо одного центрального контроллера организация будет состоять из тысяч специализированных агентов, которые находят друг друга и общаются для решения сложной задачи .
- Identity Pass-through: Решение проблемы безопасности, когда ИИ-агент действует от имени конкретного пользователя, наследуя его права доступа, но с дополнительными ограничениями .
В завершение Аппенцеллер сравнивает текущий момент с бумом доткомов: те компании, которые не оседлают волну ИИ сейчас из-за страхов комплаенса, рискуют повторить судьбу ритейлеров, проигнорировавших интернет . Использование ИИ в неструктурированных данных дает три преимущества: резкое снижение затрат, кратное ускорение процессов и принципиально новый клиентский опыт (например, кредитование через WhatsApp) [16:20, 33:21].