# Как маркетплейс AI Hub решает проблему неструктурированных данных с помощью GPT-4

Источник: https://www.youtube.com/watch?v=5ieXd2HdR2g
Канал: Eye on AI
Опубликовано: 29.06.2023

---

В новом выпуске подкаста Eye on AI ведущий Крейг Смит побеседовал с Клеменсом Мевальдом (Clemens Mewald) — экспертом в области искусственного интеллекта и вице-президентом по продукту компании Instabase. В центре обсуждения — запуск новой платформы AI Hub, призванной решить проблему обработки огромных массивов неструктурированных корпоративных данных с помощью передовых языковых моделей, включая GPT-4. Собеседники детально разобрали архитектуру современных ИИ-приложений, ограничения контекстных окон больших языковых моделей и будущее открытого исходного кода в эпоху коммерческого доминирования проприетарных технологий.

## 🧠 От инфраструктуры Google Brain до «операционной системы» данных
[[JUMP:01:20]]

Клеменс Мевальд начал свой профессиональный путь в Австрии, где получил инженерное образование [1:20]. После получения степени MBA в MIT Sloan он переехал в Кремниевую долину и в 2015 году присоединился к легендарной команде Google Brain, став первым продакт-менеджером проекта TensorFlow [1:45]. На протяжении последующих четырех лет он руководил созданием современной инфраструктуры искусственного интеллекта Google, включая TensorFlow Extended (TFX) [1:59].

После работы в Google Brain Мевальд перешел в компанию Databricks, где отвечал за развитие платформ для машинного обучения и науки о данных на базе Apache Spark [2:12]. В конце 2022 года он присоединился к Instabase, обнаружив перспективный технологический сдвиг: если Google и Databricks преимущественно фокусировались на структурированных данных (таблицах и базах данных), то Instabase нацелилась на освоение неструктурированной информации [2:12]. 

По оценкам исследователей, на которые ссылается гость, неструктурированная информация (документы, электронные письма, изображения, аудио и видео) составляет около 80% от общего объема данных в крупных корпорациях [4:15]. Именно этот колоссальный массив данных до последнего времени оставался «мертвым грузом» для бизнеса из-за высокой сложности автоматической обработки.

## 🏢 Instabase: борьба с хаосом неструктурированных данных
[[JUMP:03:46]]

Компания Instabase была основана в 2015 году [8:29]. На первых этапах она, подобно классическим игрокам рынка интеллектуального распознавания документов (IDP), полагалась на жесткие эвристические правила и скрипты поверх OCR-движков [8:42]. Однако в конце 2019 — начале 2020 года инженеры компании одними из первых внедрили в коммерческую эксплуатацию трансформерные модели семейства BERT [8:55]. 

С самого начала Instabase задумывалась основателями не просто как утилита для распознавания текста, а как полноценная переносимая операционная система для обработки данных [9:08]. По словам Мевальда, ключевой ценностью платформы является абстрагирование уровней хранения данных, вычислений и идентификации [9:45]. Это позволяет крупным клиентам с жесткими требованиями к безопасности запускать приложения в любых средах:

*   как готовое облачное SaaS-решение;
*   внутри частных облаков клиентов на AWS, Azure или GCP [10:23];
*   на собственных физических серверах (on-premise) в закрытых дата-центрах [10:10].

Такая гибкость позволила Instabase стать надежным технологическим партнером для крупнейших финансовых институтов: клиентами платформы сегодня являются четыре из пяти ведущих банков США [26:48]. 

Среди ключевых сценариев использования платформы Клеменс Мевальд выделяет несколько бизнес-процессов:

*   **Оформление ипотечных кредитов:** система способна автоматически анализировать пакеты из сотен PDF-документов, банковских выписок и налоговых форм W-2, которые клиенты часто отправляют в виде некачественных фотографий со смартфонов [5:07].
*   **Выявление базового мошенничества:** алгоритмы Instabase проверяют математическую сходимость цифр в присланных выписках. Мошенники часто меняют сумму доходов в текстовом редакторе, но забывают пересчитать итоговые суммы [11:31].
*   **Онбординг водителей в каршерингах:** обработка фотографий водительских удостоверений, страховых полисов и свидетельств о регистрации транспортных средств, часто сделанных при плохом освещении [11:57].
*   **Автоматизация корпоративной почты:** классификация входящей бумажной корреспонденции после сканирования и ее автоматическая маршрутизация [12:50].

Важной особенностью платформы является ее мультимодальность. Помимо текстовых моделей, Instabase использует сверточные нейросети (CNN) для распознавания объектов на изображениях, что позволяет извлекать из документов печати, логотипы компаний, подписи и графики [13:17].

## 🏪 AI Hub: маркетплейс бизнес-приложений нового поколения
[[JUMP:14:34]]

В 2023 году компания совершила новый виток эволюции, анонсировав платформу AI Hub [6:00]. Долгосрочная стратегия Мевальда и его команды заключается в создании глобального сообщества разработчиков и пользователей ИИ-приложений с прозрачной моделью разделения доходов (Revenue Share) [14:48]. 

На момент запуска AI Hub состоит из трех основных модулей:

1.  **Converse** — интерактивный Q&A-чат, позволяющий пользователю вести диалог со своим контентом (документами, электронными таблицами, сканами) [15:28]. В отличие от ChatGPT, где общение происходит со знаниями самой нейросети, Converse отвечает строго на основе загруженных файлов [15:41].
2.  **Build** — no-code интерфейс для создания повторяющихся автоматизированных процессов [15:54]. Например, вместо ручного чата пользователь может построить конвейер, который принимает 10 000 паспортов и выдает структурированную таблицу с именами и датами рождения [16:06].
3.  **App Marketplace** — магазин готовых ИИ-приложений. На старте Instabase разместила там 10 собственных решений (переводчики, суммаризаторы контрактов и др.) [16:20]. В будущем сторонние разработчики смогут публиковать свои приложения после прохождения аудита безопасности [16:46].

Клеменс Мевальд подчеркивает критическую разницу между магазином конечных бизнес-решений (App Store) и библиотеками моделей вроде Hugging Face. По его мнению, «чистые» модели — это лишь сырые строительные блоки [18:31]. Реальному бизнесу не нужны голые веса нейросетей; ему требуются готовые цепочки логики, интеграции и удобные интерфейсы для решения прикладных задач [18:44].

Особое внимание при разработке AI Hub было уделено безопасности конфиденциальных данных. Instabase удалось заключить специальное соглашение с OpenAI [30:59]. По умолчанию OpenAI хранит данные пользователей API в течение 30 дней для выявления злоупотреблений [31:11]. Для клиентов AI Hub от Instabase сделано исключение: их данные обрабатываются в оперативной памяти моделей «на лету», не сохраняются на дисках OpenAI и никогда не используются для дообучения коммерческих сетей [31:38].

## 🛠️ Внутри Converse: как обойти ограничения контекстного окна LLM
[[JUMP:35:37]]

Технология Converse решает одну из главных проблем современных больших языковых моделей (LLM) — физическое ограничение контекстного окна. Даже у передовой модели GPT-4 стандартный лимит составляет от 8 000 до 32 000 токенов (примерно 20–30 страниц печатного текста) [36:14]. Напрямую отправить в модель финансовый отчет на 400 страниц или архив из тысячи договоров технически невозможно [36:40].

Инженеры Instabase обошли это ограничение с помощью гибридной архитектуры:

1.  **Векторизация контента:** загруженный документ предварительно парсится, нарезается на смысловые фрагменты, для которых вычисляются векторные эмбеддинги.
2.  **Хранение в векторной базе:** полученные векторы индексируются в специализированной базе данных **Weaviate** [38:00].
3.  **Семантический поиск:** когда пользователь задает вопрос к документу, система сначала выполняет поиск ближайших соседей в Weaviate и извлекает наиболее релевантный фрагмент текста [38:12].
4.  **Генерация ответа:** этот фрагмент вместе с исходным вопросом пользователя отправляется в GPT-4 в качестве контекста [38:25]. Модель выступает исключительно как «аналитический разум» (reasoning engine), а векторная база данных — как «источник знаний» (knowledge engine) [40:38].

Для задач суммаризации гигантских документов стандартный поиск не подходит, поэтому команда Instabase использует метод рекурсивного сжатия (recursive summarization) [38:38]. Система сначала генерирует краткие выжимки для каждой страницы, затем объединяет их в суммаризации глав, и на финальном этапе формирует лаконичный итог по всему многостраничному документу [38:51].

Такой подход, как утверждает Мевальд, практически полностью сводит на нет проблему ИИ-галлюцинаций [41:05]. Если пользователь загрузит судебную повестку и спросит, виновен ли обвиняемый, система честно ответит, что в предоставленном документе такой информации нет, вместо того чтобы выдумывать вердикт [41:18].

## ⚔️ Проприетарные гиганты против Open Source: закат золотой эры открытого ИИ
[[JUMP:48:06]]

В ходе беседы Клеменс Мевальд озвучил свой резонансный тезис, ранее опубликованный им в блоге на платформе Medium: «Золотая эра открытого исходного кода в сфере ИИ подходит к концу» [48:31]. По его мнению, публичные заявления ИТ-гигантов об открытости нейросетей зачастую являются маркетинговой уловкой.

В качестве аргументов гость привел особенности лицензирования современных открытых моделей:

*   Модели семейства LLaMA от Meta изначально распространялись под лицензиями типа GPL 3.0 с принципом copyleft [48:46]. Это обязывает любого разработчика коммерческого ПО, использующего модель, полностью открыть исходный код собственного продукта [48:58]. Мевальд называет это «ядовитой пилюлей» (poison pill) для корпоративного сектора [49:12].
*   Другие «открытые» релизы зачастую защищены лицензиями Creative Commons с запретом коммерческого использования (NC) [49:12].
*   Единственным заметным исключением на момент интервью стала модель Falcon, лицензия которой была изменена разработчиками на коммерчески свободную Apache 2.0 [50:18].

Мевальд убежден, что по-настоящему мощные ИИ-модели не могут оставаться бесплатными и открытыми [49:51]. Стоимость их обучения складывается из колоссальных затрат на вычислительные мощности, высококачественные данные и дефицитные инженерные кадры [49:51]. Компании-разработчики обязаны возвращать инвестиции, поэтому наиболее эффективные и безопасные модели неизбежно будут оставаться проприетарными, а открытый код сохранит позиции преимущественно в академической среде и среди энтузиастов-любителей [49:38].

*Контраргумент в индустрии ИИ хорошо известен: сторонники открытого ПО (включая руководителя ИИ-направления Meta Яна Лекуна) утверждают, что открытые архитектуры развиваются быстрее проприетарных за счет глобального вклада сообщества, а их использование позволяет компаниям избегать технологической зависимости от монополии крупных облачных провайдеров.*

В завершение встречи Клеменс Мевальд поделился личным опытом использования Converse, который его поразил. Он загрузил в систему сложную таблицу с проектным планом, содержащую задачи, исполнителей и цепочки зависимостей [1:01:14]. На гипотетический вопрос: *«Что произойдет, если ключевой сотрудник заболеет и уйдет на больничный в указанные даты?»* — GPT-4 безошибочно вычислила всю цепочку сдвигов по критическому пути проекта и выдала точную новую дату завершения работ [1:01:26]. Это наглядно доказывает, что современные большие языковые модели способны демонстрировать сложные логические рассуждения, выходящие далеко за рамки простого вероятностного предсказания следующего токена [1:01:39].