Как маркетплейс AI Hub решает проблему неструктурированных данных с помощью GPT-4

В новом выпуске подкаста Eye on AI ведущий Крейг Смит побеседовал с Клеменсом Мевальдом (Clemens Mewald) — экспертом в области искусственного интеллекта и вице-президентом по продукту компании Instabase. В центре обсуждения — запуск новой платформы AI Hub, призванной решить проблему обработки огромных массивов неструктурированных корпоративных данных с помощью передовых языковых моделей, включая GPT-4. Собеседники детально разобрали архитектуру современных ИИ-приложений, ограничения контекстных окон больших языковых моделей и будущее открытого исходного кода в эпоху коммерческого доминирования проприетарных технологий.

🧠 От инфраструктуры Google Brain до «операционной системы» данных 1:20

Клеменс Мевальд начал свой профессиональный путь в Австрии, где получил инженерное образование . После получения степени MBA в MIT Sloan он переехал в Кремниевую долину и в 2015 году присоединился к легендарной команде Google Brain, став первым продакт-менеджером проекта TensorFlow . На протяжении последующих четырех лет он руководил созданием современной инфраструктуры искусственного интеллекта Google, включая TensorFlow Extended (TFX) .

После работы в Google Brain Мевальд перешел в компанию Databricks, где отвечал за развитие платформ для машинного обучения и науки о данных на базе Apache Spark . В конце 2022 года он присоединился к Instabase, обнаружив перспективный технологический сдвиг: если Google и Databricks преимущественно фокусировались на структурированных данных (таблицах и базах данных), то Instabase нацелилась на освоение неструктурированной информации .

По оценкам исследователей, на которые ссылается гость, неструктурированная информация (документы, электронные письма, изображения, аудио и видео) составляет около 80% от общего объема данных в крупных корпорациях . Именно этот колоссальный массив данных до последнего времени оставался «мертвым грузом» для бизнеса из-за высокой сложности автоматической обработки.

🏢 Instabase: борьба с хаосом неструктурированных данных 3:46

Компания Instabase была основана в 2015 году . На первых этапах она, подобно классическим игрокам рынка интеллектуального распознавания документов (IDP), полагалась на жесткие эвристические правила и скрипты поверх OCR-движков . Однако в конце 2019 — начале 2020 года инженеры компании одними из первых внедрили в коммерческую эксплуатацию трансформерные модели семейства BERT .

С самого начала Instabase задумывалась основателями не просто как утилита для распознавания текста, а как полноценная переносимая операционная система для обработки данных . По словам Мевальда, ключевой ценностью платформы является абстрагирование уровней хранения данных, вычислений и идентификации . Это позволяет крупным клиентам с жесткими требованиями к безопасности запускать приложения в любых средах:

как готовое облачное SaaS-решение;
внутри частных облаков клиентов на AWS, Azure или GCP ;
на собственных физических серверах (on-premise) в закрытых дата-центрах .

Такая гибкость позволила Instabase стать надежным технологическим партнером для крупнейших финансовых институтов: клиентами платформы сегодня являются четыре из пяти ведущих банков США .

Среди ключевых сценариев использования платформы Клеменс Мевальд выделяет несколько бизнес-процессов:

Оформление ипотечных кредитов: система способна автоматически анализировать пакеты из сотен PDF-документов, банковских выписок и налоговых форм W-2, которые клиенты часто отправляют в виде некачественных фотографий со смартфонов .
Выявление базового мошенничества: алгоритмы Instabase проверяют математическую сходимость цифр в присланных выписках. Мошенники часто меняют сумму доходов в текстовом редакторе, но забывают пересчитать итоговые суммы .
Онбординг водителей в каршерингах: обработка фотографий водительских удостоверений, страховых полисов и свидетельств о регистрации транспортных средств, часто сделанных при плохом освещении .
Автоматизация корпоративной почты: классификация входящей бумажной корреспонденции после сканирования и ее автоматическая маршрутизация .

Важной особенностью платформы является ее мультимодальность. Помимо текстовых моделей, Instabase использует сверточные нейросети (CNN) для распознавания объектов на изображениях, что позволяет извлекать из документов печати, логотипы компаний, подписи и графики .

🏪 AI Hub: маркетплейс бизнес-приложений нового поколения 14:34

В 2023 году компания совершила новый виток эволюции, анонсировав платформу AI Hub . Долгосрочная стратегия Мевальда и его команды заключается в создании глобального сообщества разработчиков и пользователей ИИ-приложений с прозрачной моделью разделения доходов (Revenue Share) .

На момент запуска AI Hub состоит из трех основных модулей:

Converse — интерактивный Q&A-чат, позволяющий пользователю вести диалог со своим контентом (документами, электронными таблицами, сканами) . В отличие от ChatGPT, где общение происходит со знаниями самой нейросети, Converse отвечает строго на основе загруженных файлов .
Build — no-code интерфейс для создания повторяющихся автоматизированных процессов . Например, вместо ручного чата пользователь может построить конвейер, который принимает 10 000 паспортов и выдает структурированную таблицу с именами и датами рождения .
App Marketplace — магазин готовых ИИ-приложений. На старте Instabase разместила там 10 собственных решений (переводчики, суммаризаторы контрактов и др.) . В будущем сторонние разработчики смогут публиковать свои приложения после прохождения аудита безопасности .

Клеменс Мевальд подчеркивает критическую разницу между магазином конечных бизнес-решений (App Store) и библиотеками моделей вроде Hugging Face. По его мнению, «чистые» модели — это лишь сырые строительные блоки . Реальному бизнесу не нужны голые веса нейросетей; ему требуются готовые цепочки логики, интеграции и удобные интерфейсы для решения прикладных задач .

Особое внимание при разработке AI Hub было уделено безопасности конфиденциальных данных. Instabase удалось заключить специальное соглашение с OpenAI . По умолчанию OpenAI хранит данные пользователей API в течение 30 дней для выявления злоупотреблений . Для клиентов AI Hub от Instabase сделано исключение: их данные обрабатываются в оперативной памяти моделей «на лету», не сохраняются на дисках OpenAI и никогда не используются для дообучения коммерческих сетей .

🛠️ Внутри Converse: как обойти ограничения контекстного окна LLM 35:37

Технология Converse решает одну из главных проблем современных больших языковых моделей (LLM) — физическое ограничение контекстного окна. Даже у передовой модели GPT-4 стандартный лимит составляет от 8 000 до 32 000 токенов (примерно 20–30 страниц печатного текста) . Напрямую отправить в модель финансовый отчет на 400 страниц или архив из тысячи договоров технически невозможно .

Инженеры Instabase обошли это ограничение с помощью гибридной архитектуры:

Векторизация контента: загруженный документ предварительно парсится, нарезается на смысловые фрагменты, для которых вычисляются векторные эмбеддинги.
Хранение в векторной базе: полученные векторы индексируются в специализированной базе данных Weaviate .
Семантический поиск: когда пользователь задает вопрос к документу, система сначала выполняет поиск ближайших соседей в Weaviate и извлекает наиболее релевантный фрагмент текста .
Генерация ответа: этот фрагмент вместе с исходным вопросом пользователя отправляется в GPT-4 в качестве контекста . Модель выступает исключительно как «аналитический разум» (reasoning engine), а векторная база данных — как «источник знаний» (knowledge engine) .

Для задач суммаризации гигантских документов стандартный поиск не подходит, поэтому команда Instabase использует метод рекурсивного сжатия (recursive summarization) . Система сначала генерирует краткие выжимки для каждой страницы, затем объединяет их в суммаризации глав, и на финальном этапе формирует лаконичный итог по всему многостраничному документу .

Такой подход, как утверждает Мевальд, практически полностью сводит на нет проблему ИИ-галлюцинаций . Если пользователь загрузит судебную повестку и спросит, виновен ли обвиняемый, система честно ответит, что в предоставленном документе такой информации нет, вместо того чтобы выдумывать вердикт .

⚔️ Проприетарные гиганты против Open Source: закат золотой эры открытого ИИ 48:06

В ходе беседы Клеменс Мевальд озвучил свой резонансный тезис, ранее опубликованный им в блоге на платформе Medium: «Золотая эра открытого исходного кода в сфере ИИ подходит к концу» . По его мнению, публичные заявления ИТ-гигантов об открытости нейросетей зачастую являются маркетинговой уловкой.

В качестве аргументов гость привел особенности лицензирования современных открытых моделей:

Модели семейства LLaMA от Meta изначально распространялись под лицензиями типа GPL 3.0 с принципом copyleft . Это обязывает любого разработчика коммерческого ПО, использующего модель, полностью открыть исходный код собственного продукта . Мевальд называет это «ядовитой пилюлей» (poison pill) для корпоративного сектора .
Другие «открытые» релизы зачастую защищены лицензиями Creative Commons с запретом коммерческого использования (NC) .
Единственным заметным исключением на момент интервью стала модель Falcon, лицензия которой была изменена разработчиками на коммерчески свободную Apache 2.0 .

Мевальд убежден, что по-настоящему мощные ИИ-модели не могут оставаться бесплатными и открытыми . Стоимость их обучения складывается из колоссальных затрат на вычислительные мощности, высококачественные данные и дефицитные инженерные кадры . Компании-разработчики обязаны возвращать инвестиции, поэтому наиболее эффективные и безопасные модели неизбежно будут оставаться проприетарными, а открытый код сохранит позиции преимущественно в академической среде и среди энтузиастов-любителей .

Контраргумент в индустрии ИИ хорошо известен: сторонники открытого ПО (включая руководителя ИИ-направления Meta Яна Лекуна) утверждают, что открытые архитектуры развиваются быстрее проприетарных за счет глобального вклада сообщества, а их использование позволяет компаниям избегать технологической зависимости от монополии крупных облачных провайдеров.

В завершение встречи Клеменс Мевальд поделился личным опытом использования Converse, который его поразил. Он загрузил в систему сложную таблицу с проектным планом, содержащую задачи, исполнителей и цепочки зависимостей . На гипотетический вопрос: «Что произойдет, если ключевой сотрудник заболеет и уйдет на больничный в указанные даты?» — GPT-4 безошибочно вычислила всю цепочку сдвигов по критическому пути проекта и выдала точную новую дату завершения работ . Это наглядно доказывает, что современные большие языковые модели способны демонстрировать сложные логические рассуждения, выходящие далеко за рамки простого вероятностного предсказания следующего токена .