Как маркетплейс AI Hub решает проблему неструктурированных данных с помощью GPT-4

Eye on AI 2,5 тыс. 1 ч 2 мин 7 мин 29.06.2023
Главное

В новом выпуске подкаста Eye on AI ведущий Крейг Смит побеседовал с Клеменсом Мевальдом (Clemens Mewald) — экспертом в области искусственного интеллекта и вице-президентом по продукту компании Instabase. В центре обсуждения — запуск новой платформы AI Hub, призванной решить проблему обработки огромных массивов неструктурированных корпоративных данных с помощью передовых языковых моделей, включая GPT-4. Собеседники детально разобрали архитектуру современных ИИ-приложений, ограничения контекстных окон больших языковых моделей и будущее открытого исходного кода в эпоху коммерческого доминирования проприетарных технологий.

🧠 От инфраструктуры Google Brain до «операционной системы» данных 1:20

Клеменс Мевальд начал свой профессиональный путь в Австрии, где получил инженерное образование . После получения степени MBA в MIT Sloan он переехал в Кремниевую долину и в 2015 году присоединился к легендарной команде Google Brain, став первым продакт-менеджером проекта TensorFlow . На протяжении последующих четырех лет он руководил созданием современной инфраструктуры искусственного интеллекта Google, включая TensorFlow Extended (TFX) .

После работы в Google Brain Мевальд перешел в компанию Databricks, где отвечал за развитие платформ для машинного обучения и науки о данных на базе Apache Spark . В конце 2022 года он присоединился к Instabase, обнаружив перспективный технологический сдвиг: если Google и Databricks преимущественно фокусировались на структурированных данных (таблицах и базах данных), то Instabase нацелилась на освоение неструктурированной информации .

По оценкам исследователей, на которые ссылается гость, неструктурированная информация (документы, электронные письма, изображения, аудио и видео) составляет около 80% от общего объема данных в крупных корпорациях . Именно этот колоссальный массив данных до последнего времени оставался «мертвым грузом» для бизнеса из-за высокой сложности автоматической обработки.

🏢 Instabase: борьба с хаосом неструктурированных данных 3:46

Компания Instabase была основана в 2015 году . На первых этапах она, подобно классическим игрокам рынка интеллектуального распознавания документов (IDP), полагалась на жесткие эвристические правила и скрипты поверх OCR-движков . Однако в конце 2019 — начале 2020 года инженеры компании одними из первых внедрили в коммерческую эксплуатацию трансформерные модели семейства BERT .

С самого начала Instabase задумывалась основателями не просто как утилита для распознавания текста, а как полноценная переносимая операционная система для обработки данных . По словам Мевальда, ключевой ценностью платформы является абстрагирование уровней хранения данных, вычислений и идентификации . Это позволяет крупным клиентам с жесткими требованиями к безопасности запускать приложения в любых средах:

Такая гибкость позволила Instabase стать надежным технологическим партнером для крупнейших финансовых институтов: клиентами платформы сегодня являются четыре из пяти ведущих банков США .

Среди ключевых сценариев использования платформы Клеменс Мевальд выделяет несколько бизнес-процессов:

Важной особенностью платформы является ее мультимодальность. Помимо текстовых моделей, Instabase использует сверточные нейросети (CNN) для распознавания объектов на изображениях, что позволяет извлекать из документов печати, логотипы компаний, подписи и графики .

🏪 AI Hub: маркетплейс бизнес-приложений нового поколения 14:34

В 2023 году компания совершила новый виток эволюции, анонсировав платформу AI Hub . Долгосрочная стратегия Мевальда и его команды заключается в создании глобального сообщества разработчиков и пользователей ИИ-приложений с прозрачной моделью разделения доходов (Revenue Share) .

На момент запуска AI Hub состоит из трех основных модулей:

  1. Converse — интерактивный Q&A-чат, позволяющий пользователю вести диалог со своим контентом (документами, электронными таблицами, сканами) . В отличие от ChatGPT, где общение происходит со знаниями самой нейросети, Converse отвечает строго на основе загруженных файлов .
  2. Build — no-code интерфейс для создания повторяющихся автоматизированных процессов . Например, вместо ручного чата пользователь может построить конвейер, который принимает 10 000 паспортов и выдает структурированную таблицу с именами и датами рождения .
  3. App Marketplace — магазин готовых ИИ-приложений. На старте Instabase разместила там 10 собственных решений (переводчики, суммаризаторы контрактов и др.) . В будущем сторонние разработчики смогут публиковать свои приложения после прохождения аудита безопасности .

Клеменс Мевальд подчеркивает критическую разницу между магазином конечных бизнес-решений (App Store) и библиотеками моделей вроде Hugging Face. По его мнению, «чистые» модели — это лишь сырые строительные блоки . Реальному бизнесу не нужны голые веса нейросетей; ему требуются готовые цепочки логики, интеграции и удобные интерфейсы для решения прикладных задач .

Особое внимание при разработке AI Hub было уделено безопасности конфиденциальных данных. Instabase удалось заключить специальное соглашение с OpenAI . По умолчанию OpenAI хранит данные пользователей API в течение 30 дней для выявления злоупотреблений . Для клиентов AI Hub от Instabase сделано исключение: их данные обрабатываются в оперативной памяти моделей «на лету», не сохраняются на дисках OpenAI и никогда не используются для дообучения коммерческих сетей .

🛠️ Внутри Converse: как обойти ограничения контекстного окна LLM 35:37

Технология Converse решает одну из главных проблем современных больших языковых моделей (LLM) — физическое ограничение контекстного окна. Даже у передовой модели GPT-4 стандартный лимит составляет от 8 000 до 32 000 токенов (примерно 20–30 страниц печатного текста) . Напрямую отправить в модель финансовый отчет на 400 страниц или архив из тысячи договоров технически невозможно .

Инженеры Instabase обошли это ограничение с помощью гибридной архитектуры:

  1. Векторизация контента: загруженный документ предварительно парсится, нарезается на смысловые фрагменты, для которых вычисляются векторные эмбеддинги.
  2. Хранение в векторной базе: полученные векторы индексируются в специализированной базе данных Weaviate .
  3. Семантический поиск: когда пользователь задает вопрос к документу, система сначала выполняет поиск ближайших соседей в Weaviate и извлекает наиболее релевантный фрагмент текста .
  4. Генерация ответа: этот фрагмент вместе с исходным вопросом пользователя отправляется в GPT-4 в качестве контекста . Модель выступает исключительно как «аналитический разум» (reasoning engine), а векторная база данных — как «источник знаний» (knowledge engine) .

Для задач суммаризации гигантских документов стандартный поиск не подходит, поэтому команда Instabase использует метод рекурсивного сжатия (recursive summarization) . Система сначала генерирует краткие выжимки для каждой страницы, затем объединяет их в суммаризации глав, и на финальном этапе формирует лаконичный итог по всему многостраничному документу .

Такой подход, как утверждает Мевальд, практически полностью сводит на нет проблему ИИ-галлюцинаций . Если пользователь загрузит судебную повестку и спросит, виновен ли обвиняемый, система честно ответит, что в предоставленном документе такой информации нет, вместо того чтобы выдумывать вердикт .

⚔️ Проприетарные гиганты против Open Source: закат золотой эры открытого ИИ 48:06

В ходе беседы Клеменс Мевальд озвучил свой резонансный тезис, ранее опубликованный им в блоге на платформе Medium: «Золотая эра открытого исходного кода в сфере ИИ подходит к концу» . По его мнению, публичные заявления ИТ-гигантов об открытости нейросетей зачастую являются маркетинговой уловкой.

В качестве аргументов гость привел особенности лицензирования современных открытых моделей:

Мевальд убежден, что по-настоящему мощные ИИ-модели не могут оставаться бесплатными и открытыми . Стоимость их обучения складывается из колоссальных затрат на вычислительные мощности, высококачественные данные и дефицитные инженерные кадры . Компании-разработчики обязаны возвращать инвестиции, поэтому наиболее эффективные и безопасные модели неизбежно будут оставаться проприетарными, а открытый код сохранит позиции преимущественно в академической среде и среди энтузиастов-любителей .

Контраргумент в индустрии ИИ хорошо известен: сторонники открытого ПО (включая руководителя ИИ-направления Meta Яна Лекуна) утверждают, что открытые архитектуры развиваются быстрее проприетарных за счет глобального вклада сообщества, а их использование позволяет компаниям избегать технологической зависимости от монополии крупных облачных провайдеров.

В завершение встречи Клеменс Мевальд поделился личным опытом использования Converse, который его поразил. Он загрузил в систему сложную таблицу с проектным планом, содержащую задачи, исполнителей и цепочки зависимостей . На гипотетический вопрос: «Что произойдет, если ключевой сотрудник заболеет и уйдет на больничный в указанные даты?» — GPT-4 безошибочно вычислила всю цепочку сдвигов по критическому пути проекта и выдала точную новую дату завершения работ . Это наглядно доказывает, что современные большие языковые модели способны демонстрировать сложные логические рассуждения, выходящие далеко за рамки простого вероятностного предсказания следующего токена .

💬 Цитаты

«Мы используем модель только как разум, а ваши собственные данные — как базу знаний. Это решает проблему галлюцинаций.»

Клеменс Мевальд 40:51

«Большинство моделей, которые сейчас выкладываются в открытый доступ, имеют жесткие лицензионные ограничения, делающие их неприменимыми для бизнеса.»

Клеменс Мевальд 49:25
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Неструктурированные данные
Информация, которая не имеет заранее определенной структуры, например, PDF-документы, изображения, электронные письма и аудиозаписи.
Векторная база данных
Специализированная база данных для хранения и быстрого поиска многомерных векторных представлений (эмбеддингов) текста или других данных.
Рекурсивное саммаризирование
Метод поэтапного сжатия длинного текста, когда сначала резюмируются отдельные страницы, затем главы и в конце — весь документ.
📊 Цифры
🗓 Хронология
  1. 2015 Основание компании Instabase и запуск Клеменсом Мевальдом библиотеки TensorFlow в Google Brain.
  2. 2019 Переход Instabase от эвристических правил к использованию трансформерных моделей (BERT) для обработки документов.
  3. 2022 Клеменс Мевальд присоединяется к команде Instabase в качестве вице-президента по продукту.
  4. 2023 Официальный запуск платформы AI Hub и приложения Converse на базе больших языковых моделей.
⚖️ Другая сторона
Искусственный интеллект Instabase Weaviate GPT-4 Клеменс Мевальд