Эволюция данных в Intuit: от разрозненных пайплайнов к единой платформе Batch и Streaming

The TWIML AI Podcast 596 59 мин 3 мин 08.09.2022
Главное

Финансовые технологии развиваются с невероятной скоростью, и компания Intuit, стоящая за такими гигантами как TurboTax, QuickBooks и Mint, находится на переднем крае этой трансформации. В центре внимания — переход от разрозненных инструментов обработки данных к единой платформе, объединяющей пакетную (batch) и потоковую (streaming) обработку, чтобы ускорить создание ИИ-решений от месяцев до нескольких часов.

🏗️ Проблема айсберга: почему инженеры данных перегружены 8:50

Современный процесс работы с данными в крупных компаниях часто напоминает айсберг. На поверхности — создание инновационных ИИ-функций, но под водой скрывается огромный массив рутинной работы. По словам Дуни Панич (Dunya Panich), в Intuit существует более 60 000 рабочих нагрузок по обработке данных .

Основные сложности, с которыми сталкиваются специалисты:

Чтобы решить эти проблемы, команда Intuit создала внутренний портал разработчика, позволяющий развернуть поток данных за считанные минуты . Платформа берет на себя всё, что находится «под водой»: масштабирование ресурсов, мониторинг (через Wavefront и Splunk), управление затратами и соответствие стандартам безопасности .

🔄 Баланс между Batch и Streaming: как выбрать путь 21:27

Выбор между пакетной и потоковой обработкой — это всегда компромисс между задержкой (latency) и стоимостью. Джухи Дингра (Juhi Dhingra) выделяет несколько ключевых критериев для принятия решения :

Стриминг (Streaming) выбирают при необходимости моментальной реакции:

Пакетная обработка (Batch) используется для аналитики и прогнозов:

В Intuit стремятся к «единому опыту» (unified experience), где разработчику не нужно использовать разные системы для этих двух подходов. В будущем они смогут писать код один раз и просто выбирать режим выполнения в интерфейсе .

🕸️ Переход к Data Mesh и «Данным как продукту» 29:29

Одной из самых амбициозных целей Intuit является внедрение концепции Data Mesh. Как утверждает Джухи Дингра, это позволяет отойти от централизованного «озера данных», которое часто превращается в «болото», где сложно найти достоверную информацию .

Ключевые элементы этой стратегии:

  1. Дата-продукт (Data Product): Это не просто набор данных, а полноценная единица, включающая код трансформации, метаданные, правила владения и показатели качества .
  2. Обнаруживаемость (Discoverability): Через специальный инструмент Discovery пользователи могут найти нужную таблицу (например, инвойсы QuickBooks), увидеть её «стюарда» (ответственного), уровень конфиденциальности и популярность .
  3. Линедж данных (Data Lineage): Возможность проследить путь данных от финального предсказания модели до исходного сырого события. В Intuit это реализовано через Metadata Registry, куда записывают данные все «проторенные пути» (paved paths) инструментов компании .

🛠️ Будущее: Low-Code и демократизация данных 50:36

Intuit планирует расширить круг пользователей платформы, выходя за пределы касты инженеров данных. Дуня Панич отмечает, что маркетологи, аналитики и продукт-менеджеры должны иметь возможность самостоятельно создавать простые агрегации данных без помощи инженеров .

Планы на ближайшие два года включают:

Главный урок, который вынесли спикеры: важно не просто следовать модным архитектурным принципам, а адаптировать их под нужды пользователей . «Знайте свое пространство и принципы, но не становитесь их заложниками», — резюмирует Джухи Дингра .

💬 Цитаты

«До 35% времени инженеры данных и специалисты по ML тратят на управление инфраструктурой и DevOps-задачи.»

Дуня Панич 09:05

«Принципы важны, но не становитесь их заложниками... адаптируйте их под нужды своих пользователей.»

Джухи Дингра 57:15
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Data Mesh
Децентрализованная архитектура данных, где ответственность за данные лежит на конкретных бизнес-командах (доменах).
Lineage
История происхождения данных, позволяющая отследить их путь от источника до конечного потребителя.
Paved Path
«Проторенная дорожка» — стандартизированный и автоматизированный набор инструментов, рекомендуемый компанией для разработки.
Clickstream
Поток данных о кликах и действиях пользователя на сайте или в приложении.
📊 Цифры
🗓 Хронология
  1. 2020 Запуск Feature Store в Intuit и первая беседа Сэма Черрингтона с представителями компании.
  2. 2023 Активная фаза объединения Batch и Streaming платформ и переход к Data Mesh.
  3. 2025 Целевой горизонт для полной реализации стратегии демократизации данных и Low-code инструментов.
⚖️ Другая сторона
Технологии и IT Intuit Data Mesh Feature Store Batch Processing Stream Processing