Эволюция данных в Intuit: от разрозненных пайплайнов к единой платформе Batch и Streaming

Финансовые технологии развиваются с невероятной скоростью, и компания Intuit, стоящая за такими гигантами как TurboTax, QuickBooks и Mint, находится на переднем крае этой трансформации. В центре внимания — переход от разрозненных инструментов обработки данных к единой платформе, объединяющей пакетную (batch) и потоковую (streaming) обработку, чтобы ускорить создание ИИ-решений от месяцев до нескольких часов.

🏗️ Проблема айсберга: почему инженеры данных перегружены 8:50

Современный процесс работы с данными в крупных компаниях часто напоминает айсберг. На поверхности — создание инновационных ИИ-функций, но под водой скрывается огромный массив рутинной работы. По словам Дуни Панич (Dunya Panich), в Intuit существует более 60 000 рабочих нагрузок по обработке данных .

Основные сложности, с которыми сталкиваются специалисты:

Избыточность инфраструктурных задач: До 35% времени инженеры данных и специалисты по ML тратят на управление инфраструктурой и DevOps-задачи .
Длительный цикл вывода в продакшен: Без специализированных платформ создание и запуск нового конвейера данных «с нуля» может занимать до трех месяцев . Это включает в себя настройку мониторинга, безопасности, комплайенса и биллинга.
Фрагментация инструментов: Наличие множества различных инструментов для похожих задач (особенно после поглощений компаний вроде MailChimp и Credit Karma) создает путаницу в том, какой метод обработки выбрать .

Чтобы решить эти проблемы, команда Intuit создала внутренний портал разработчика, позволяющий развернуть поток данных за считанные минуты . Платформа берет на себя всё, что находится «под водой»: масштабирование ресурсов, мониторинг (через Wavefront и Splunk), управление затратами и соответствие стандартам безопасности .

🔄 Баланс между Batch и Streaming: как выбрать путь 21:27

Выбор между пакетной и потоковой обработкой — это всегда компромисс между задержкой (latency) и стоимостью. Джухи Дингра (Juhi Dhingra) выделяет несколько ключевых критериев для принятия решения :

Стриминг (Streaming) выбирают при необходимости моментальной реакции:

Персонализация в реальном времени: Например, рекомендации в QuickBooks, основанные на текущем поведении пользователя (clickstream data) .
Чат-боты и поддержка: Когда ответ должен быть мгновенным на основе самых свежих данных профиля .
Высокая стоимость: Потоковая обработка обходится дороже, так как инфраструктура работает постоянно .

Пакетная обработка (Batch) используется для аналитики и прогнозов:

Долгосрочное планирование: Например, прогнозирование оттока пользователей TurboTax после окончания налогового сезона .
Экономия: Использование «эфемерных» кластеров (например, Amazon EMR), которые запускаются только на время выполнения задачи и сразу выключаются, значительно снижает затраты .

В Intuit стремятся к «единому опыту» (unified experience), где разработчику не нужно использовать разные системы для этих двух подходов. В будущем они смогут писать код один раз и просто выбирать режим выполнения в интерфейсе .

🕸️ Переход к Data Mesh и «Данным как продукту» 29:29

Одной из самых амбициозных целей Intuit является внедрение концепции Data Mesh. Как утверждает Джухи Дингра, это позволяет отойти от централизованного «озера данных», которое часто превращается в «болото», где сложно найти достоверную информацию .

Ключевые элементы этой стратегии:

Дата-продукт (Data Product): Это не просто набор данных, а полноценная единица, включающая код трансформации, метаданные, правила владения и показатели качества .
Обнаруживаемость (Discoverability): Через специальный инструмент Discovery пользователи могут найти нужную таблицу (например, инвойсы QuickBooks), увидеть её «стюарда» (ответственного), уровень конфиденциальности и популярность .
Линедж данных (Data Lineage): Возможность проследить путь данных от финального предсказания модели до исходного сырого события. В Intuit это реализовано через Metadata Registry, куда записывают данные все «проторенные пути» (paved paths) инструментов компании .

🛠️ Будущее: Low-Code и демократизация данных 50:36

Intuit планирует расширить круг пользователей платформы, выходя за пределы касты инженеров данных. Дуня Панич отмечает, что маркетологи, аналитики и продукт-менеджеры должны иметь возможность самостоятельно создавать простые агрегации данных без помощи инженеров .

Планы на ближайшие два года включают:

Data Map Studio: Визуальный интерфейс для создания трансформаций по принципу рецептов (recipes) .
Строгая валидация схем: Система будет блокировать «разрушающие изменения» (breaking changes) на этапе написания кода, если эти данные используются кем-то еще в цепочке .
Мультиоблачность: Хотя сейчас компания в основном базируется на AWS, приобретение новых активов заставляет исследовать возможности интеграции с Google Cloud .

Главный урок, который вынесли спикеры: важно не просто следовать модным архитектурным принципам, а адаптировать их под нужды пользователей . «Знайте свое пространство и принципы, но не становитесь их заложниками», — резюмирует Джухи Дингра .