# Эволюция данных в Intuit: от разрозненных пайплайнов к единой платформе Batch и Streaming

Источник: https://www.youtube.com/watch?v=yVhnGGcOFOc
Канал: The TWIML AI Podcast
Опубликовано: 08.09.2022

---

Финансовые технологии развиваются с невероятной скоростью, и компания Intuit, стоящая за такими гигантами как TurboTax, QuickBooks и Mint, находится на переднем крае этой трансформации. В центре внимания — переход от разрозненных инструментов обработки данных к единой платформе, объединяющей пакетную (batch) и потоковую (streaming) обработку, чтобы ускорить создание ИИ-решений от месяцев до нескольких часов.

## 🏗️ Проблема айсберга: почему инженеры данных перегружены
[[JUMP:08:50]]

Современный процесс работы с данными в крупных компаниях часто напоминает айсберг. На поверхности — создание инновационных ИИ-функций, но под водой скрывается огромный массив рутинной работы. По словам Дуни Панич (Dunya Panich), в Intuit существует более 60 000 рабочих нагрузок по обработке данных [08:51].

Основные сложности, с которыми сталкиваются специалисты:

*   **Избыточность инфраструктурных задач:** До 35% времени инженеры данных и специалисты по ML тратят на управление инфраструктурой и DevOps-задачи [09:05].
*   **Длительный цикл вывода в продакшен:** Без специализированных платформ создание и запуск нового конвейера данных «с нуля» может занимать до трех месяцев [10:00]. Это включает в себя настройку мониторинга, безопасности, комплайенса и биллинга.
*   **Фрагментация инструментов:** Наличие множества различных инструментов для похожих задач (особенно после поглощений компаний вроде MailChimp и Credit Karma) создает путаницу в том, какой метод обработки выбрать [46:09].

Чтобы решить эти проблемы, команда Intuit создала внутренний портал разработчика, позволяющий развернуть поток данных за считанные минуты [11:49]. Платформа берет на себя всё, что находится «под водой»: масштабирование ресурсов, мониторинг (через Wavefront и Splunk), управление затратами и соответствие стандартам безопасности [10:13].

## 🔄 Баланс между Batch и Streaming: как выбрать путь
[[JUMP:21:27]]

Выбор между пакетной и потоковой обработкой — это всегда компромисс между задержкой (latency) и стоимостью. Джухи Дингра (Juhi Dhingra) выделяет несколько ключевых критериев для принятия решения [21:27]:

**Стриминг (Streaming) выбирают при необходимости моментальной реакции:**

*   **Персонализация в реальном времени:** Например, рекомендации в QuickBooks, основанные на текущем поведении пользователя (clickstream data) [14:13].
*   **Чат-боты и поддержка:** Когда ответ должен быть мгновенным на основе самых свежих данных профиля [23:25].
*   **Высокая стоимость:** Потоковая обработка обходится дороже, так как инфраструктура работает постоянно [26:49].

**Пакетная обработка (Batch) используется для аналитики и прогнозов:**

*   **Долгосрочное планирование:** Например, прогнозирование оттока пользователей TurboTax после окончания налогового сезона [22:46].
*   **Экономия:** Использование «эфемерных» кластеров (например, Amazon EMR), которые запускаются только на время выполнения задачи и сразу выключаются, значительно снижает затраты [26:21].

В Intuit стремятся к «единому опыту» (unified experience), где разработчику не нужно использовать разные системы для этих двух подходов. В будущем они смогут писать код один раз и просто выбирать режим выполнения в интерфейсе [36:58].

## 🕸️ Переход к Data Mesh и «Данным как продукту»
[[JUMP:29:29]]

Одной из самых амбициозных целей Intuit является внедрение концепции **Data Mesh**. Как утверждает Джухи Дингра, это позволяет отойти от централизованного «озера данных», которое часто превращается в «болото», где сложно найти достоверную информацию [27:43].

Ключевые элементы этой стратегии:

1.  **Дата-продукт (Data Product):** Это не просто набор данных, а полноценная единица, включающая код трансформации, метаданные, правила владения и показатели качества [30:08].
2.  **Обнаруживаемость (Discoverability):** Через специальный инструмент Discovery пользователи могут найти нужную таблицу (например, инвойсы QuickBooks), увидеть её «стюарда» (ответственного), уровень конфиденциальности и популярность [31:01].
3.  **Линедж данных (Data Lineage):** Возможность проследить путь данных от финального предсказания модели до исходного сырого события. В Intuit это реализовано через Metadata Registry, куда записывают данные все «проторенные пути» (paved paths) инструментов компании [43:55].

## 🛠️ Будущее: Low-Code и демократизация данных
[[JUMP:50:36]]

Intuit планирует расширить круг пользователей платформы, выходя за пределы касты инженеров данных. Дуня Панич отмечает, что маркетологи, аналитики и продукт-менеджеры должны иметь возможность самостоятельно создавать простые агрегации данных без помощи инженеров [51:28].

**Планы на ближайшие два года включают:**

*   **Data Map Studio:** Визуальный интерфейс для создания трансформаций по принципу рецептов (recipes) [33:13].
*   **Строгая валидация схем:** Система будет блокировать «разрушающие изменения» (breaking changes) на этапе написания кода, если эти данные используются кем-то еще в цепочке [47:43].
*   **Мультиоблачность:** Хотя сейчас компания в основном базируется на AWS, приобретение новых активов заставляет исследовать возможности интеграции с Google Cloud [46:09].

Главный урок, который вынесли спикеры: важно не просто следовать модным архитектурным принципам, а адаптировать их под нужды пользователей [57:29]. «Знайте свое пространство и принципы, но не становитесь их заложниками», — резюмирует Джухи Дингра [57:15].