Финансовые технологии развиваются с невероятной скоростью, и компания Intuit, стоящая за такими гигантами как TurboTax, QuickBooks и Mint, находится на переднем крае этой трансформации. В центре внимания — переход от разрозненных инструментов обработки данных к единой платформе, объединяющей пакетную (batch) и потоковую (streaming) обработку, чтобы ускорить создание ИИ-решений от месяцев до нескольких часов.
🏗️ Проблема айсберга: почему инженеры данных перегружены 8:50
Современный процесс работы с данными в крупных компаниях часто напоминает айсберг. На поверхности — создание инновационных ИИ-функций, но под водой скрывается огромный массив рутинной работы. По словам Дуни Панич (Dunya Panich), в Intuit существует более 60 000 рабочих нагрузок по обработке данных .
Основные сложности, с которыми сталкиваются специалисты:
- Избыточность инфраструктурных задач: До 35% времени инженеры данных и специалисты по ML тратят на управление инфраструктурой и DevOps-задачи .
- Длительный цикл вывода в продакшен: Без специализированных платформ создание и запуск нового конвейера данных «с нуля» может занимать до трех месяцев . Это включает в себя настройку мониторинга, безопасности, комплайенса и биллинга.
- Фрагментация инструментов: Наличие множества различных инструментов для похожих задач (особенно после поглощений компаний вроде MailChimp и Credit Karma) создает путаницу в том, какой метод обработки выбрать .
Чтобы решить эти проблемы, команда Intuit создала внутренний портал разработчика, позволяющий развернуть поток данных за считанные минуты . Платформа берет на себя всё, что находится «под водой»: масштабирование ресурсов, мониторинг (через Wavefront и Splunk), управление затратами и соответствие стандартам безопасности .
🔄 Баланс между Batch и Streaming: как выбрать путь 21:27
Выбор между пакетной и потоковой обработкой — это всегда компромисс между задержкой (latency) и стоимостью. Джухи Дингра (Juhi Dhingra) выделяет несколько ключевых критериев для принятия решения :
Стриминг (Streaming) выбирают при необходимости моментальной реакции:
- Персонализация в реальном времени: Например, рекомендации в QuickBooks, основанные на текущем поведении пользователя (clickstream data) .
- Чат-боты и поддержка: Когда ответ должен быть мгновенным на основе самых свежих данных профиля .
- Высокая стоимость: Потоковая обработка обходится дороже, так как инфраструктура работает постоянно .
Пакетная обработка (Batch) используется для аналитики и прогнозов:
- Долгосрочное планирование: Например, прогнозирование оттока пользователей TurboTax после окончания налогового сезона .
- Экономия: Использование «эфемерных» кластеров (например, Amazon EMR), которые запускаются только на время выполнения задачи и сразу выключаются, значительно снижает затраты .
В Intuit стремятся к «единому опыту» (unified experience), где разработчику не нужно использовать разные системы для этих двух подходов. В будущем они смогут писать код один раз и просто выбирать режим выполнения в интерфейсе .
🕸️ Переход к Data Mesh и «Данным как продукту» 29:29
Одной из самых амбициозных целей Intuit является внедрение концепции Data Mesh. Как утверждает Джухи Дингра, это позволяет отойти от централизованного «озера данных», которое часто превращается в «болото», где сложно найти достоверную информацию .
Ключевые элементы этой стратегии:
- Дата-продукт (Data Product): Это не просто набор данных, а полноценная единица, включающая код трансформации, метаданные, правила владения и показатели качества .
- Обнаруживаемость (Discoverability): Через специальный инструмент Discovery пользователи могут найти нужную таблицу (например, инвойсы QuickBooks), увидеть её «стюарда» (ответственного), уровень конфиденциальности и популярность .
- Линедж данных (Data Lineage): Возможность проследить путь данных от финального предсказания модели до исходного сырого события. В Intuit это реализовано через Metadata Registry, куда записывают данные все «проторенные пути» (paved paths) инструментов компании .
🛠️ Будущее: Low-Code и демократизация данных 50:36
Intuit планирует расширить круг пользователей платформы, выходя за пределы касты инженеров данных. Дуня Панич отмечает, что маркетологи, аналитики и продукт-менеджеры должны иметь возможность самостоятельно создавать простые агрегации данных без помощи инженеров .
Планы на ближайшие два года включают:
- Data Map Studio: Визуальный интерфейс для создания трансформаций по принципу рецептов (recipes) .
- Строгая валидация схем: Система будет блокировать «разрушающие изменения» (breaking changes) на этапе написания кода, если эти данные используются кем-то еще в цепочке .
- Мультиоблачность: Хотя сейчас компания в основном базируется на AWS, приобретение новых активов заставляет исследовать возможности интеграции с Google Cloud .
Главный урок, который вынесли спикеры: важно не просто следовать модным архитектурным принципам, а адаптировать их под нужды пользователей . «Знайте свое пространство и принципы, но не становитесь их заложниками», — резюмирует Джухи Дингра .