Сэм Чаррингтон и Кристина Шао обсудили сквозное машинное обучение в Dataiku DSS

The TWIML AI Podcast with Sam Charrington 2,8 тыс. 30 мин 7 мин 02.09.2022
Главное

В рамках серии специальных видеороликов от The TWIML AI Podcast ведущий Сэм Чаррингтон и старший менеджер по продуктовому маркетингу Dataiku Кристина Шао обсудили возможности платформы Dataiku DSS для реализации полного цикла машинного обучения. На примере задачи прогнозирования задержек авиарейсов эксперты продемонстрировали, как сквозная платформа объединяет работу аналитиков, дата-сайентистов и операционных специалистов в единой экосистеме. В центре внимания оказалась концепция баланса между визуальным интерфейсом low-code/no-code и классическим написанием кода, а также инструменты автоматизации — от подготовки признаков до долгосрочного мониторинга моделей в продакшене.

🌐 Обзор Dataiku DSS и сценарий демонстрации 0:00

Dataiku DSS позиционируется разработчиками как сквозная платформа для дата-сайенса, аналитики и общих манипуляций с данными. Функционал системы охватывает весь жизненный цикл работы с данными: от базового исследования и визуализации до очистки, трансформации, построения ML-конвейеров и их последующего развертывания.

В качестве демонстрационного сценария Кристина Шао выбрала задачу предсказания задержек авиарейсов. В рамках кейса платформа объединяет несколько разнородных источников:

Основная ценность подобного сквозного подхода, по мнению Кристины Шао, заключается в создании единого пространства для совместной работы. Специалисты с совершенно разным уровнем технической подготовки и навыков программирования могут эффективно взаимодействовать внутри одного и того же проекта.

🗺️ Командный центр и визуальный интерфейс Flow 1:31

Точкой входа в платформу является домашняя страница, которая функционирует как полноценный командный центр для менеджеров проектов, ведущих аналитиков и инженеров. Здесь аккумулируются цели проекта, списки текущих задач (to-do lists), состав команды и хронология последних изменений в режиме реального времени.

Основная аналитическая и инженерная работа разворачивается в интерфейсе под названием Flow («Поток»). Flow представляет собой интерактивную визуализацию всего конвейера обработки данных, который строится слева направо: от источников данных к финальным моделям.

По словам Кристины Шао, взаимодействие с Dataiku DSS может быть как исключительно визуальным, так и полностью кодовым. Для разработчиков реализована глубокая интеграция со встроенными редакторами кода и средой Jupyter Notebooks, а также поддержка внешних IDE. На этапе операционализации (operationalization) все действия, выполняемые пользователем в графическом интерфейсе, могут быть полностью дублированы и автоматизированы через API.

Стандартный конвейер во Flow состоит из нескольких последовательных фаз:

  1. Импорт и подключение сырых данных (история полетов, погода).
  2. Очистка, подготовка и обогащение (создание новых признаков).
  3. Моделирование (бинарная классификация: будет ли рейс задержан).
  4. Деплой и промышленная эксплуатация (передача результатов конечным пользователям).

📊 Подключение, профилирование и подготовка данных 4:21

Процесс работы начинается с интеграции с инфраструктурой хранения. Платформа способна подключаться к локальным базам данных, облачным хранилищам (например, AWS S3) и корпоративным хранилищам данных. Внутри Dataiku DSS любые импортированные таблицы приобретают вид интерактивных интерфейсов, которые Шао метафорически назвала «Excel на стероидах».

Платформа предоставляет встроенные инструменты для профилирования данных на уровне отдельных колонок. Пользователь может мгновенно оценить качество данных с помощью цветовых статус-баров, выявить пропущенные значения, аномалии и изучить базовые статистические распределения.

Для трансформации данных аналитикам доступны два пути: использование визуальных point-and-click рецептов или написание кастомной логики, например, на Python. Одним из ключевых элементов платформы является Prepare Recipe («Рецепт подготовки»), содержащий более 90 встроенных процессоров. Они позволяют выполнять операции с датами, изменять форму таблиц, обрабатывать массивы и даже применять базовые инструменты NLP (обработки естественного языка).

Все операции очистки, такие как парсинг дат, округление или фильтрация, упаковываются внутрь единого рецепта в виде модульных шагов. Шао рекомендует аннотировать каждый шаг, чтобы другие участники команды при наведении курсора на Flow сразу понимали логику преобразований (например, где происходит базовая очистка, а где — обогащение).

В крупных организациях с жестким управлением данными (Data Governance) дата-инженеры централизованно настраивают права доступа к кластерам или базам данных для конкретных пользователей. Dataiku DSS стремится выполнять вычисления непосредственно по месту хранения данных (in-place processing), используя мощности исходных СУБД, а не пропуская огромные массивы информации через оперативную память платформы.

🛠️ Визуальные трансформации и интеграция с кодом 9:06

Платформа автоматизирует рутинные операции с помощью специализированных рецептов агрегации и группировки данных, где пользователю достаточно выбрать нужные колонки и функции в графическом интерфейсе, после чего запустить расчет на движках Spark или Kubernetes. Другим частым сценарием является использование визуального рецепта Join для объединения таблиц. Графический интерфейс помогает «гражданским дата-сайентистам» (citizen data scientists) вспомнить разницу между типами соединений (Inner, Left и т.д.) и настроить точное или нечеткое (fuzzy) соответствие полей.

Для профессиональных программистов визуальные шаги не становятся ограничением. Любой графический рецепт слияния можно в один клик конвертировать в стандартный SQL-рецепт. Как утверждает Кристина Шао, в интерфейсе Dataiku пользователь всегда находится «всего в двух шагах от кода», что обеспечивает высокую расширяемость системной логики.

В демонстрационном сценарии для обогащения данных использовался кодовый рецепт на Python, который обращался к внешнему веб-сайту для получения информации о годе выпуска конкретного самолета. Логика авторов заключалась в гипотезе: возраст воздушного судна может коррелировать с рисками технических задержек.

За кулисами платформы каждое сохранение, изменение или запуск автоматически фиксируются в связанном репозитории Git. Разработчики могут подключать Jupyter Notebooks к удаленным репозиториям, выполнять операции клонирования, ветвления (branching) и слияния кода. На финальном этапе подготовки данных с помощью оконных функций (Window Recipes) во Flow рассчитывается важный признак — средняя задержка для каждого конкретного аэропорта за последние 5 дней.

🤖 Обучение моделей и возможности AutoML 12:34

Конструирование признаков (Feature Engineering) в системе разделено на экспертное (ручное) и автоматическое. Базовое обогащение, основанное на бизнес-логике (например, выделение дня недели или недели года из даты), выполняется с помощью подсказок платформы, но контролируется человеком. Сложные математические трансформации, такие как создание полиномиальных или попарных комбинаций числовых колонок, берет на себя модуль AutoML.

Перед этапом построения моделей платформа позволяет проводить разведочный анализ данных с помощью карт статистического анализа (Statistics Cards), включая построение корреляционных матриц и кривых соответствия на миллионах записей, что помогает отобрать предиктивные признаки.

В процессе создания модели машинного обучения пользователь может задействовать шаблоны AutoML. Платформа предлагает выбор стратегий в зависимости от специфики бизнеса:

На этапе предобработки AutoML автоматически отсекает идентификаторы (ID) и текстовые поля с чрезмерно высокой мощностью (cardinality), проводит дамми-кодирование (dummy encoding) категориальных переменных и масштабирование числовых данных.

Пользователь сохраняет полный контроль над процессом оптимизации. Интересной функцией, по мнению Шао, выступает механизм утверждений (Assertions). Эксперты могут закладывать в модель априорные гипотезы (например, «если три предыдущих рейса улетели вовремя, мой полет тоже не задержится» или «в праздничные дни на День благодарения вылеты из Нью-Йорка будут задерживаться»). Эти утверждения не влияют на математическое обучение алгоритма, а служат автоматической проверкой на адекватность (sanity check). Если обученная модель противоречит базовой человеческой интуиции, система просигнализирует об этом, помогая выстроить доверие к результатам.

Все сессии обучения и эксперименты централизованно отслеживаются платформой. В отличие от хаотичной работы в изолированных блокнотах, Dataiku DSS фиксирует, какое именно сочетание гиперпараметров привело к наилучшему показателю AUC, сохраняя прозрачность истории для всей команды.

🔍 Интерпретируемость моделей и оценка бизнес-рисков 19:51

Для раскрытия логики работы сложных моделей (включая нейросети) в Dataiku DSS интегрированы инструменты интерактивного анализа "What-if". Специалист может вручную создать гипотетический профиль данных (сегмент пассажиров или конкретный рейс) и сравнить сценарии между собой, используя графики индивидуального условного ожидания (ICE) или значения Шепли (Shapley values) для оценки вклада конкретных факторов в итоговое предсказание.

В интерфейсе матрицы ошибок (Confusion Matrix) разработчики предусмотрели возможность кастомизации финансовых и операционных весов. Поскольку для бизнеса цена ложноположительного исхода (False Positive) часто существенно отличается от цены ложноотрицательного (False Negative), аналитик может гибко сдвигать порог классификации. По словам Кристины Шао, это имеет решающее значение в таких высокорисковых индустриях, как здравоохранение, уголовное правосудие или управление крупными авиаузлами.

🚀 Развертывание, автоматическое переобучение и бизнес-приложения 22:02

Dataiku DSS призвана решить распространенную проблему, когда успешные аналитические модели «умирают» на этапе передачи в IT-департамент из-за необходимости долгого переписывания кода. Платформа поддерживает несколько сценариев развертывания, включая пакетную обработку данных (batch jobs) по триггерам и деплой в виде изолированных API-сервисов.

Рутинный процесс создания сопроводительной технической документации полностью автоматизирован: система позволяет в один клик экспортировать подробный отчёт по кастомным корпоративным шаблонам, фиксируя все параметры валидации, результаты поиска гиперпараметров и графики Lift относительно случайного базового уровня.

Обученная модель возвращается во Flow в виде специального объекта. Сценарии автоматизации позволяют гибко настраивать пайплайны непрерывного переобучения (retraining) при наступлении определенных событий (например, при падении точности ниже установленного порога).

За состоянием моделей в продакшене следят инструменты мониторинга дрейфа данных (Data Drift) и падения производительности (Performance Fall-off). Если статистические характеристики входящего потока данных начинают значимо отличаться от обучающей выборки, система отправляет оповещение.

Эффективность детектора дрейфа Шао продемонстрировала на историческом примере: модель, успешно обученная на стабильных авиаданных 2018–2019 годов, полностью теряла актуальность в 2020 году. Из-за пандемических аномалий и массовой отмены рейсов поведение авиационной отрасли радикально изменилось, что мгновенно зафиксировали алгоритмы мониторинга Dataiku DSS.

Финальным уровнем абстракции выступает упаковка готового Flow в изолированные бизнес-приложения (Applications). Конечный бизнес-аналитик, не обладающий техническими навыками, вообще не видит внутреннюю архитектуру «Потока». Интерфейс приложения максимально упрощен: пользователь из условного аэропорта имени Кеннеди (JFK) просто перетаскивает мышью Excel-таблицу со списком рейсов и нажимает кнопку запуска. Система автоматически выполняет весь конвейер трансформаций и выдает готовый интерактивный дашборд с ответами на ключевые бизнес-вопросы: какие рейсы в выходные дни на День благодарения находятся в зоне максимального риска и какие города вылета требуют повышенного внимания.

💬 Цитаты

«В Dataiku вы всегда находитесь примерно в двух шагах от кода в любой точке настройки.»

Кристина Шао 10:23

«За кулисами этого проекта каждое сохранение, каждый запуск фиксируются в репозитории Git.»

Кристина Шао 11:31
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
AutoML
Технология автоматического подбора алгоритмов машинного обучения, предобработки данных и оптимизации гиперпараметров без прямого участия программиста.
Data Drift
Изменение статистических свойств и распределения входных данных с течением времени, способное вызвать критическое падение точности работающей ML-модели.
Jupyter Notebook
Интерактивная веб-среда разработки, позволяющая объединять исполняемый код, визуализации и текст в одном документе.
Confusion Matrix
Матрица ошибок — таблица, используемая в машинном обучении для наглядной оценки точности работы алгоритмов классификации.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Dataiku DSS Кристина Шао Сэм Чаррингтон AutoML Data Drift