# От S3 до Kubernetes: создание сквозного ML-конвейера в Dataiku DSS

Источник: https://www.youtube.com/watch?v=rE33UakWAhw
Канал: The TWIML AI Podcast with Sam Charrington
Опубликовано: 06.09.2022

---

В рамках подкаста TWIML AI Podcast Джон Пада, партнерский архитектор решений в Dataiku, представил детальный обзор платформы Dataiku DSS (Data Science Studio). В центре обсуждения — создание сквозного (end-to-end) цикла машинного обучения: от интеграции разрозненных источников данных до развертывания моделей в промышленную эксплуатацию. Основная идея выступления заключается в том, что современный ИИ в корпоративном секторе требует не просто математических моделей, а гибкой экосистемы, объединяющей инженеров, аналитиков и бизнес-пользователей.

## 🤖 Стратегия Enterprise AI: от кейсов к системе
[[JUMP:00:00]]

По мнению Джона Пада, ИИ сегодня воспринимается бизнесом как критический фактор выживания: 75% компаний считают, что выйдут из бизнеса в течение пяти лет, если не внедрят технологии искусственного интеллекта [1:06]. Однако спикер подчеркивает, что реальный потенциал ИИ заключается не в отдельных сценариях использования (таких как предиктивное обслуживание или прогнозирование спроса), а в создании «двигателя принятия решений», который оптимизирует каждый процесс в организации [1:19].

Джон Пада выделяет три столпа успешного внедрения ИИ:

*   **Ускорение получения ценности (Fast-track to Value):** возможность развертывать тысячи проектов в год, а не единичные прототипы [2:04].
*   **Долгосрочная устойчивость (Resilience):** защита от «долга ИИ» (AI debt), когда технологии быстро устаревают [7:49].
*   **Трансформация компании:** использование новых условий работы (например, удаленного доступа) как катализатора изменений [11:58].

## 🏗️ Архитектура Dataiku DSS: как работает «Поток»
[[JUMP:15:10]]

Dataiku DSS позиционируется как единая платформа, поддерживающая разные уровни работы с кодом: No-code (для аналитиков), Low-code и Full-code (для дата-сайентистов) [15:14]. Центральным элементом интерфейса является **Flow (Поток)** — визуальное представление конвейера данных [21:20].

Основные компоненты «Потока»:

*   **Datasets (наборы данных):** отображаются синими иконками. Платформа поддерживает более 40 источников, включая SQL-базы, облачные хранилища (S3, Azure, GCP), NoSQL и HDFS [21:33].
*   **Recipes (рецепты):** логические узлы обработки данных.
    *   *Визуальные рецепты (желтые):* инструменты для очистки, группировки и фильтрации без написания кода [22:24].
    *   *Кодовые рецепты (оранжевые):* позволяют писать скрипты на Python, R, SQL, Spark, Scala [22:50].
*   **Flow Zones (зоны потока):** логические области для организации проекта (инъекция данных, трансформация, обучение) [23:16].

Джон Пада утверждает, что такая структура позволяет избежать «силосов» (изоляции команд), так как все участники видят общую картину проекта в браузере [14:09].

## 🛠️ Практический воркшоп: от S3 до обучения модели
[[JUMP:28:41]]

В ходе демонстрации Джон Пада показал процесс создания модели для предсказания оттока клиентов (churn prediction).

### Шаг 1: Подготовка данных
Для трансформации данных использовался визуальный рецепт **Prepare**.

*   **Инструментарий:** Доступно более 90 библиотек для обработки [29:19].
*   **Функции:** Переименование колонок, замена значений, работа с пропусками [30:04].
*   **Вычисления:** Платформа позволяет выбирать движок выполнения (engine). Если данные лежат в SQL, вычисления могут происходить внутри базы (In-database), либо передаваться в Spark или Kubernetes-кластер [31:25].

### Шаг 2: Написание кода и интеграция с IDE
Для разработчиков Dataiku DSS предлагает глубокую интеграцию:

*   **Jupyter Notebooks:** Можно создавать блокноты прямо в интерфейсе, настраивая кастомные Python-окружения через `pip install` [26:03].
*   **Внешние IDE:** Спикер продемонстрировал синхронизацию с VS Code через API. Изменения в локальном редакторе мгновенно отображаются в рецепте Dataiku после сохранения [34:42].

### Шаг 3: AutoML и экспертный режим
Модуль AutoML позволяет быстро строить модели:

*   Поддерживаются классификация, регрессия и глубокое обучение (через Keras/TensorFlow) [36:11].
*   Режимы работы: от быстрого прототипа до «экспертного режима» с ручной настройкой гиперпараметров [37:16].
*   Для обучения можно использовать GPU в кластерах Kubernetes [39:26].

## 🚀 Деплой и мониторинг: путь в продакшен
[[JUMP:45:42]]

По словам спикера, 87% проектов в области ИИ не достигают стадии эксплуатации [4:47]. Dataiku решает эту проблему через автоматизацию деплоя.

*   **API Designer:** Любой обученный алгоритм или кастомный Python-скрипт можно превратить в эндпоинт API за несколько кликов [45:55].
*   **API Deployer:** Инструмент для управления версиями и средами (Dev/Test/Prod). Поддерживает запуск в Kubernetes-кластерах с автоматическим масштабированием [48:31].
*   **Сценарии (Scenarios):** Механизм автоматизации. Поток может перезапускаться по расписанию, по триггеру изменения данных или по результатам проверки метрик [42:41].
*   **Контроль дрейфа (Drift):** Платформа позволяет настраивать проверки на «расползание» данных или метрик модели, автоматически инициируя переобучение [44:38].

## 💬 Дискуссия и ответы на вопросы
[[JUMP:51:06]]

Сэм Чаррингтон и зрители затронули вопросы конкуренции и технической реализации:

*   **Сравнение с Kubeflow и MLflow:** Джон Пада считает, что Dataiku DSS шире этих инструментов, так как охватывает не только MLOps, но и ETL, управление данными и командное взаимодействие [51:57].
*   **Обработка данных:** Платформа не копирует весь объем данных для визуализации, а использует сэмплы (выборки) для настройки логики, что снижает нагрузку на сеть [56:17].
*   **Воспроизводимость:** Все действия (рецепты) сохраняются как JSON-объекты под управлением Git, что гарантирует полную историю изменений и возможность аудита [54:35].
*   **Версионность данных:** На текущий момент платформа версионирует модели и код, но полноценная версионность самих данных (data versioning) находится в разработке [1:02:19].