От S3 до Kubernetes: создание сквозного ML-конвейера в Dataiku DSS

The TWIML AI Podcast with Sam Charrington 1,7 тыс. 1 ч 3 мин 4 мин 06.09.2022
Главное

В рамках подкаста TWIML AI Podcast Джон Пада, партнерский архитектор решений в Dataiku, представил детальный обзор платформы Dataiku DSS (Data Science Studio). В центре обсуждения — создание сквозного (end-to-end) цикла машинного обучения: от интеграции разрозненных источников данных до развертывания моделей в промышленную эксплуатацию. Основная идея выступления заключается в том, что современный ИИ в корпоративном секторе требует не просто математических моделей, а гибкой экосистемы, объединяющей инженеров, аналитиков и бизнес-пользователей.

🤖 Стратегия Enterprise AI: от кейсов к системе 0:00

По мнению Джона Пада, ИИ сегодня воспринимается бизнесом как критический фактор выживания: 75% компаний считают, что выйдут из бизнеса в течение пяти лет, если не внедрят технологии искусственного интеллекта . Однако спикер подчеркивает, что реальный потенциал ИИ заключается не в отдельных сценариях использования (таких как предиктивное обслуживание или прогнозирование спроса), а в создании «двигателя принятия решений», который оптимизирует каждый процесс в организации .

Джон Пада выделяет три столпа успешного внедрения ИИ:

🏗️ Архитектура Dataiku DSS: как работает «Поток» 15:10

Dataiku DSS позиционируется как единая платформа, поддерживающая разные уровни работы с кодом: No-code (для аналитиков), Low-code и Full-code (для дата-сайентистов) . Центральным элементом интерфейса является Flow (Поток) — визуальное представление конвейера данных .

Основные компоненты «Потока»:

Джон Пада утверждает, что такая структура позволяет избежать «силосов» (изоляции команд), так как все участники видят общую картину проекта в браузере .

🛠️ Практический воркшоп: от S3 до обучения модели 28:41

В ходе демонстрации Джон Пада показал процесс создания модели для предсказания оттока клиентов (churn prediction).

Шаг 1: Подготовка данных

Для трансформации данных использовался визуальный рецепт Prepare.

Шаг 2: Написание кода и интеграция с IDE

Для разработчиков Dataiku DSS предлагает глубокую интеграцию:

Шаг 3: AutoML и экспертный режим

Модуль AutoML позволяет быстро строить модели:

🚀 Деплой и мониторинг: путь в продакшен 45:42

По словам спикера, 87% проектов в области ИИ не достигают стадии эксплуатации . Dataiku решает эту проблему через автоматизацию деплоя.

💬 Дискуссия и ответы на вопросы 51:06

Сэм Чаррингтон и зрители затронули вопросы конкуренции и технической реализации:

💬 Цитаты

«75% компаний верят, что выйдут из бизнеса в течение 5 лет, если не научатся использовать ИИ.»

Джон Пада 01:06

«Машинное обучение — это не только код, это работа аналитиков, бизнес-команд и инженеров вместе.»

Джон Пада 05:43
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Flow
Центральный визуальный интерфейс в Dataiku DSS, представляющий конвейер данных и моделей.
Recipe
Узел обработки данных в Dataiku (может быть визуальным или кодовым).
AutoML
Технология автоматического подбора алгоритмов и параметров для обучения моделей.
Data Drift
Изменение статистических свойств входных данных со временем, требующее переобучения модели.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Dataiku DSS MLOps AutoML Kubernetes Enterprise AI