ClearML: как автоматизировать хаос в ML-разработке и подружить облака с on-prem

The TWIML AI Podcast 507 28 мин 3 мин 02.09.2022
Главное

Управление жизненным циклом машинного обучения (ML Lifecycle) часто превращается в хаос из-за разрозненности инструментов для написания кода, управления данными и развертывания моделей. Мозес Гудман, сооснователь и технический директор Allegro AI, в беседе с Сэмом Черрингтоном (ведущим TWIML AI Podcast) представил ClearML — платформу с открытым исходным кодом, призванную превратить разработку ИИ в упорядоченный процесс, напоминающий классический CI/CD в софтверной инженерии.

🛠️ Философия Open Source и модель «двух строк кода» 0:29

ClearML позиционируется как комплексная платформа, охватывающая весь путь от разработки и оркестрации до управления данными и обслуживания моделей (serving) . По словам Гудмана, проект придерживается принципа «сначала открытый код» (open first): и клиентская, и серверная части доступны публично, что позволяет компаниям развертывать систему полностью на своих мощностях . Хотя у проекта есть коммерческие предложения для предприятий (Open Core), корпоративные клиенты получают полный доступ к исходному коду для создания собственных надстроек .

Одной из ключевых особенностей системы является минимальный порог входа. Гудман утверждает, что для полной интеграции проекта с платформой требуется всего две строки кода на Python:

  1. Импорт пакета ClearML.
  2. Инициализация (task initialization) .

После этого система работает в фоновом режиме, автоматически «выкачивая» данные из используемых фреймворков (TensorFlow, PyTorch, Keras и др.). Это обеспечивает полную прозрачность процессов без необходимости вручную прописывать логирование для каждого шага конвейера .

🧪 От экспериментов к оркестрации: взгляд со стороны Data Scientist 4:04

В ходе демонстрации на примере обучения модели на датасете MNIST Гудман показал, что ClearML автоматически фиксирует не только сам код, но и состояние репозитория Git, включая даже незакоммиченные изменения . По его мнению, это критически важно, так как исследователи данных часто работают «грязно», меняя магические числа в коде на лету .

Основные возможности для исследователя:

По утверждению Гудмана, такой подход дает Data Scientist-у возможность сосредоточиться на алгоритмах, не задумываясь о Docker-контейнерах или особенностях инфраструктуры .

🏗️ Масштабирование и MLOps: управление ресурсами и Docker 8:01

После того как код превращен в «задачу» (job), в игру вступает инженер машинного обучения (MLOps). ClearML позволяет клонировать существующие задачи через UI, изменять параметры (например, количество эпох обучения) и отправлять их в очереди на исполнение (execution queues) .

Архитектурные особенности оркестрации по версии Гудмана:

Интересно, что Гудман называет ClearML «панелью управления» (control plane), которая не хранит данные пользователей сами по себе, а управляет ссылками на существующие объектные хранилища (S3 и аналоги), сохраняя привычный для компании стек .

🚀 Продакшн и совместная работа 20:35

Для этапа развертывания предусмотрен компонент ClearML Serving. По словам Гудмана, система работает как «sidecar» для движков вроде NVIDIA Triton Inference Server . Когда исследователь «публикует» модель в интерфейсе ClearML, сервисный слой автоматически обнаруживает новую версию и обновляет конфигурацию Triton, исключая ручные манипуляции с API .

Система также поддерживает:

В завершение Мозес Гудман отметил, что хотя исторически ClearML пользовался спросом у специалистов по Deep Learning из-за сложности управления видеокартами, сегодня интерес растет и со стороны классического машинного обучения . По мнению Гудмана, гибкость открытой платформы и возможность объединять офисные ресурсы с облачными мощностями являются главными факторами перехода компаний на подобные комплексные решения .

💬 Цитаты

«Интеграция происходит почти магически: всего две строки кода, и система начинает выкачивать информацию из ваших фреймворков в фоновом режиме.»

Мозес Гудман 02:39

«Мы все бываем неаккуратны в процессе разработки, поэтому система логгирует даже ваши невыполненные коммиты в Git.»

Мозес Гудман 04:17
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
MLOps
Набор практик, направленных на надежное и эффективное развертывание и обслуживание моделей машинного обучения.
Orchestration
Автоматизированное управление и координация вычислительных ресурсов для выполнения задач.
Open Core
Бизнес-модель, при которой основная часть продукта бесплатна и открыта, а дополнительные функции для бизнеса продаются отдельно.
Triton Inference Server
Программное обеспечение от NVIDIA для стандартизированного развертывания моделей ИИ на любых устройствах.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект ClearML MLOps Allegro AI NVIDIA Triton оркестрация