Майк дел Бальсо: «2021 год станет годом Feature Store в индустрии ML»

The TWIML AI Podcast 606 49 мин 4 мин 11.11.2020
Главное

Майк дел Бальсо, сооснователь и генеральный директор Tecton, вернулся в подкаст TWIML AI спустя два с половиной года после своего первого визита, чтобы обсудить эволюцию MLOps. В беседе с ведущим Сэмом Чаррингтоном он объясняет, почему именно Feature Store (хранилище признаков) стало тем недостающим звеном, которое позволяет компаниям масштабировать машинное обучение и превращать экспериментальные модели в работающие бизнес-продукты.

🛠 От Google до Uber: рождение концепции Feature Store 2:43

Майк дел Бальсо начал свой путь в Google, работая над системами машинного обучения (ML) для рекламных аукционов. По его словам, в Google эти процессы были максимально «продакшн-ориентированными» ещё до того, как термин MLOps стал общепринятым . Перейдя в Uber в 2015 году, дел Бальсо столкнулся с иным вызовом: компания имела лишь несколько моделей в производстве и не обладала готовой инфраструктурой для их масштабирования.

Вместе с командой он разработал Michelangelo — платформу, которая позволила Uber совершить качественный скачок в использовании ИИ. Оглядываясь назад, Майк отмечает: самым ценным компонентом этой платформы оказался именно Feature Store, хотя тогда команда даже не использовала этот термин .

Основные выводы из опыта в Uber:

🤝 Проблема сотрудничества и «налог на надежность» 8:46

Одной из главных сложностей внедрения Feature Store является сопротивление со стороны индивидуальных исследователей данных. Ведущий Сэм Чаррингтон отметил, что публикация признака в общее хранилище накладывает на автора обязательства по его поддержке, что может восприниматься как лишнее бремя .

Майк дел Бальсо подтверждает наличие этой «проблемы доверия», но подчеркивает, что без централизованной системы эффективность падает:

  1. Дублирование усилий: Часто два специалиста, сидящих рядом, строят одни и те же 100 признаков, потому что не знают о работе друг друга или не имеют механизма для переиспользования .
  2. Роль метаданных: Современные хранилища признаков отслеживают не только сами данные, но и метаданные: кто владелец, каков уровень SLA (Tier-1 или Tier-2), является ли признак экспериментальным или промышленным .
  3. Централизованные команды: Дел Бальсо выделил новый тренд — появление выделенных команд внутри ML-платформ, которые берут на себя владение самыми важными и часто используемыми признаками, снимая эту нагрузку с отдельных дата-сайентистов .

🏗 Пять столпов современного Feature Store 21:35

Объясняя техническую суть системы, Майк выделил пять ключевых компонентов, которые превращают обычное хранилище данных в инструмент для MLOps:

  1. Transformation Layer (Слой трансформации): Преобразует сырые данные в значения признаков .
  2. Storage Layer (Слой хранения): Организует хранение для быстрого извлечения данных как в реальном времени (онлайн), так и для обучения (оффлайн) .
  3. Serving Layer (Слой выдачи): Обеспечивает низкую задержку при получении признаков для работающей модели и консистентность данных между обучением и продакшном .
  4. Central Registry (Центральный реестр): Содержит определения признаков и метаданные, являясь «неизменяемой записью» о том, что использовалось в производстве .
  5. Monitoring Layer (Слой мониторинга): Отслеживает операционные метрики и корректность данных, предотвращая сбои в работе моделей .

Дел Бальсо подчеркивает, что Feature Store не заменяет существующую инфраструктуру (например, Snowflake или Amazon S3), а интегрируется с ней, выполняя роль координатора .

📈 Рынок и будущее: 2021 год как переломный момент 30:52

Согласно прогнозу Майка, 2021 год станет «годом Feature Store» . Он отмечает, что даже те компании, которые начали с внедрения сложных систем AutoML, быстро упираются в проблему подготовки данных: «Легко перетащить CSV-файл в систему обучения, но трудно понять, откуда этот файл взялся и как обновлять его в реальном времени» .

Обсуждая конкурентную среду, Майк выделил несколько игроков:

Майк также затронул тему Deep Learning. По мнению гостя, даже в эру глубокого обучения, которое якобы само находит признаки, хранилища остаются актуальными. Они используются для управления эмбеддингами и доставки контекстных данных о пользователе в реальном времени, что критично для рекомендательных систем .

💡 Советы для бизнеса: когда пора внедрять Feature Store? 42:14

Для компаний, раздумывающих над архитектурой, дел Бальсо предлагает два простых критерия:

  1. Наличие Real-time компонента: Если ваша модель должна реагировать на действия пользователя мгновенно, вам почти наверняка понадобится онлайн-хранилище признаков .
  2. Проблема масштаба: Если у вас больше «горстки» моделей и признаков, управление ими через Google-таблицы (что Майк называет распространенным паттерном) неизбежно приведет к хаосу .

Главный совет Майка — «начинать с простого» и не переусложнять стек ради самих технологий . Он рекомендует консультироваться с теми, кто уже проходил путь внедрения ML, чтобы избежать типичной ошибки — инвестирования в сложные алгоритмы при отсутствии порядка в базовой инфраструктуре данных.

💬 Цитаты

«После решения проблемы очистки данных возникает еще один скрытый рубеж в 85% времени, необходимых для запуска модели в продакшн.»

Майк дел Бальсо 05:18

«Вы не должны нуждаться в инженерах данных каждый раз, когда дата-сайентист хочет изменить что-то в своей модели в производстве.»

Майк дел Бальсо 38:42
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Feature Store
Централизованная система для управления, хранения и выдачи признаков (фичей) для моделей машинного обучения.
MLOps
Набор практик для надежного и эффективного развертывания и поддержки моделей машинного обучения в производстве.
Michelangelo
Внутренняя ML-платформа компании Uber, ставшая прообразом многих современных MLOps инструментов.
SLA
Соглашение об уровне услуг, определяющее параметры надежности и доступности системы.
📊 Цифры
🗓 Хронология
  1. 2015 Майк дел Бальсо начинает работу в Uber над первыми ML-моделями.
  2. 2018 Uber публикует блог о платформе Michelangelo и вводит понятие Feature Store.
  3. 2019 Команда создателей Michelangelo выделяется в отдельный стартап Tecton.
  4. 2021 Прогноз Майка дел Бальсо о массовом принятии Feature Store индустрией.
⚖️ Другая сторона
Искусственный интеллект Mike del Balso Tecton Feature Store MLOps Michelangelo