Майк дел Бальсо: «2021 год станет годом Feature Store в индустрии ML»

Майк дел Бальсо, сооснователь и генеральный директор Tecton, вернулся в подкаст TWIML AI спустя два с половиной года после своего первого визита, чтобы обсудить эволюцию MLOps. В беседе с ведущим Сэмом Чаррингтоном он объясняет, почему именно Feature Store (хранилище признаков) стало тем недостающим звеном, которое позволяет компаниям масштабировать машинное обучение и превращать экспериментальные модели в работающие бизнес-продукты.

🛠 От Google до Uber: рождение концепции Feature Store 2:43

Майк дел Бальсо начал свой путь в Google, работая над системами машинного обучения (ML) для рекламных аукционов. По его словам, в Google эти процессы были максимально «продакшн-ориентированными» ещё до того, как термин MLOps стал общепринятым . Перейдя в Uber в 2015 году, дел Бальсо столкнулся с иным вызовом: компания имела лишь несколько моделей в производстве и не обладала готовой инфраструктурой для их масштабирования.

Вместе с командой он разработал Michelangelo — платформу, которая позволила Uber совершить качественный скачок в использовании ИИ. Оглядываясь назад, Майк отмечает: самым ценным компонентом этой платформы оказался именно Feature Store, хотя тогда команда даже не использовала этот термин .

Основные выводы из опыта в Uber:

Скрытая работа: Data Scientist-ы тратят 85% времени на очистку данных, но существует ещё «скрытые 85%» времени, необходимых для вывода модели в продакшн .
Путь к производству: Feature Store позволил командам быстро переходить от прототипа к работающему сервису, минуя длительный этап ручного переписывания пайплайнов данных инженерами .
Многократное использование: Вместо того чтобы создавать одинаковые признаки (например, среднюю стоимость поездки пользователя) с нуля, разные команды начали использовать единый канонический каталог .

🤝 Проблема сотрудничества и «налог на надежность» 8:46

Одной из главных сложностей внедрения Feature Store является сопротивление со стороны индивидуальных исследователей данных. Ведущий Сэм Чаррингтон отметил, что публикация признака в общее хранилище накладывает на автора обязательства по его поддержке, что может восприниматься как лишнее бремя .

Майк дел Бальсо подтверждает наличие этой «проблемы доверия», но подчеркивает, что без централизованной системы эффективность падает:

Дублирование усилий: Часто два специалиста, сидящих рядом, строят одни и те же 100 признаков, потому что не знают о работе друг друга или не имеют механизма для переиспользования .
Роль метаданных: Современные хранилища признаков отслеживают не только сами данные, но и метаданные: кто владелец, каков уровень SLA (Tier-1 или Tier-2), является ли признак экспериментальным или промышленным .
Централизованные команды: Дел Бальсо выделил новый тренд — появление выделенных команд внутри ML-платформ, которые берут на себя владение самыми важными и часто используемыми признаками, снимая эту нагрузку с отдельных дата-сайентистов .

🏗 Пять столпов современного Feature Store 21:35

Объясняя техническую суть системы, Майк выделил пять ключевых компонентов, которые превращают обычное хранилище данных в инструмент для MLOps:

Transformation Layer (Слой трансформации): Преобразует сырые данные в значения признаков .
Storage Layer (Слой хранения): Организует хранение для быстрого извлечения данных как в реальном времени (онлайн), так и для обучения (оффлайн) .
Serving Layer (Слой выдачи): Обеспечивает низкую задержку при получении признаков для работающей модели и консистентность данных между обучением и продакшном .
Central Registry (Центральный реестр): Содержит определения признаков и метаданные, являясь «неизменяемой записью» о том, что использовалось в производстве .
Monitoring Layer (Слой мониторинга): Отслеживает операционные метрики и корректность данных, предотвращая сбои в работе моделей .

Дел Бальсо подчеркивает, что Feature Store не заменяет существующую инфраструктуру (например, Snowflake или Amazon S3), а интегрируется с ней, выполняя роль координатора .

📈 Рынок и будущее: 2021 год как переломный момент 30:52

Согласно прогнозу Майка, 2021 год станет «годом Feature Store» . Он отмечает, что даже те компании, которые начали с внедрения сложных систем AutoML, быстро упираются в проблему подготовки данных: «Легко перетащить CSV-файл в систему обучения, но трудно понять, откуда этот файл взялся и как обновлять его в реальном времени» .

Обсуждая конкурентную среду, Майк выделил несколько игроков:

Open Source: Проект Feast (созданный Go-Jek совместно с Google Cloud) — легкое и мощное решение для старта .
Enterprise: Собственное решение Mike del Balso — Tecton, ориентированное на крупный бизнес с жесткими требованиями к SLA и управлению в облаке (AWS) .

Майк также затронул тему Deep Learning. По мнению гостя, даже в эру глубокого обучения, которое якобы само находит признаки, хранилища остаются актуальными. Они используются для управления эмбеддингами и доставки контекстных данных о пользователе в реальном времени, что критично для рекомендательных систем .

💡 Советы для бизнеса: когда пора внедрять Feature Store? 42:14

Для компаний, раздумывающих над архитектурой, дел Бальсо предлагает два простых критерия:

Наличие Real-time компонента: Если ваша модель должна реагировать на действия пользователя мгновенно, вам почти наверняка понадобится онлайн-хранилище признаков .
Проблема масштаба: Если у вас больше «горстки» моделей и признаков, управление ими через Google-таблицы (что Майк называет распространенным паттерном) неизбежно приведет к хаосу .

Главный совет Майка — «начинать с простого» и не переусложнять стек ради самих технологий . Он рекомендует консультироваться с теми, кто уже проходил путь внедрения ML, чтобы избежать типичной ошибки — инвестирования в сложные алгоритмы при отсутствии порядка в базовой инфраструктуре данных.