# Арун Кумар о DB-фикации AI: как стандарты баз данных спасут машинное обучение от хаоса

Источник: https://www.youtube.com/watch?v=hZMVCF9I65s
Канал: The TWIML AI Podcast
Опубликовано: 17.01.2022

---

В современной индустрии искусственного интеллекта происходит тихая революция, которую эксперты называют «DB-фикацией» (DBfication). Речь идет о масштабном процессе внедрения принципов и технологий из мира баз данных в рабочие процессы машинного обучения (ML). О том, почему ML-инженерам пора поучиться у архитекторов СУБД сорокалетней выдержки, рассказал Арун Кумар, доцент Калифорнийского университета в Сан-Диего, в рамках подкаста TWIML AI.

## 🔄 Что такое DB-фикация и почему она неизбежна
[[JUMP:02:26]]

Термин «новая DB-фикация ML/AI» был предложен Аруном Кумаром для описания эволюции инструментов машинного обучения. По его мнению, сфера ML сейчас проходит тот же путь, который системы управления базами данных (СУБД) прошли в 80-е годы [03:03]. Когда реляционная алгебра и SQL начали завоевывать рынок, возникла острая необходимость сделать их масштабируемыми, управляемыми и удобными для практического использования.

Арун Кумар утверждает, что за последние 40 лет индустрия баз данных превратилась в зрелую отрасль с оборотом более 100 миллиардов долларов в год, решив сложнейшие задачи эффективности [03:41]. Сегодня мир ML сталкивается с теми же проблемами:

*   **Масштабируемость:** как обучать модели на данных, объем которых превышает объем оперативной памяти? [14:48].
*   **Управляемость:** как отслеживать происхождение данных (provenance) и версионность моделей? [16:02].
*   **Юзабилити:** как сделать так, чтобы ML-инженерам не приходилось писать низкоуровневый системный код для каждой задачи? [08:42].

По мнению гостя, современное состояние ML в продакшене часто представляет собой «хаос» из Jupyter-ноутбуков, разрозненных Python-библиотек и сложных Airflow-скриптов [09:46]. DB-фикация призвана превратить эти кустарные процессы в промышленный стандарт.

## 🏗 Три этапа жизненного цикла ML
[[JUMP:10:13]]

Для системного анализа проблем Кумар разделяет жизненный цикл ML-приложений на три ключевые стадии, каждая из которых требует своих инструментов:

1.  **Sourcing (Поиск и подготовка):** превращение сырых данных из хранилищ (Data Warehouses) и «озер данных» (Data Lakes) в готовые для обучения наборы. Это включает очистку, разметку и трансформацию [10:25].
2.  **Building (Сборка):** процесс проектирования признаков (feature engineering), выбора архитектуры и настройки гиперпараметров [10:37].
3.  **Deployment (Развертывание):** интеграция модели в приложение, мониторинг и поддержка по мере изменения данных [11:50].

Кумар проводит параллель: этап Sourcing для машинного обучения — это то же самое, что ETL-процессы (Extract, Transform, Load) для баз данных [13:55]. Долгое время исследователи ML недооценивали важность этого «чернового» труда, считая его второстепенным, однако именно здесь сегодня находятся главные узкие места индустрии [17:13].

## 🧠 Проект Cerebro: когда СУБД обучает нейросети
[[JUMP:20:42]]

Одним из примеров практической реализации идей Кумара стал проект **Cerebro** — платформа для промышленного глубокого обучения (Deep Learning). Проблема, которую решает Cerebro, заключается в том, что популярные фреймворки (TensorFlow, PyTorh) ориентированы на обучение одной модели за раз [21:09]. В реальности же специалисты проводят «модельный поиск», перебирая сотни комбинаций архитектур и гиперпараметров.

Ключевые особенности Cerebro:

*   **Разделение логического и физического уровней:** как и в SQL, пользователь описывает «что» он хочет построить (архитектуру, диапазон параметров), а система сама решает «как» это эффективно выполнить на кластере [23:27].
*   **Оптимизация множественных запросов (Multi-query optimization):** Cerebro анализирует сразу все запускаемые процессы обучения и находит общие операции (например, доступ к одним и тем же данным), чтобы сэкономить ресурсы [25:11].
*   **Масштабируемость данных:** система позволяет обучать модели на терабайтах данных, не заставляя инженера вручную настраивать партиционирование или копирование файлов между узлами [23:52].

В качестве примера успеха Арун приводит кейс из сферы здравоохранения: использование Cerebro позволило повысить точность предсказания активности пациентов с 75% до 92%, обработав терабайт данных с акселерометров [31:55].

## 🎩 Sorting Hat: борьба с ошибками автоматизации
[[JUMP:34:01]]

Второй проект Кумара, **Sorting Hat** («Распределяющая шляпа»), фокусируется на этапе подготовки данных. Сейчас многие коммерческие AutoML-инструменты (от Google, Amazon и др.) заявляют о полной автоматизации этого процесса, но, по словам Аруна, они часто ошибаются в фундаментальных вещах [36:50].

Кумар выделяет проблему «семантического разрыва» (semantic gap):

*   **Пример с почтовым индексом (Zip Code):** системы часто видят целые числа и классифицируют индекс как числовой признак. Если скормить его логистической регрессии как число, результат будет «мусором», так как индекс — это категория [37:57].
*   **Дедупликация категорий:** если в данных один и тот же штат записан как «California» и «CA», модель может переобучиться. Ручная очистка таких данных занимает колоссальное время у дата-сайентистов [40:18].

Проект Sorting Hat создал бенчмарк (набор тестов) из 10 000 колонок данных, чтобы проверить, насколько хорошо современные инструменты справляются с определением типов признаков [39:03]. Оказалось, что простая модель Random Forest, обученная на метаданных, во многих случаях превосходит сложные проприетарные системы [39:40].

## 🤝 Будущее: сближение двух миров
[[JUMP:41:50]]

Завершая дискуссию, Арун Кумар подчеркивает, что сообщества баз данных и ML слишком долго существовали изолированно. ML-специалисты отлично разбираются в алгоритмах, но недооценивают теорию очистки данных, в то время как «базисты» десятилетиями изучали ETL и интеграцию, но не применяли эти знания к задачам обучения нейросетей [42:17].

Для дальнейшего развития индустрии Арун считает необходимым:

*   Создание стандартизированных бенчмарков, подобных ImageNet для зрения или TPC для баз данных [44:42].
*   Обучение специалистов на стыке дисциплин.
*   Участие крупных тех-гигантов в открытых академических дискуссиях [45:07].

По мнению Кумара, конечная цель — сделать так, чтобы ML-инженеры могли сосредоточиться на творческой части работы, полностью делегировав вопросы инфраструктуры и подготовки данных умным системам, построенным на проверенных временем принципах СУБД [31:03].