Мартин Мао: «Мониторинг не должен стоить столько же, сколько вся инфраструктура»

В новом выпуске подкаста Grey Matter партнер фонда Greylock Джерри Чен беседует с основателями компании Chronosphere — Мартином Мао (CEO) и Робом Скиллингтоном (CTO). Стартап, выросший из внутренних разработок Uber (проекта M3), ставит своей целью переосмыслить мониторинг в эпоху облачных технологий (Cloud-Native). Участники обсуждают технические вызовы масштабирования, экономическую неэффективность старых инструментов и опыт построения корпоративной культуры в условиях глобальной пандемии.

☁️ Эволюция инфраструктуры: от виртуальных машин к Cloud-Native 2:40

Джерри Чен отмечает, что за последние 15 лет индустрия прошла путь от простой миграции виртуальных машин в облако (Cloud Evolution) до создания полноценных облачных стеков (Cloud-Native) . Если раньше облако воспринималось просто как «чужой дата-центр», то сегодня разделение хранения и вычислений, а также эластичность ресурсов привели к господству Kubernetes и микросервисов.

По определению Мартина Мао, архитектура Cloud-Native подразумевает использование микросервисов и контейнерной инфраструктуры . Этот подход дает бизнесу огромные преимущества в скорости разработки, но требует принципиально иных инструментов мониторинга. Мао утверждает, что старые решения, созданные для эпохи монолитов и статичных виртуальных машин, попросту не справляются с динамикой современных систем .

Мартин Мао выделяет три критических изменения в требованиях к мониторингу:

Масштабируемость данных: Контейнеры производят в сотни раз больше метрик, чем старые ВМ, что требует систем, способных обрабатывать гигантские объемы данных в реальном времени .
Географическая надежность: Приложения теперь распределены по разным зонам доступности и регионам. Мониторинг должен соответствовать этому уровню отказоустойчивости, а не быть «единой точкой отказа» в одном регионе .
Гибкость жизненного цикла: Контейнеры эфемерны — они живут недолго. Система мониторинга должна уметь по-разному обрабатывать кратковременные данные для CI/CD и долгосрочные данные для планирования мощностей .

📈 Пять стадий «горя» и рождение проекта M3 в Uber 9:31

Джерри Чен проводит аналогию: системные администраторы проходят через пять стадий принятия неизбежного (отрицание, гнев, торг, депрессия и принятие), когда осознают, что их старые инструменты мониторинга бесполезны в облачном мире .

Роб Скиллингтон вспоминает опыт Uber, где этот переход занял всего 4-5 лет . Компания перешла от «голого железа» к тысячам контейнеров, и старые системы вроде Graphite или Nagios перестали работать. В Uber пытались «торговаться», пробуя адаптировать существующие решения, но в итоге пришли к необходимости создания M3 — распределенной базы данных временных рядов (Time Series Database) .

По словам Скиллингтона, ключевыми особенностями M3 стали:

Горизонтальное масштабирование: Система изначально проектировалась для работы на сотнях узлов .
Потоковая агрегация метрик (Streaming Aggregation): Это позволяет обрабатывать данные «на лету», не дожидаясь записи в базу, что критично при резком росте количества метрик .
Декларативное управление: Возможность задавать политики хранения данных так же просто, как описывать ресурсы в Kubernetes через YAML-файлы .

💸 Экономический тупик классического мониторинга 20:24

Одной из главных проблем текущего рынка Мартин Мао называет несоответствие стоимости мониторинга и стоимости самой инфраструктуры .

Мартин Мао приводит показательный пример:

Содержание кластера Kubernetes из 10 узлов может стоить компании несколько десятков тысяч долларов в год.
При использовании традиционных инструментов (например, Datadog или Wavefront) мониторинг этого же кластера обойдется в ту же сумму .

По мнению Мао, это происходит из-за того, что старые вендоры тарифицируют каждую единицу данных одинаково, вне зависимости от её ценности . Chronosphere предлагает подход, при котором пользователь сам решает, какие данные хранить долго, а какие агрегировать или удалять через несколько дней. По утверждению основателей, решение Chronosphere обходится клиентам в среднем в 10 раз (на порядок) дешевле аналогов .

🛠 Почему Data Warehouse и Prometheus не являются панацеей 35:13

Роб Скиллингтон объясняет, почему для мониторинга нельзя использовать обычные хранилища данных (Data Warehouses) или Data Lakes . Главная причина — задержка (latency). В мониторинге критически важно обнаруживать проблемы за секунды, чтобы успеть провести автоматический откат (rollback) софта . Данные в Data Warehouse попадают с задержкой в минуты или часы, а запросы к ним выполняются слишком медленно для оперативного реагирования .

Что касается популярного инструмента Prometheus, то он, по мнению Роба, отлично подходит для старта, но быстро упирается в потолок при росте сложности системы . Одиночные инстансы Prometheus становятся «силосными башнями» данных, которые сложно объединить в общую картину, и требуют содержания целой команды инженеров для поддержки работоспособности .

Chronosphere позиционируется как облачная надстройка, которая:

Полностью поддерживает открытые стандарты (Prometheus, PromQL, Grafana) .
Снимает с инженеров нагрузку по обслуживанию инфраструктуры мониторинга .
Обеспечивает централизованный вид на все окружения без потери детализации .

💼 Кейсы: Tecton и крупные логистические сервисы 40:41

Мартин Мао приводит два примера использования платформы:

Tecton (ML-платформа): Компания родилась в облаке и использовала Prometheus. Однако инженеры тратили слишком много времени на «тушение пожаров» в самой системе мониторинга . Переход на Chronosphere позволил им сохранить привычные дашборды в Grafana, но избавиться от операционных проблем и увеличить срок хранения данных с нескольких дней до нескольких месяцев .
Крупный сервис доставки в США: Клиент столкнулся с резким ростом счетов от облачного вендора (Datadog/Wavefront) при переходе на микросервисы . Использование Chronosphere позволило им получить контроль над расходами через прозрачные политики агрегации данных и избежать проблем «шумных соседей» благодаря изолированным ресурсам .

🏢 Культура, найм и VC-партнерство 50:24

Основание компании в июле 2019 года означало, что активная фаза роста пришлась на пандемию COVID-19 . Роб и Мартин подчеркивают, что их команда изначально была распределенной (офисы в Нью-Йорке и Сиэтле), что облегчило переход на удаленку .

Особое внимание в Chronosphere уделяется разнообразию (Diversity & Inclusion). Роб Скиллингтон отмечает, что это требует сознательных усилий и выделения ресурсов . Натали, руководитель отдела технического рекрутинга, активно сотрудничает с организацией Anita B для привлечения женщин-инженеров в сферу инфраструктурного ПО [59:02, 1:00:08].

Говоря об отношениях с инвесторами, Мартин Мао признается, что выбирал партнеров на основе личного доверия, а не просто по размеру чека . Он ценит, что Джерри Чен из Greylock глубоко погружен в дела компании и помогает решать проблемы, а не просто заслушивает отчеты на советах директоров .

Оба сооснователя сходятся во мнении, что запуск стартапа — это скорее эмоциональное решение, чем расчетливое . Мао утверждает, что если бы он не попробовал превратить M3 в продукт именно сейчас, когда рынок Cloud-Native созрел, это стало бы главным сожалением в его жизни .