Мартин Мао: «Мониторинг не должен стоить столько же, сколько вся инфраструктура»

Greylock 523 1 ч 16 мин 5 мин 03.03.2023
Главное

В новом выпуске подкаста Grey Matter партнер фонда Greylock Джерри Чен беседует с основателями компании Chronosphere — Мартином Мао (CEO) и Робом Скиллингтоном (CTO). Стартап, выросший из внутренних разработок Uber (проекта M3), ставит своей целью переосмыслить мониторинг в эпоху облачных технологий (Cloud-Native). Участники обсуждают технические вызовы масштабирования, экономическую неэффективность старых инструментов и опыт построения корпоративной культуры в условиях глобальной пандемии.

☁️ Эволюция инфраструктуры: от виртуальных машин к Cloud-Native 2:40

Джерри Чен отмечает, что за последние 15 лет индустрия прошла путь от простой миграции виртуальных машин в облако (Cloud Evolution) до создания полноценных облачных стеков (Cloud-Native) . Если раньше облако воспринималось просто как «чужой дата-центр», то сегодня разделение хранения и вычислений, а также эластичность ресурсов привели к господству Kubernetes и микросервисов.

По определению Мартина Мао, архитектура Cloud-Native подразумевает использование микросервисов и контейнерной инфраструктуры . Этот подход дает бизнесу огромные преимущества в скорости разработки, но требует принципиально иных инструментов мониторинга. Мао утверждает, что старые решения, созданные для эпохи монолитов и статичных виртуальных машин, попросту не справляются с динамикой современных систем .

Мартин Мао выделяет три критических изменения в требованиях к мониторингу:

📈 Пять стадий «горя» и рождение проекта M3 в Uber 9:31

Джерри Чен проводит аналогию: системные администраторы проходят через пять стадий принятия неизбежного (отрицание, гнев, торг, депрессия и принятие), когда осознают, что их старые инструменты мониторинга бесполезны в облачном мире .

Роб Скиллингтон вспоминает опыт Uber, где этот переход занял всего 4-5 лет . Компания перешла от «голого железа» к тысячам контейнеров, и старые системы вроде Graphite или Nagios перестали работать. В Uber пытались «торговаться», пробуя адаптировать существующие решения, но в итоге пришли к необходимости создания M3 — распределенной базы данных временных рядов (Time Series Database) .

По словам Скиллингтона, ключевыми особенностями M3 стали:

💸 Экономический тупик классического мониторинга 20:24

Одной из главных проблем текущего рынка Мартин Мао называет несоответствие стоимости мониторинга и стоимости самой инфраструктуры .

Мартин Мао приводит показательный пример:

По мнению Мао, это происходит из-за того, что старые вендоры тарифицируют каждую единицу данных одинаково, вне зависимости от её ценности . Chronosphere предлагает подход, при котором пользователь сам решает, какие данные хранить долго, а какие агрегировать или удалять через несколько дней. По утверждению основателей, решение Chronosphere обходится клиентам в среднем в 10 раз (на порядок) дешевле аналогов .

🛠 Почему Data Warehouse и Prometheus не являются панацеей 35:13

Роб Скиллингтон объясняет, почему для мониторинга нельзя использовать обычные хранилища данных (Data Warehouses) или Data Lakes . Главная причина — задержка (latency). В мониторинге критически важно обнаруживать проблемы за секунды, чтобы успеть провести автоматический откат (rollback) софта . Данные в Data Warehouse попадают с задержкой в минуты или часы, а запросы к ним выполняются слишком медленно для оперативного реагирования .

Что касается популярного инструмента Prometheus, то он, по мнению Роба, отлично подходит для старта, но быстро упирается в потолок при росте сложности системы . Одиночные инстансы Prometheus становятся «силосными башнями» данных, которые сложно объединить в общую картину, и требуют содержания целой команды инженеров для поддержки работоспособности .

Chronosphere позиционируется как облачная надстройка, которая:

  1. Полностью поддерживает открытые стандарты (Prometheus, PromQL, Grafana) .
  2. Снимает с инженеров нагрузку по обслуживанию инфраструктуры мониторинга .
  3. Обеспечивает централизованный вид на все окружения без потери детализации .

💼 Кейсы: Tecton и крупные логистические сервисы 40:41

Мартин Мао приводит два примера использования платформы:

  1. Tecton (ML-платформа): Компания родилась в облаке и использовала Prometheus. Однако инженеры тратили слишком много времени на «тушение пожаров» в самой системе мониторинга . Переход на Chronosphere позволил им сохранить привычные дашборды в Grafana, но избавиться от операционных проблем и увеличить срок хранения данных с нескольких дней до нескольких месяцев .
  2. Крупный сервис доставки в США: Клиент столкнулся с резким ростом счетов от облачного вендора (Datadog/Wavefront) при переходе на микросервисы . Использование Chronosphere позволило им получить контроль над расходами через прозрачные политики агрегации данных и избежать проблем «шумных соседей» благодаря изолированным ресурсам .

🏢 Культура, найм и VC-партнерство 50:24

Основание компании в июле 2019 года означало, что активная фаза роста пришлась на пандемию COVID-19 . Роб и Мартин подчеркивают, что их команда изначально была распределенной (офисы в Нью-Йорке и Сиэтле), что облегчило переход на удаленку .

Особое внимание в Chronosphere уделяется разнообразию (Diversity & Inclusion). Роб Скиллингтон отмечает, что это требует сознательных усилий и выделения ресурсов . Натали, руководитель отдела технического рекрутинга, активно сотрудничает с организацией Anita B для привлечения женщин-инженеров в сферу инфраструктурного ПО [59:02, 1:00:08].

Говоря об отношениях с инвесторами, Мартин Мао признается, что выбирал партнеров на основе личного доверия, а не просто по размеру чека . Он ценит, что Джерри Чен из Greylock глубоко погружен в дела компании и помогает решать проблемы, а не просто заслушивает отчеты на советах директоров .

Оба сооснователя сходятся во мнении, что запуск стартапа — это скорее эмоциональное решение, чем расчетливое . Мао утверждает, что если бы он не попробовал превратить M3 в продукт именно сейчас, когда рынок Cloud-Native созрел, это стало бы главным сожалением в его жизни .


💬 Цитаты

«Ваш счет за мониторинг не должен расти в геометрической прогрессии только потому, что вы перешли на контейнеры.»

Мартин Мао 20:37

«Мониторинг — это про обнаружение проблем за секунды, а не про долгое копание в архивах.»

Роб Скиллингтон 35:53

«Выбирайте сооснователя, которому можете доверять на 100%, это важнее, чем его 20-летний опыт в индустрии.»

Роб Скиллингтон 1:11:04
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Cloud-Native
Подход к разработке ПО, ориентированный на использование микросервисов, контейнеров и динамического управления ресурсами.
Prometheus
Популярная открытая система мониторинга и сбора метрик.
Кардинальность (Cardinality)
Количество уникальных комбинаций меток в данных мониторинга; высокая кардинальность создает нагрузку на базы данных.
SRE (Site Reliability Engineering)
Подход к эксплуатации ИТ-систем, объединяющий задачи разработки и системного администрирования.
📊 Цифры
🗓 Хронология
  1. 2014 Роб Скиллингтон присоединяется к Uber и начинает работу над проектом M3.
  2. Июль 2019 Мартин Мао и Роб Скиллингтон основывают компанию Chronosphere.
  3. 2020 Компания переходит на полностью удаленный формат работы из-за пандемии.
  4. Июнь 2026 Дата публикации текущего материала (согласно метаданным).
⚖️ Другая сторона
Стартапы и бизнес Chronosphere Prometheus M3 Martin Mao Cloud-Native