Будущее индустрии наблюдаемости (observability) неразрывно связано с развитием искусственного интеллекта, однако путь к полной автоматизации лежит через решение проблем доверия, точности и безопасности данных. Оливье Помель, сооснователь и генеральный директор Datadog, в беседе с ведущим подкаста AI Native Dev Гаем Поджарным анализирует трансформацию сектора: от мониторинга инфраструктуры к пониманию бизнес-результатов и созданию систем, способных самостоятельно исправлять ошибки в продакшене.
🏗️ Три уровня возможностей ИИ в ИТ-инфраструктуре 4:00
Оливье Помель выделяет три фундаментальных уровня, на которых ИИ меняет ландшафт разработки и эксплуатации ПО :
- Инфраструктурный слой (Level 0): Резкий рост спроса на мощности для обучения и работы моделей. Это компании-строители моделей, потребляющие огромные ресурсы GPU и огромные массивы данных.
- Прикладной слой (Level 1): Создание приложений на базе готовых моделей. В отличие от традиционного ПО, такие приложения недетерминированы — их поведение сложнее предсказать и контролировать, что требует новых подходов к мониторингу.
- Слой автоматизации (Level 2): Использование «умных» инструментов для помощи инженерам. ИДЕАЛ этого уровня — система, которая сама обнаруживает и устраняет проблему, пока инженер спит, оставляя ему лишь отчет на следующее утро .
🛠️ Экосистема продуктов Datadog на базе ИИ 7:00
Компания активно внедряет ИИ в свою линейку продуктов, кристаллизуя усилия в четырех ключевых направлениях :
- Watchdog: Классический модуль мониторинга аномалий. Помель иронично называет его «старым добрым ИИ» 1.0, основанным на статистических моделях . Он анализирует миллиарды временных рядов, выявляя скачки ошибок или изменения частоты запросов.
- Bits AI: Современный агент на базе LLM. Он способен проводить самостоятельные расследования инцидентов, помогать в дежурствах (on-call) и предлагать исправления кода непосредственно в продакшене .
- LLM Observability: Инструмент для тех, кто строит приложения на базе языковых моделей, позволяющий отслеживать их поведение и эффективность .
- Toto: Собственная фундаментальная модель Datadog, предназначенная специально для работы с временными рядами . В отличие от универсальных LLM, Toto сфокусирована на численных данных и предсказании метрик.
🤝 Проблема доверия: почему ложные срабатывания убивают ИИ 10:00
Одной из главных преград на пути внедрения ИИ-инструментов Помель считает низкую толерантность пользователей к ошибкам .
- Ложь о ложных срабатываниях: Клиенты часто говорят, что хотят видеть все подозрительные сигналы и сами разберутся. На практике, по словам Помеля, после двух ложных алармов подряд пользователи навсегда отключают систему .
- Разница между ИТ и безопасностью: В ИТ-эксплуатации риск-модель жестче. Пользователь не готов уронить систему ради того, чтобы избежать потенциального сбоя. В безопасности, напротив, ложные срабатывания воспринимаются терпимее: люди готовы заблокировать подозрительную активность, даже если это создаст помехи, лишь бы избежать взлома .
- Смена интерфейсов: Чат-интерфейсы были отличным стартом для воображения, но в будущем большая часть функционала ИИ в мониторинге будет работать без чата . Помель делает ставку на высокую точность (precision) при осознанно низкой полноте (recall) на первых этапах — лучше решить меньше проблем, но сделать это гарантированно правильно .
🛡️ Безопасность и «агентная» ответственность 21:00
Переход от пассивного наблюдения к активным действиям (редактирование кода, перезапуск серверов) несет новые риски.
- Инъекции в логи: Подобно тому, как раньше через логи атаковали сайты (XSS), теперь злоумышленники могут пытаться обмануть ИИ-агентов через промпт-инъекции в данных . Решением является глубокая изоляция (sandboxing) любого кода, генерируемого ИИ для исправления систем.
- Аналогия с облаком: Помель сравнивает текущий страх перед ИИ с опасениями при переходе в облако 15 лет назад . Тогда Amazon смог убедить рынок, сделав безопасность приоритетом с первого дня. ИИ-индустрии нужно пройти тот же путь, чтобы убрать страх «утечки данных через модель» с повестки .
- Юридическая ответственность: Вопрос «кто виноват, если ИИ удалил базу данных» пока остается открытым, но Помель считает, что это не остановит прогресс. Он напоминает, что инциденты случались и раньше (например, когда интерн случайно удалял данные), и правовые рамки просто адаптируются .
📈 Будущее: Наблюдаемость бизнес-результатов 42:00
По мнению Помеля, индустрия движется к тому, что границы между ИТ-мониторингом, аналитикой продукта и бизнес-показателями окончательно сотрутся .
- Конец детерминизма: В мире GenAI нельзя просто написать спецификацию и быть уверенным, что программа работает. Нужно постоянно измерять результат в продакшене: помогают ли ответы модели пользователю покупать больше или оставаться с сервисом дольше?
- Первичные данные: Традиционная наблюдаемость работала с производными данными (логи, трейсы), избегая персональной информации (номера соцстрахования, рецепты врачей). LLM же работают напрямую с первичными данными бизнеса . Это делает Datadog ближе к самой сути бизнеса клиентов, чем когда-либо раньше.
- Интерфейс «Человек-Человек»: Через пять лет взаимодействие с системой мониторинга может напоминать общение с коллегой-экспертом, включая голос и совместную работу группы людей над инцидентом в реальном времени .
🧪 Научный прорыв и культура роста 56:00
В завершение Помель отметил радикальное ускорение инноваций. Если 20 лет назад путь от научной статьи (например, в IBM Research) до продукта занимал 10 лет, то сегодня это происходит за полгода, причем многие исследования даже не успевают опубликовать . Специально для этого Datadog создал внутреннюю исследовательскую команду под руководством CTO Алекси Ле-Квока, которая работает вне циклов стандартной разработки .
Главным качеством идеального инженера сегодня остается не просто интеллект, а «готовность расти» (growth mindset). В мире, где технологии меняются еженедельно, «умный, но негибкий» сотрудник становится обузой для команды .