Как нейросети и алгоритмы NASA предсказывают поломки на промышленных гигантах

The TWIML AI Podcast 1,2 тыс. 54 мин 7 мин 29.11.2021
Главное

В новом выпуске подкаста The TWIML AI Podcast ведущий Сэм обсудил с Шаяном Мортазави (Shayan Mortazavi), руководителем направления Data Science в Accenture, революционный подход к обслуживанию сложного промышленного оборудования. В центре внимания оказалась разработанная гостем и его командой гибридная архитектура, объединяющая методы глубокого обучения с классической инженерией надежности. Этот подход позволяет кардинально повысить точность прогнозирования отказов на критически важных производственных объектах, трансформируя традиционные индустриальные практики.

🛠️ Эволюция подходов к обслуживанию промышленного оборудования 3:53

В тяжелой промышленности, включая нефтегазовый сектор, энергетику и майнинг, традиционно существует высокая регуляторная нагрузка и серьезная инерция в отношении внедрения передовых цифровых решений. Шаян Мортазави выделил ключевые исторические стратегии управления надежностью активов:

📐 Проблема «последней мили» в промышленном интернете вещей (IoT) 11:42

Современное роторное оборудование — турбогенераторы, насосы, компрессоры и турбины — представляет собой сложнейшие инженерные комплексы. Как отмечает гость, турбогенераторы по своей структуре напоминают реактивные двигатели: они работают на скоростях от 20 000 до 30 000 оборотов в минуту под воздействием экстремальных нагрузок, вибраций, температур и давления. Несмотря на то, что такие агрегаты оснащены огромным количеством датчиков (от 2000 до 3000 единиц), возникает серьезный разрыв между сбором данных и потребностями предиктивного анализа.

По словам Шаяна Мортазави, этот парадокс объясняется следующими факторами:

В результате ИИ-разработчикам приходится разворачивать предиктивные решения нового поколения поверх старой, жестко зафиксированной инфраструктуры сбора данных.

📊 Матрица неисправностей: мост между машинным обучением и инженерным опытом 15:36

Чтобы преодолеть разрыв между показаниями датчиков и реальным состоянием узлов, команда Accenture интегрировала в ИИ-решение классическую инженерную методику — FMEA (Failure Mode and Effect Analysis — анализ видов и последствий отказов). FMEA представляет собой жестко структурированную процедуру проектирования, в рамках которой на основе стандартов исследуются все возможные сценарии поломок оборудования снизу вверх.

На основе FMEA разработчики создали уникальный инструмент — матрицу неисправностей (Fault Matrix). Этот реляционный граф связывает конкретные виды отказов на уровне компонентов с показаниями датчиков. Как объясняет Шаян Мортазави, матрица решает несколько задач:

🧠 Глубокое обучение на страже нормы: почему LSTMs и residual-подход эффективнее классических моделей 20:15

Классический мониторинг состояния (CBM) опирается на фиксированные пороговые значения для каждого датчика. Однако в условиях реальной эксплуатации, длящейся десятилетиями, такой подход неэффективен. Происходит естественное изменение режимов работы — например, в нефтегазовой сфере со временем падает давление и температура в пласте, что сдвигает базовые показатели датчиков. Постоянная ручная корректировка порогов приводит к лавинообразному росту ложных тревог.

Шаян Мортазави подчеркнул, что применение стандартного обучения с учителем (supervised learning) для прогнозирования поломок невозможно по двум ключевым причинам:

Команда Accenture применила рекуррентные нейросети архитектуры LSTM на уровне отдельных датчиков для моделирования исключительно «здорового» (healthy) поведения системы. Нейросеть обучается предсказывать нормальный вектор временного ряда на шаг вперед. Сравнивая этот идеальный прогноз с фактическими данными, система формирует так называемый остаточный сигнал (residual signal) или сигнал ошибки, любые значительные отклонения в котором и указывают на зарождение аномалии.

🚀 Динамические пороги от NASA: борьба с ложными тревогами 27:43

Для обработки сигнала ошибки команда Accenture применила инновационный математический подход, изначально разработанный учеными NASA для анализа телеметрии космических челноков — динамическое непараметрическое пороговое значение (non-parametric thresholding).

В отличие от параметрических методов, которые накладывают фиксированное распределение на сигнал ошибки и генерируют массу ложных срабатываний, алгоритм NASA строит гибкие динамические коридоры вокруг остаточного сигнала. Гость выделил ключевые преимущества этой технологии:

⚙️ Масштабирование и优化: опыт работы с SigOpt 38:41

Одной из главных технических трудностей проекта стала вычислительная сложность архитектуры. Для каждого агрегата необходимо непрерывно отслеживать от 100 до 200 профильных датчиков. Обучение сотен моделей LSTM на потоке данных с секундной дискретизацией за несколько лет эксплуатации требует колоссальных вычислительных мощностей. Ситуация осложняется тем, что разные физические параметры имеют разную динамику: например, датчики вибрации характеризуются высокой зашумленностью и мгновенной вариативностью, в то время как температурные датчики инертны и реагируют с большой задержкой.

Для решения этой масштабной задачи оптимизации команда Accenture привлекла платформу SigOpt, специализирующуюся на «черноящичной» (black-box) оптимизации. Использование байесовских методов позволило эффективно настроить гиперпараметры системы. По словам Шаяна Мортазави, для каждой модели LSTM оптимизировалось от 12 до 15 параметров, включая:

Оптимизационная петля была построена как многоцелевая (multi-objective): она минимизировала функцию потерь (loss), сокращала время обучения моделей и одновременно сдвигала кривую Парето в сторону уменьшения ложных срабатываний.

👥 Человек в контуре управления: экспертная разметка редких отказов 43:35

Поскольку данные о реальных поломках крайне скудны, критически важным элементом развертывания системы стал подход «человек в контуре» (human-in-the-loop). Оптимизационная петля ИИ-моделей не может замыкаться исключительно на математических метриках; финальную валидацию должны проводить эксперты-инженеры.

Команда Шаяна Мортазави провела серию многочасовых воркшопов с ведущими инженерами по роторному оборудованию, имеющими по 20–30 лет опыта проектирования и обслуживания. Совместно они проанализировали исторические данные за последние 10 лет эксплуатации машин. В результате этой работы эксперты смогли разметить данные и классифицировать типы сигналов:

Инженеры сфокусировались на 15–20 наиболее критичных компонентах турбокомпрессоров, находящихся на критическом пути производства, поломка любого из которых ведет к полной остановке предприятия.

🔮 Будущее предиктивного обслуживания: от фиксации аномалий к управлению цепочками поставок 48:30

По ироничному замечанию Шаяна Мортазави, к настоящему моменту его команда решила лишь «простую» часть задачи — научилась эффективно обнаруживать аномалии. Настоящий вызов лежит в области предписывающего обслуживания (prescriptive maintenance), то есть в автоматическом подборе оптимального управленческого действия после обнаружения дефекта.

Как пояснил гость, пространство принятия решений в тяжелой индустрии ограничено множеством суровых факторов:

В качестве перспективных технологических направлений для решения этих комплексных задач Шаян Мортазави выделил:

💬 Цитаты

«Два абсолютно идентичных агрегата, запущенных одновременно на одном заводе, будут выдавать разные базовые показания датчиков.»

Шаян Мортазави 24:02

«Обнаружение проблемы — это одно, а принятие правильного действия — совсем другое.»

Шаян Мортазави 48:58
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
FMEA (Failure Mode and Effect Analysis)
Анализ видов и последствий отказов — классическая инженерная методология исследования надежности систем снизу вверх.
PdM (Predictive Maintenance)
Предиктивное обслуживание — стратегия ремонта оборудования, основанная на прогнозировании его точного времени отказа с помощью данных.
CBM (Condition-Based Monitoring)
Мониторинг по состоянию — непрерывный контроль рабочих параметров оборудования с помощью датчиков для раннего обнаружения отклонений.
Второй момент площади (момент инерции)
Геометрическая характеристика поперечного сечения, использованная в алгоритме NASA для математического расчета веса аномальной последовательности.
Остаточный сигнал (Residual signal)
Разница между реальными показаниями датчика оборудования и прогнозом нейросети, моделирующей его идеальное здоровое состояние.
📊 Цифры
🗓 Хронология
  1. 30–40 лет назад Массовое внедрение технологий IoT и SCADA в тяжелую промышленность, давшее толчок развитию мониторинга по состоянию (CBM).
  2. Последние 10 лет Период сбора накопленных исторических данных эксплуатации роторных машин, использованных для экспертной разметки в Accenture.
  3. Настоящее время Успешное развертывание гибридного фреймворка Accenture на критических участках производственных линий крупных предприятий.
⚖️ Другая сторона
Искусственный интеллект Шаян Мортазави Accenture SigOpt Глубокое обучение Надежность оборудования