Установление базовой линии для очистки экологических данных в ИИ

DeepLearning.AI 587 11 мин 3 мин 27.07.2023
Главное

В рамках специализации AI for Good от DeepLearning.AI рассматривается критически важный этап разработки технологических решений — создание базовой линии (baseline). В новом практическом занятии основное внимание уделяется проблеме пропусков в данных сенсоров качества воздуха и тому, почему простые статистические методы иногда оказываются эффективнее сложных нейросетей на начальном этапе.

📊 Зачем нужна базовая линия в проектах AI for Good? 0:15

Установление простого базового решения перед переходом к машинному обучению (AI) преследует три ключевые цели:

В данном сценарии анализируются данные о загрязнении воздуха частицами PM 2.5 (мелкодисперсная пыль). Для восстановления пропущенных значений тестируются два классических подхода:

  1. Last Observation Carried Forward (LOCF): использование последнего успешно записанного измерения для заполнения всех последующих пустых ячеек .
  2. Nearest Neighbor (Ближайший сосед): использование текущего значения с ближайшего работающего датчика .

🛠 Обзор инструментов и данных лабораторной работы 1:03

Работа ведется в среде Jupyter Notebook. В обучающем видео подчеркивается важность документации данных:

Для начала работы необходимо выполнить импорт пакетов и загрузить основной датасет. После чтения данных выполняется важный шаг предобработки — перевод названий столбцов с испанского на английский для удобства интерпретации . Также загружается отдельный набор данных с географическими координатами (широта и долгота) всех сенсорных станций для расчета расстояний между ними .

📉 Анализ пробелов: от часов до месяцев 3:09

При визуализации пропущенных данных обнаруживается неоднородность «провалов» в графиках. Исследователи выделяют два типа проблем:

Анализ гистограммы размеров пропусков для PM 2.5 показал интересную статистику:

🧪 Сравнение методов заполнения пропусков 5:51

При симуляции выпадения сенсора методы показывают себя по-разному. Метод «последнего измерения» превращает график в плоскую линию, повторяя старое значение . Метод «ближайшего соседа» подтягивает динамические данные с другой точки .

Ключевые выводы тестирования:

  1. При увеличении окна пропуска (продолжительности сбоя) точность метода последнего измерения стремительно падает, так как состояние атмосферы меняется .
  2. Метод ближайшего соседа дает вариативные результаты, но его точность не деградирует с течением времени . Именно он был выбран в качестве финальной базовой линии для дальнейшего сравнения с ИИ.

📏 Оценка точности и метрика MAE 8:08

Для оценки эффективности используется метрика MAE (Mean Absolute Error — средняя абсолютная ошибка). Выбор пал на неё из-за интуитивности: значение ошибки выражается в тех же единицах, что и измеряемый параметр.

Этот результат ставит перед разработчиками серьезный вызов. Поскольку ВОЗ и другие организации рекомендуют ограничивать среднегодовой уровень PM 2.5 значением в 12 мкг/м³, ошибка в 8 единиц является критической . Она создает риск ложноположительных или ложноотрицательных оценок безопасности воздуха. Эта цифра (8 мкг/м³) становится «планкой», которую должна превзойти нейронная сеть в следующем модуле обучения .

💬 Цитаты

«Если простое решение окажется достаточно хорошим, возможно, стоит остановиться на нем, чтобы получить результат быстрее и дешевле.»

Ведущий курса 00:29

«Средняя ошибка в 8 единиц означает, что мы работаем с погрешностью, которая может легко пересечь рекомендуемый безопасный порог в 12 мкг/м³.»

Ведущий курса 10:34
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
PM 2.5
Мелкие твердые частицы диаметром менее 2,5 микрометров, способные проникать глубоко в легкие.
MAE
Средняя абсолютная ошибка, показатель точности модели в тех же единицах, что и целевой параметр.
Baseline
Простая модель или метод, используемый в качестве отправной точки для сравнения с более сложными алгоритмами.
LOCF
Метод заполнения пропусков в данных, при котором используется последнее известное значение.
📊 Цифры
🗓 Хронология
  1. Course 1, Week 3 Этап специализации, посвященный установлению базовых линий и работе с данными сенсоров.
⚖️ Другая сторона
Искусственный интеллект DeepLearning.AI AI for Good Specialization Mean Absolute Error PM 2.5 Jupyter Notebook