# Установление базовой линии для очистки экологических данных в ИИ

Источник: https://www.youtube.com/watch?v=rOmuRwYFSHs
Канал: DeepLearning.AI
Опубликовано: 27.07.2023

---

В рамках специализации **AI for Good** от **DeepLearning.AI** рассматривается критически важный этап разработки технологических решений — создание базовой линии (baseline). В новом практическом занятии основное внимание уделяется проблеме пропусков в данных сенсоров качества воздуха и тому, почему простые статистические методы иногда оказываются эффективнее сложных нейросетей на начальном этапе.

## 📊 Зачем нужна базовая линия в проектах AI for Good?
[[JUMP:00:15]]

Установление простого базового решения перед переходом к машинному обучению (AI) преследует три ключевые цели:

*   **Скорость и стоимость:** Если простой метод достигает поставленных целей, проект можно завершить быстрее и дешевле [00:29].
*   **Интерпретируемость:** Результаты элементарных алгоритмов проще объяснить стейкхолдерам и конечным пользователям [00:43].
*   **Количественная оценка:** Базовая линия необходима, чтобы точно измерить относительное улучшение производительности при внедрении сложной модели [00:57].

В данном сценарии анализируются данные о загрязнении воздуха частицами PM 2.5 (мелкодисперсная пыль). Для восстановления пропущенных значений тестируются два классических подхода:

1.  **Last Observation Carried Forward (LOCF):** использование последнего успешно записанного измерения для заполнения всех последующих пустых ячеек [06:09].
2.  **Nearest Neighbor (Ближайший сосед):** использование текущего значения с ближайшего работающего датчика [06:24].

## 🛠 Обзор инструментов и данных лабораторной работы
[[JUMP:01:03]]

Работа ведется в среде **Jupyter Notebook**. В обучающем видео подчеркивается важность документации данных:

*   **Data Sheets:** Специальные файлы в папке проекта, которые содержат информацию о том, зачем собирался датасет, кто проводил аннотацию и какие именно параметры включены в выборку [01:24].
*   **Файл `utils.py`:** Содержит вспомогательный код, скрытый от пользователя, чтобы не загромождать основной ноутбук лишними деталями реализации [01:50].

Для начала работы необходимо выполнить импорт пакетов и загрузить основной датасет. После чтения данных выполняется важный шаг предобработки — перевод названий столбцов с испанского на английский для удобства интерпретации [02:44]. Также загружается отдельный набор данных с географическими координатами (широта и долгота) всех сенсорных станций для расчета расстояний между ними [02:56].

## 📉 Анализ пробелов: от часов до месяцев
[[JUMP:03:09]]

При визуализации пропущенных данных обнаруживается неоднородность «провалов» в графиках. Исследователи выделяют два типа проблем:

*   **Краткосрочные сбои:** Пропуски длительностью в 1–2 часа.
*   **Долгосрочные поломки:** Датчики могут выходить из строя на недели и даже месяцы.

Анализ гистограммы размеров пропусков для PM 2.5 показал интересную статистику:

*   В данных присутствует около 700 случаев отсутствия данных всего на один час [04:31].
*   Самый крупный разрыв в данных составил около **3600 часов** (примерно пять месяцев) [04:44].
*   Хотя мелких пропусков количественно больше, основная масса отсутствующих данных создается именно крупными временными «дырами» [05:28].

## 🧪 Сравнение методов заполнения пропусков
[[JUMP:05:51]]

При симуляции выпадения сенсора методы показывают себя по-разному. Метод «последнего измерения» превращает график в плоскую линию, повторяя старое значение [06:09]. Метод «ближайшего соседа» подтягивает динамические данные с другой точки [06:24].

Ключевые выводы тестирования:

1.  При увеличении окна пропуска (продолжительности сбоя) точность метода последнего измерения стремительно падает, так как состояние атмосферы меняется [07:41].
2.  Метод ближайшего соседа дает вариативные результаты, но его точность **не деградирует** с течением времени [07:55]. Именно он был выбран в качестве финальной базовой линии для дальнейшего сравнения с ИИ.

## 📏 Оценка точности и метрика MAE
[[JUMP:08:08]]

Для оценки эффективности используется метрика **MAE (Mean Absolute Error — средняя абсолютная ошибка)**. Выбор пал на неё из-за интуитивности: значение ошибки выражается в тех же единицах, что и измеряемый параметр.

*   Для PM 2.5 единицы измерения — микрограммы на кубический метр (мкг/м³) [09:27].
*   В ходе симуляции средняя ошибка метода ближайшего соседа составила **8 мкг/м³** [10:06].

Этот результат ставит перед разработчиками серьезный вызов. Поскольку ВОЗ и другие организации рекомендуют ограничивать среднегодовой уровень PM 2.5 значением в **12 мкг/м³**, ошибка в 8 единиц является критической [10:34]. Она создает риск ложноположительных или ложноотрицательных оценок безопасности воздуха. Эта цифра (8 мкг/м³) становится «планкой», которую должна превзойти нейронная сеть в следующем модуле обучения [11:10].