KNN в мониторинге воздуха: как интерполировать данные между датчиками

DeepLearning.AI 543 10 мин 2 мин 27.07.2023
Главное

Методология оценки уровня загрязнения воздуха в городской среде 0:03

Завершение этапа проектирования системы мониторинга качества воздуха требует разработки методологии, позволяющей оценивать уровни загрязняющих веществ в точках, где отсутствуют физические датчики. Процесс создания такой модели начинается с построения простого базового решения (baseline), которое впоследствии может быть улучшено с помощью методов машинного обучения. В качестве примера рассматривается город Богота, где необходимо интерполировать данные о качестве воздуха между существующими станциями мониторинга.

Метод ближайшего соседа: простая база для оценок 0:39

Наиболее интуитивно понятным подходом является метод «ближайшего соседа» (nearest neighbor method). Логика метода заключается в предположении, что показатели качества воздуха в конкретной точке наиболее близки к измерениям на ближайшей к ней станции мониторинга.

Алгоритм K-ближайших соседей (KNN) и взвешивание 1:56

Для повышения точности оценки используется расширение базового метода — алгоритм K-ближайших соседей (K-nearest neighbors, KNN), где $K$ — это количество учитываемых станций мониторинга. При использовании нескольких соседей возникает задача объединения их данных в единую оценку.

В реальных приложениях простого усреднения недостаточно, поэтому применяется схема взвешивания, основанная на удаленности станций. В текущем проекте используется обратно-квадратичное взвешивание расстояния (inverse distance weighting):

  1. Каждому из $K$ ближайших соседей присваивается вес.
  2. Вес обратно пропорционален квадрату расстояния от станции до точки оценки.
  3. Итоговое значение является взвешенным средним, что позволяет учитывать влияние более близких датчиков сильнее, чем удаленных.

Практическая реализация и анализ точности 3:02

Работа в лабораторной среде начинается с подготовки набора данных, содержащего географические координаты (широту и долготу) и измерения уровня PM 2.5. Создание сетки (grid) над городом позволяет визуализировать оценочные данные в каждом ячейке.

Выводы и ограничения проектирования 8:35

По завершении этапа проектирования создана полноценная система: от модели для заполнения пропущенных данных в существующих точках до алгоритма интерполяции между ними. Несмотря на возможность применения более сложных алгоритмов, эксперт подчеркивает наличие фундаментального физического ограничения: реальный уровень загрязнения между датчиками остается неизвестным.

По мнению ведущего, любая модель в данном контексте будет лишь приближенной оценкой, и метод KNN с взвешиванием по расстоянию часто является достаточно эффективным решением, которое трудно значительно превзойти в условиях неполных данных.

💬 Цитаты

«Любая модель в данном контексте будет лишь приближенной оценкой.»

Ведущий DeepLearning.AI 09:25

«Намного лучше использовать не одного ближайшего соседа, а два, три или даже больше.»

Ведущий DeepLearning.AI 01:56
👥 Спикер
📖 Термины
PM 2.5
Мелкие взвешенные частицы диаметром менее 2.5 микрометров, являющиеся основным показателем загрязнения воздуха.
Baseline (базовая линия)
Простая модель или метод, используемый в качестве отправной точки для сравнения с более сложными алгоритмами.
MAE (Mean Absolute Error)
Средняя абсолютная ошибка, показатель точности прогноза, вычисляемый как среднее арифметическое модулей отклонений предсказаний от фактических данных.
Интерполяция
Способ нахождения промежуточных значений величины по имеющемуся дискретному набору известных значений.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект KNN PM 2.5 Bogota Air quality sensor Mean Absolute Error