KNN в мониторинге воздуха: как интерполировать данные между датчиками

Методология оценки уровня загрязнения воздуха в городской среде 0:03

Завершение этапа проектирования системы мониторинга качества воздуха требует разработки методологии, позволяющей оценивать уровни загрязняющих веществ в точках, где отсутствуют физические датчики. Процесс создания такой модели начинается с построения простого базового решения (baseline), которое впоследствии может быть улучшено с помощью методов машинного обучения. В качестве примера рассматривается город Богота, где необходимо интерполировать данные о качестве воздуха между существующими станциями мониторинга.

Метод ближайшего соседа: простая база для оценок 0:39

Наиболее интуитивно понятным подходом является метод «ближайшего соседа» (nearest neighbor method). Логика метода заключается в предположении, что показатели качества воздуха в конкретной точке наиболее близки к измерениям на ближайшей к ней станции мониторинга.

Принцип работы: для любой выбранной точки на карте берется последнее значение PM 2.5 с ближайшего сенсора.
Универсальность: данный подход применим не только к пространственным данным, но и к временным рядам или любым другим характеристикам, где соседние значения коррелируют между собой.
Ограничения: эксперт отмечает, что хотя этот метод является разумным первым приближением, он не всегда точно отражает физическую реальность распространения загрязняющих веществ.

Алгоритм K-ближайших соседей (KNN) и взвешивание 1:56

Для повышения точности оценки используется расширение базового метода — алгоритм K-ближайших соседей (K-nearest neighbors, KNN), где $K$ — это количество учитываемых станций мониторинга. При использовании нескольких соседей возникает задача объединения их данных в единую оценку.

В реальных приложениях простого усреднения недостаточно, поэтому применяется схема взвешивания, основанная на удаленности станций. В текущем проекте используется обратно-квадратичное взвешивание расстояния (inverse distance weighting):

Каждому из $K$ ближайших соседей присваивается вес.
Вес обратно пропорционален квадрату расстояния от станции до точки оценки.
Итоговое значение является взвешенным средним, что позволяет учитывать влияние более близких датчиков сильнее, чем удаленных.

Практическая реализация и анализ точности 3:02

Работа в лабораторной среде начинается с подготовки набора данных, содержащего географические координаты (широту и долготу) и измерения уровня PM 2.5. Создание сетки (grid) над городом позволяет визуализировать оценочные данные в каждом ячейке.

Визуализация: на карте станции с прямыми измерениями отмечаются белым контуром, а расчетные значения (полученные нейронной сетью или KNN) — черным. Пользователь может выбирать временную метку для анализа ситуации в конкретный момент.
Оценка ошибок: для проверки эффективности модели используется метрика средней абсолютной ошибки (Mean Absolute Error, MAE).
Результаты: при $K=1$ средняя ошибка составляет около 8 единиц (микрограмм на кубический метр). Дальнейшее увеличение $K$ до 3–4 позволяет немного улучшить точность, однако после этого значения улучшения становятся незначительными.

Выводы и ограничения проектирования 8:35

По завершении этапа проектирования создана полноценная система: от модели для заполнения пропущенных данных в существующих точках до алгоритма интерполяции между ними. Несмотря на возможность применения более сложных алгоритмов, эксперт подчеркивает наличие фундаментального физического ограничения: реальный уровень загрязнения между датчиками остается неизвестным.

По мнению ведущего, любая модель в данном контексте будет лишь приближенной оценкой, и метод KNN с взвешиванием по расстоянию часто является достаточно эффективным решением, которое трудно значительно превзойти в условиях неполных данных.