# Google MetNet: Как нейросеть предсказывает осадки точнее физических моделей

Источник: https://www.youtube.com/watch?v=lmAj0SU_bW0
Канал: Yannic Kilcher
Опубликовано: 30.03.2020

---

В современном мире точность прогноза погоды — это не только вопрос комфорта, но и критический фактор для авиации, сельского хозяйства и логистики. Традиционно метеорологи полагались на сложные физические симуляции, однако исследовательское подразделение Google представило альтернативный подход — MetNet, нейросетевую модель, которая предсказывает осадки быстрее и зачастую точнее классических систем.

## 🌧️ От физических симуляций к нейронным сетям
[[JUMP:00:00]]

Традиционное прогнозирование погоды основано на численных методах: суперкомпьютеры симулируют движение дождевых облаков и взаимодействие частиц в атмосфере [00:55]. Это ресурсозатратный процесс, который требует запуска множества итераций для получения вероятностного распределения результатов. 

Янник Кильчер (Yannic Kilcher) подчеркивает фундаментальное отличие MetNet: модель не пытается имитировать физику, а напрямую предсказывает исход на основе накопленных данных [01:21].

Ключевые особенности MetNet:

*   **Скорость:** Модель выдает результат за один прямой проход (forward pass), не требуя многократных симуляций [01:50].
*   **Вероятностный выход:** Вместо одного детерминированного сценария нейросеть сразу генерирует распределение вероятностей (cloudy/probabilistic way) [02:02].
*   **Эффективность:** Согласно графику метрики F1 (точность совпадения прогноза с реальностью), MetNet превосходит физическую модель-базовую линию HRRR на горизонте до 8 часов (480 минут) [02:34].

## 🏗️ Архитектура MetNet: Как устроены «глаза» нейросети
[[JUMP:03:44]]

Для обучения MetNet команда Google Research использовала данные со спутника GOES-16 и радарные карты осадков [03:14]. Архитектура модели спроектирована так, чтобы учитывать как локальные детали, так и глобальный контекст.

Процесс обработки данных выглядит следующим образом:

1.  **Входные данные:** Модель анализирует историю за последние 90 минут с 15-минутным интервалом [04:36].
2.  **Пространственный контекст:** Чтобы предсказать погоду в конкретном квадрате 64x64 км, MetNet «смотрит» на огромную территорию вокруг — 1024x1024 км [05:18].
3.  **Кодирование признаков:** Помимо снимков, в модель передаются метаданные: целевое время прогноза, дата, час, координаты (широта/долгота) и карта высот (elevation map) [06:11].

Янник Кильчер (Yannic Kilcher) отмечает любопытный технический нюанс: такие параметры, как «целевое время» (например, 60 минут), подаются в сеть максимально простым способом — создается целый слой (plane), заполненный этим числом [06:49]. Несмотря на примитивность метода, по словам ведущего, это работает лучше всего [07:17].

## 🧪 Пайплайн обработки: CNN и ConvLSTM
[[JUMP:08:52]]

Сначала данные проходят через **Spatial Downsampler** — упрощенную сверточную нейросеть (CNN), которая уменьшает размерность изображений, сохраняя ключевые признаки [09:07]. После этого в дело вступает **Temporal Encoder**.

Особенности временного кодирования:

*   Используется **Convolutional LSTM** (ConvLSTM) [09:33].
*   В отличие от обычного LSTM, здесь промежуточные слои являются сверточными, что идеально подходит для видео или последовательностей изображений [09:46].
*   Энкодер последовательно обрабатывает снимки и сжимает всю 90-минутную историю в единое скрытое представление (final representation) [10:25].

Это представление по-прежнему сохраняет пространственную структуру (координаты север-юг, восток-запад), но уже в виде абстрактных каналов данных [12:04].

## 🗼 Осевое внимание (Axial Attention): Революция в обработке изображений
[[JUMP:11:07]]

Самой важной частью статьи и видео является механизм **Axial Attention**. В прогнозировании погоды критически важно учитывать дальние зависимости: например, горный хребет в сотнях километров может радикально изменить траекторию облака [12:45].

Обычно для таких задач используется механизм внимания (Attention), но у него есть проблема — квадратичная сложность. Если в изображении $D \times D$ пикселей, то количество связей, которые нужно вычислить, составит $D^4$ [16:24]. Для изображений высокого разрешения это физически невозможно реализовать на текущем «железе» [17:37].

Axial Attention решает эту проблему элегантным трюком:

*   Вместо того чтобы каждый пиксель смотрел на все остальные пиксели сразу, внимание разбивается на два этапа.
*   **Первый этап:** Пиксель взаимодействует только со своей строкой (row attention).
*   **Второй этап:** Пиксель взаимодействует только со своим столбцом (column attention) [24:02].

Янник Кильчер (Yannic Kilcher) приводит наглядную аналогию с шахматами: «Обычное внимание — это ферзь, который ходит куда угодно. Axial Attention — это ладья, которой нужно сделать два хода, чтобы попасть в ту же точку. Результат один, но вычислительных ресурсов требуется в разы меньше» [26:51]. Благодаря стеку из таких слоев (в MetNet их 8), информация эффективно распространяется по всему полю [27:47].

## 📊 Итоги и ограничения: Нейросети против «хаоса»
[[JUMP:29:47]]

Сравнение MetNet с физическими моделями показывает стабильное преимущество нейросети на коротких и средних дистанциях. Однако Янник Кильчер (Yannic Kilcher) указывает на потенциальную слабость ИИ-подхода. 

По мнению ведущего, нейросети отлично выявляют регулярности и закономерности в данных (broad scale regularities) [31:22]. Но погода — это хаотическая система, где мельчайшие изменения могут привести к огромным последствиям (эффект бабочки). Физические симуляции, основанные на фундаментальных законах природы, могут оказаться точнее нейросетей при долгосрочном прогнозировании, где фактор хаоса становится доминирующим [31:50]. Тем не менее, в рамках 8-часового окна MetNet остается лидером [32:03].

---