Google MetNet: Как нейросеть предсказывает осадки точнее физических моделей

В современном мире точность прогноза погоды — это не только вопрос комфорта, но и критический фактор для авиации, сельского хозяйства и логистики. Традиционно метеорологи полагались на сложные физические симуляции, однако исследовательское подразделение Google представило альтернативный подход — MetNet, нейросетевую модель, которая предсказывает осадки быстрее и зачастую точнее классических систем.

🌧️ От физических симуляций к нейронным сетям 0:00

Традиционное прогнозирование погоды основано на численных методах: суперкомпьютеры симулируют движение дождевых облаков и взаимодействие частиц в атмосфере . Это ресурсозатратный процесс, который требует запуска множества итераций для получения вероятностного распределения результатов.

Янник Кильчер (Yannic Kilcher) подчеркивает фундаментальное отличие MetNet: модель не пытается имитировать физику, а напрямую предсказывает исход на основе накопленных данных .

Ключевые особенности MetNet:

Скорость: Модель выдает результат за один прямой проход (forward pass), не требуя многократных симуляций .
Вероятностный выход: Вместо одного детерминированного сценария нейросеть сразу генерирует распределение вероятностей (cloudy/probabilistic way) .
Эффективность: Согласно графику метрики F1 (точность совпадения прогноза с реальностью), MetNet превосходит физическую модель-базовую линию HRRR на горизонте до 8 часов (480 минут) .

🏗️ Архитектура MetNet: Как устроены «глаза» нейросети 3:44

Для обучения MetNet команда Google Research использовала данные со спутника GOES-16 и радарные карты осадков . Архитектура модели спроектирована так, чтобы учитывать как локальные детали, так и глобальный контекст.

Процесс обработки данных выглядит следующим образом:

Входные данные: Модель анализирует историю за последние 90 минут с 15-минутным интервалом .
Пространственный контекст: Чтобы предсказать погоду в конкретном квадрате 64x64 км, MetNet «смотрит» на огромную территорию вокруг — 1024x1024 км .
Кодирование признаков: Помимо снимков, в модель передаются метаданные: целевое время прогноза, дата, час, координаты (широта/долгота) и карта высот (elevation map) .

Янник Кильчер (Yannic Kilcher) отмечает любопытный технический нюанс: такие параметры, как «целевое время» (например, 60 минут), подаются в сеть максимально простым способом — создается целый слой (plane), заполненный этим числом . Несмотря на примитивность метода, по словам ведущего, это работает лучше всего .

🧪 Пайплайн обработки: CNN и ConvLSTM 8:52

Сначала данные проходят через Spatial Downsampler — упрощенную сверточную нейросеть (CNN), которая уменьшает размерность изображений, сохраняя ключевые признаки . После этого в дело вступает Temporal Encoder.

Особенности временного кодирования:

Используется Convolutional LSTM (ConvLSTM) .
В отличие от обычного LSTM, здесь промежуточные слои являются сверточными, что идеально подходит для видео или последовательностей изображений .
Энкодер последовательно обрабатывает снимки и сжимает всю 90-минутную историю в единое скрытое представление (final representation) .

Это представление по-прежнему сохраняет пространственную структуру (координаты север-юг, восток-запад), но уже в виде абстрактных каналов данных .

🗼 Осевое внимание (Axial Attention): Революция в обработке изображений 11:07

Самой важной частью статьи и видео является механизм Axial Attention. В прогнозировании погоды критически важно учитывать дальние зависимости: например, горный хребет в сотнях километров может радикально изменить траекторию облака .

Обычно для таких задач используется механизм внимания (Attention), но у него есть проблема — квадратичная сложность. Если в изображении $D \times D$ пикселей, то количество связей, которые нужно вычислить, составит $D^4$ . Для изображений высокого разрешения это физически невозможно реализовать на текущем «железе» .

Axial Attention решает эту проблему элегантным трюком:

Вместо того чтобы каждый пиксель смотрел на все остальные пиксели сразу, внимание разбивается на два этапа.
Первый этап: Пиксель взаимодействует только со своей строкой (row attention).
Второй этап: Пиксель взаимодействует только со своим столбцом (column attention) .

Янник Кильчер (Yannic Kilcher) приводит наглядную аналогию с шахматами: «Обычное внимание — это ферзь, который ходит куда угодно. Axial Attention — это ладья, которой нужно сделать два хода, чтобы попасть в ту же точку. Результат один, но вычислительных ресурсов требуется в разы меньше» . Благодаря стеку из таких слоев (в MetNet их 8), информация эффективно распространяется по всему полю .

📊 Итоги и ограничения: Нейросети против «хаоса» 29:47

Сравнение MetNet с физическими моделями показывает стабильное преимущество нейросети на коротких и средних дистанциях. Однако Янник Кильчер (Yannic Kilcher) указывает на потенциальную слабость ИИ-подхода.

По мнению ведущего, нейросети отлично выявляют регулярности и закономерности в данных (broad scale regularities) . Но погода — это хаотическая система, где мельчайшие изменения могут привести к огромным последствиям (эффект бабочки). Физические симуляции, основанные на фундаментальных законах природы, могут оказаться точнее нейросетей при долгосрочном прогнозировании, где фактор хаоса становится доминирующим . Тем не менее, в рамках 8-часового окна MetNet остается лидером .