Ферран Алет: «Сохраняющиеся величины — это ключ к эффективности моделей»

Исследовательская работа Noether Networks, представленная Ферраном Алетом (Ferran Alet), Диланом Добларом (Dylan Doblar) и соавторами, предлагает инновационный подход к предсказанию динамических систем с помощью нейронных сетей. Янник Килчер в своем обзоре и интервью с одним из ведущих авторов, Ферраном Алетом, разбирает, как концепция из теоретической физики помогает нейросетям лучше обучаться в условиях нехватки данных, автоматически выявляя сохраняющиеся величины.

🌌 Вдохновение физикой: Теорема Нётер 1:50

В основе метода лежит фундаментальная теорема Нётер, которая гласит: для каждой непрерывной симметрии динамической системы существует соответствующая величина, значение которой сохраняется во времени.

Пример: В гравитационном взаимодействии планет система инвариантна относительно трансляций в трех измерениях, что влечет за собой сохранение импульса.

Однако в реальности такие величины не всегда очевидны, известны заранее или сохраняются с абсолютной точностью. По мнению Феррана Алета, в машинном обучении симметрии — это способ повысить эффективность модели, но работать с ними напрямую сложно, так как они часто требуют анализа «контрфактических» данных (например, как бы выглядела система, если бы законы физики изменились). В то же время сохраняющиеся величины можно измерить непосредственно на имеющихся данных.

🧠 Архитектура Noether Networks 4:19

Вместо того чтобы жестко прописывать симметрии в архитектуру нейросети, Noether Networks учатся «динамически» определять сохраняющиеся величины и использовать их в качестве индуктивного смещения (inductive bias).

Процесс предсказания включает внутреннюю оптимизацию в ходе прямого прохода (forward propagation):

Базовое предсказание: Сеть $f_\theta$ предсказывает последовательность кадров.
Поиск инвариантов: Сеть $g$ анализирует эти предсказания, проецируя их в пространство, где должны проявляться сохраняющиеся величины.
Корректировка: Вычисляется «нётеровская потеря» (Noether loss) — разница между выходами сети $g$ для разных кадров. На основе этого градиента веса сети $f_\theta$ временно обновляются.
Финальный результат: Обновленная сеть $f_\theta$ выполняет итоговый прогноз.

Такой подход позволяет модели «подстраивать» свои предсказания под конкретный пример, что делает систему крайне гибкой.

📊 Эксперименты и результаты 14:10

Метод показывает выдающиеся результаты в задачах, где данных недостаточно. В видео-примерах, где система предсказывает физическое взаимодействие на наклонной плоскости, модель успешно справляется с неточными ограничениями, такими как трение.

Сравнение с Hamilton Neural Networks: Модели, которые жестко навязывают точные законы сохранения, хуже справляются с реальными данными, где физические величины могут слегка «утекать» из-за диссипации энергии. Noether Networks моделируют такие ситуации гораздо точнее, поскольку допускают лишь приближенное выполнение ограничений.
Символьная регрессия: Метод применим не только к нейросетям, но и к символьной регрессии, где система способна восстановить точные физические уравнения (например, для идеального маятника) на основе простых блоков переменных.

💡 Особенности метода 12:26

Приблизительность: Enforcement (принуждение) ограничений является лишь приблизительным, что позволяет работать с данными реального мира, а не только с идеализированными симуляциями.
Гибкость: Поскольку это «мета-обучение», сеть учится тому, как корректировать свою функцию потерь под конкретный образец данных в моменте.
Итеративность: Хотя в экспериментах авторы использовали только один шаг градиентного спуска во время инференса, теоретически можно выполнять больше итераций, что также улучшает результат.