# Ферран Алет: «Сохраняющиеся величины — это ключ к эффективности моделей»

Источник: https://www.youtube.com/watch?v=Xp3jR-ttMfo
Канал: Yannic Kilcher
Опубликовано: 19.01.2022

---

Исследовательская работа Noether Networks, представленная Ферраном Алетом (Ferran Alet), Диланом Добларом (Dylan Doblar) и соавторами, предлагает инновационный подход к предсказанию динамических систем с помощью нейронных сетей. Янник Килчер в своем обзоре и интервью с одним из ведущих авторов, Ферраном Алетом, разбирает, как концепция из теоретической физики помогает нейросетям лучше обучаться в условиях нехватки данных, автоматически выявляя сохраняющиеся величины.

## 🌌 Вдохновение физикой: Теорема Нётер
[[JUMP:1:50]]

В основе метода лежит фундаментальная теорема Нётер, которая гласит: для каждой непрерывной симметрии динамической системы существует соответствующая величина, значение которой сохраняется во времени.

*   **Пример:** В гравитационном взаимодействии планет система инвариантна относительно трансляций в трех измерениях, что влечет за собой сохранение импульса.

Однако в реальности такие величины не всегда очевидны, известны заранее или сохраняются с абсолютной точностью. По мнению Феррана Алета, в машинном обучении симметрии — это способ повысить эффективность модели, но работать с ними напрямую сложно, так как они часто требуют анализа «контрфактических» данных (например, как бы выглядела система, если бы законы физики изменились). В то же время сохраняющиеся величины можно измерить непосредственно на имеющихся данных.

## 🧠 Архитектура Noether Networks
[[JUMP:4:19]]

Вместо того чтобы жестко прописывать симметрии в архитектуру нейросети, Noether Networks учатся «динамически» определять сохраняющиеся величины и использовать их в качестве индуктивного смещения (inductive bias).

Процесс предсказания включает внутреннюю оптимизацию в ходе прямого прохода (forward propagation):

1.  **Базовое предсказание:** Сеть $f_\theta$ предсказывает последовательность кадров.
2.  **Поиск инвариантов:** Сеть $g$ анализирует эти предсказания, проецируя их в пространство, где должны проявляться сохраняющиеся величины.
3.  **Корректировка:** Вычисляется «нётеровская потеря» (Noether loss) — разница между выходами сети $g$ для разных кадров. На основе этого градиента веса сети $f_\theta$ временно обновляются.
4.  **Финальный результат:** Обновленная сеть $f_\theta$ выполняет итоговый прогноз.

Такой подход позволяет модели «подстраивать» свои предсказания под конкретный пример, что делает систему крайне гибкой.

## 📊 Эксперименты и результаты
[[JUMP:14:10]]

Метод показывает выдающиеся результаты в задачах, где данных недостаточно. В видео-примерах, где система предсказывает физическое взаимодействие на наклонной плоскости, модель успешно справляется с неточными ограничениями, такими как трение.

*   **Сравнение с Hamilton Neural Networks:** Модели, которые жестко навязывают точные законы сохранения, хуже справляются с реальными данными, где физические величины могут слегка «утекать» из-за диссипации энергии. Noether Networks моделируют такие ситуации гораздо точнее, поскольку допускают лишь приближенное выполнение ограничений.
*   **Символьная регрессия:** Метод применим не только к нейросетям, но и к символьной регрессии, где система способна восстановить точные физические уравнения (например, для идеального маятника) на основе простых блоков переменных.

## 💡 Особенности метода
[[JUMP:12:26]]

*   **Приблизительность:** Enforcement (принуждение) ограничений является лишь приблизительным, что позволяет работать с данными реального мира, а не только с идеализированными симуляциями.
*   **Гибкость:** Поскольку это «мета-обучение», сеть учится тому, как корректировать свою функцию потерь под конкретный образец данных в моменте.
*   **Итеративность:** Хотя в экспериментах авторы использовали только один шаг градиентного спуска во время инференса, теоретически можно выполнять больше итераций, что также улучшает результат.