Янник Кильчер: «SIREN — это революция в представлении сигналов»

Yannic Kilcher 49,6 тыс. 56 мин 2 мин 21.06.2020
Главное

SIREN: Новый взгляд на представление данных через нейронные сети

0:00

Исследователь в области машинного обучения Янник Кильчер (Yannic Kilcher) детально разбирает работу нейросетевой архитектуры SIREN (Sinusoidal Representation Networks), представленную командой исследователей, включая Винсента Ситцмана (Vincent Sitzmann) и Гордона Ветштейна (Gordon Wetzstein). В отличие от классических подходов, где данные хранятся как дискретные массивы (пиксели, аудиосэмплы), SIREN предлагает представлять сигналы как непрерывные функции, отображающие координаты в значения. Ключевой особенностью модели является использование синусоид в качестве функций активации, что позволяет нейросети не только идеально восстанавливать данные, но и точно аппроксимировать их производные.

🧠 Концепция нейронных представлений 0:28

В классическом машинном обучении мы привыкли к задачам «вход — метка» или генеративным моделям типа GAN, где нейросеть обучается отображать латентный вектор в изображение. Авторы SIREN предлагают другой подход:

🌊 Почему именно синусоиды? 14:31

По словам Кильчера, попытки просто заменить ReLU или другие функции активации на синус часто заканчивались неудачей. Секрет SIREN заключается в специфической схеме инициализации весов.

📐 Прикладные возможности и задачи 28:28

Кильчер отмечает несколько впечатляющих способов применения этой архитектуры:

  1. Композиция изображений: Можно смешивать изображения, складывая их градиентные карты. Сеть, обученная на сумме градиентов, способна реконструировать изображение, объединяя детали обоих источников.
  2. Работа с 3D (SDF): SIREN отлично справляются с представлением знаковых функций расстояния (Signed Distance Functions — SDF) для 3D-облаков точек. Сеть учится предсказывать расстояние до поверхности: нули на поверхности, плюс снаружи, минус внутри.
  3. Решение дифференциальных уравнений: Благодаря способности работать с производными, SIREN могут использоваться для численного решения уравнений в частных производных (PDE), например, уравнения Гельмгольца.

⚙️ Масштабируемость и обобщение 50:49

Несмотря на успех в представлении отдельных объектов, архитектура сталкивается с вопросом: как обучать такие модели на целых классах данных? В статье описывается решение, где используется CNN-энкодер. Сначала CNN обрабатывает изображение с пропущенными пикселями, а затем выдает параметры (веса) для нейросети SIREN, которая восстанавливает исходную картину. По мнению автора видео, это возвращает нас в классическое поле машинного обучения, но с более мощным инструментом «непрерывного представления» на выходе.

💬 Цитаты

«Если вы похожи на меня и пришли из классического машинного обучения, эта статья потребует от вас переосмыслить само понятие работы с данными.»

Янник Кильчер 0:13

«Производная SIREN — это тоже SIREN, и это свойство не характерно для других функций активации.»

Янник Кильчер 21:05
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Implicit Neural Representations
Способ представления данных (например, изображений), где нейросеть обучается отображать координаты точек в значения (цвет, плотность), вместо хранения явного массива пикселей.
SDF (Signed Distance Function)
Функция, которая для любой точки в пространстве возвращает расстояние до ближайшей границы поверхности; знак показывает, находится ли точка внутри или снаружи.
ReLU
Популярная функция активации в нейросетях (Rectified Linear Unit), которая возвращает ноль для отрицательных чисел и само число для положительных.
Laplacian
Дифференциальный оператор, используемый для поиска областей резкого изменения интенсивности (краев) в изображении.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект SIREN neural representations Sitzmann implicit representations