Как предсказать параметры нейросети без обучения: разбор статьи GHN-2 с Борисом Князевым

Yannic Kilcher 15,7 тыс. 48 мин 4 мин 24.11.2021
Главное

Представьте себе мир, где глубокие нейронные сети не нужно обучать неделями на огромных серверных фермах. Вместо долгого и дорогостоящего процесса обратного распространения ошибки (backpropagation), параметры новой, еще не виданной архитектуры предсказываются мгновенно другой нейросетью. Именно эту амбициозную задачу обсуждают ведущий Янник Кильчер (Yannic Kilcher) и исследователь Борис Князев (Boris Knyazev) в контексте их работы, вызвавшей бурные дискуссии в научном сообществе.

🧠 Суть метода: гиперсеть для предсказания весов 2:00

Основная идея исследования Бориса Князева заключается в создании специальной гиперсети на базе графовых нейронных сетей (GNN). В классическом машинном обучении мы имеем фиксированную архитектуру и обучаем её веса $W$ на наборе данных $X$, чтобы получить результат $Y$. Борис Князев предлагает иной подход: на вход гиперсети подается сама структура нейросети (её вычислительный граф), а на выходе генерируются веса для этой структуры .

Важные уточнения по механике работы:

По мнению Бориса Князева, такие цифры удивительны, так как общепринятое мнение в индустрии гласит, что веса для новой архитектуры нельзя просто угадать: сложные взаимодействия между нейронами обычно приводят к тому, что нетренированная сеть выдает «мусор» .

📊 Датасет DeepNets-1M: миллион архитектур в подарок 6:29

Для обучения такой гиперсети потребовался колоссальный объем данных. Команда создала датасет DeepNets-1M, включающий 1 миллион различных архитектур .

Ключевые характеристики датасета:

  1. Случайная генерация: Архитектуры строились путем равномерного сэмплирования из заданного пространства дизайна (design space).
  2. Широкий спектр операций: Пространство включает свертки (convolution), линейные слои, механизмы внимания (attention), различные типы нормализации (BatchNorm, WeightNorm) или их отсутствие .
  3. Отсутствие готовых весов: Важно понимать, что авторы НЕ обучали этот миллион сетей. Веса в датасете отсутствуют — гиперсеть учится их создавать «с нуля» .

Борис Князев отмечает, что они намеренно расширили пространство дизайна по сравнению с типичными работами по поиску архитектур (NAS), включив туда такие модели, как ResNet, которые в NAS-сообществе иногда считают избыточными .

🛠 Математика обучения: как «учить учителя» 13:30

Процесс обучения гиперсети выглядит как мета-задача. Вместо того чтобы минимизировать ошибку конкретной сети, алгоритм минимизирует общую ошибку по всем возможным архитектурам из датасета DeepNets-1M .

Алгоритм выглядит так:

🕸 Архитектура GHN-2: графы и виртуальные связи 18:36

В качестве «предсказателя» используется улучшенная графовая гиперсеть (GHN-2). Каждый узел графа соответствует операции в нейросети (например, свертке).

Технические особенности GHN-2:

📐 Проблема размерности и «тайлинг» весов 25:33

Один из самых сложных вопросов: как предсказывать разное количество параметров (например, свертку 3х3 и 5х5) одной сетью?

По словам Бориса Князева, они использовали достаточно наивную стратегию — тайлинг (tiling) . Гиперсеть генерирует тензор фиксированного максимального размера. Если целевой сети нужен тензор побольше, предсказанный блок копируется («размножается» плиткой) до нужного размера, а лишнее обрезается . Борис признает, что это ограничивает выразительную способность и является зоной для будущих улучшений, возможно, с использованием неявных нейронных представлений .

🚀 Практическая ценность: тонкая настройка и ускорение 42:07

Может ли этот метод заменить обучение? Пока нет, но он может стать идеальным «стартом».

📉 Реакция сообщества и «оправданный хайп» 45:35

Борис Князев отметил, что работа была воспринята публикой неоднозначно, иногда — со слишком большим восторгом.

По мнению Бориса, возникло заблуждение, что их модель может предсказывать веса для любых задач . На самом деле, модель жестко привязана к датасету, на котором училась. «Мы еще очень далеки от того, чтобы полностью заменить SGD (стохастический градиентный спуск)», — утверждает исследователь . Янник Кильчер пошутил, что кликбейтное название видео могло быть «SGD больше не нужен», но Борис настоял на более осторожных оценках .

💬 Цитаты

«Для новой сети вы не можете просто предсказать параметры; обычно это приводит к появлению 'мусорных' нейронов. То, что мы получили такие цифры, удивляет нас самих.»

Борис Князев 05:22

«Наша модель не готова заменить SGD. Мы еще очень далеко от этого.»

Борис Князев 46:02
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Гиперсеть (Hypernetwork)
Нейронная сеть, которая генерирует веса для другой нейронной сети.
GNN (Graph Neural Network)
Тип нейросетей, предназначенный для обработки данных, представленных в виде графов.
SGD (Stochastic Gradient Descent)
Классический метод оптимизации весов нейросети через расчет градиентов.
Тайлинг (Tiling)
Метод заполнения больших матриц весов путем многократного копирования меньшего предсказанного блока.
📊 Цифры
🗓 Хронология
  1. Лето 2020 Борис Князев начинает проект во время стажировки в Facebook AI Research.
  2. 2021 Публикация статьи и релиз датасета DeepNets-1M.
⚖️ Другая сторона
Искусственный интеллект Boris Knyazev GHN-2 Hypernetworks Graph Neural Networks DeepNets-1M