Представьте себе мир, где глубокие нейронные сети не нужно обучать неделями на огромных серверных фермах. Вместо долгого и дорогостоящего процесса обратного распространения ошибки (backpropagation), параметры новой, еще не виданной архитектуры предсказываются мгновенно другой нейросетью. Именно эту амбициозную задачу обсуждают ведущий Янник Кильчер (Yannic Kilcher) и исследователь Борис Князев (Boris Knyazev) в контексте их работы, вызвавшей бурные дискуссии в научном сообществе.
🧠 Суть метода: гиперсеть для предсказания весов 2:00
Основная идея исследования Бориса Князева заключается в создании специальной гиперсети на базе графовых нейронных сетей (GNN). В классическом машинном обучении мы имеем фиксированную архитектуру и обучаем её веса $W$ на наборе данных $X$, чтобы получить результат $Y$. Борис Князев предлагает иной подход: на вход гиперсети подается сама структура нейросети (её вычислительный граф), а на выходе генерируются веса для этой структуры .
Важные уточнения по механике работы:
- Специфичность данных: Гиперсеть не является универсальной для всех задач. Она обучается под конкретный датасет (например, CIFAR-10 или ImageNet). На этапе инференса (тестирования) данные в гиперсеть не подаются — только архитектура целевой сети .
- Один проход: Параметры предсказываются за один «forward pass» через GNN, что отличает метод от мета-оптимизаторов, требующих множества итераций .
- Результаты: На датасете CIFAR-10 метод достиг 60% точности, а на ImageNet — около 50% (top-5 accuracy) без какого-либо градиентного обучения целевой сети .
По мнению Бориса Князева, такие цифры удивительны, так как общепринятое мнение в индустрии гласит, что веса для новой архитектуры нельзя просто угадать: сложные взаимодействия между нейронами обычно приводят к тому, что нетренированная сеть выдает «мусор» .
📊 Датасет DeepNets-1M: миллион архитектур в подарок 6:29
Для обучения такой гиперсети потребовался колоссальный объем данных. Команда создала датасет DeepNets-1M, включающий 1 миллион различных архитектур .
Ключевые характеристики датасета:
- Случайная генерация: Архитектуры строились путем равномерного сэмплирования из заданного пространства дизайна (design space).
- Широкий спектр операций: Пространство включает свертки (convolution), линейные слои, механизмы внимания (attention), различные типы нормализации (BatchNorm, WeightNorm) или их отсутствие .
- Отсутствие готовых весов: Важно понимать, что авторы НЕ обучали этот миллион сетей. Веса в датасете отсутствуют — гиперсеть учится их создавать «с нуля» .
Борис Князев отмечает, что они намеренно расширили пространство дизайна по сравнению с типичными работами по поиску архитектур (NAS), включив туда такие модели, как ResNet, которые в NAS-сообществе иногда считают избыточными .
🛠 Математика обучения: как «учить учителя» 13:30
Процесс обучения гиперсети выглядит как мета-задача. Вместо того чтобы минимизировать ошибку конкретной сети, алгоритм минимизирует общую ошибку по всем возможным архитектурам из датасета DeepNets-1M .
Алгоритм выглядит так:
- Сэмплируется архитектура $A$.
- Гиперсеть предсказывает веса для этой архитектуры.
- Изображение $X$ пропускается через архитектуру $A$ с предсказанными весами.
- Ошибка (loss) вычисляется по результату классификации.
- Критический момент: Градиент ошибки пробрасывается обратно через веса архитектуры прямо в параметры гиперсети . Весь путь дифференцируем .
🕸 Архитектура GHN-2: графы и виртуальные связи 18:36
В качестве «предсказателя» используется улучшенная графовая гиперсеть (GHN-2). Каждый узел графа соответствует операции в нейросети (например, свертке).
Технические особенности GHN-2:
- Сообщения (Message Passing): Узлы обмениваются признаками со своими соседями. Авторы используют два алгоритма прохода: один имитирует прямой проход (forward), другой — обратный (backward) в реальной сети .
- Рекуррентность: Для экономии параметров функции обновления узлов разделяются между всеми слоями и шагами времени (RNN-подход) .
- Проблема «глубоких» графов: При работе с очень глубокими архитектурами информация из первых слоев плохо доходит до последних. Чтобы решить это, Борис Князев ввел виртуальные ребра (virtual edges) . Они соединяют далекие узлы на основе кратчайшего пути, позволяя информации течь быстрее — аналог Residual-связей, но на уровне графа .
📐 Проблема размерности и «тайлинг» весов 25:33
Один из самых сложных вопросов: как предсказывать разное количество параметров (например, свертку 3х3 и 5х5) одной сетью?
По словам Бориса Князева, они использовали достаточно наивную стратегию — тайлинг (tiling) . Гиперсеть генерирует тензор фиксированного максимального размера. Если целевой сети нужен тензор побольше, предсказанный блок копируется («размножается» плиткой) до нужного размера, а лишнее обрезается . Борис признает, что это ограничивает выразительную способность и является зоной для будущих улучшений, возможно, с использованием неявных нейронных представлений .
🚀 Практическая ценность: тонкая настройка и ускорение 42:07
Может ли этот метод заменить обучение? Пока нет, но он может стать идеальным «стартом».
- Скорость: Предсказание весов для ResNet-50 занимает менее секунды .
- Эффективность: Веса, предсказанные GHN-2, эквивалентны примерно 5 эпохам полноценного обучения на ImageNet .
- Fine-tuning: Если взять предсказанные веса как инициализацию и немного доучить их (fine-tuning), можно достичь высоких результатов гораздо быстрее, чем при обучении со случайной инициализации.
📉 Реакция сообщества и «оправданный хайп» 45:35
Борис Князев отметил, что работа была воспринята публикой неоднозначно, иногда — со слишком большим восторгом.
По мнению Бориса, возникло заблуждение, что их модель может предсказывать веса для любых задач . На самом деле, модель жестко привязана к датасету, на котором училась. «Мы еще очень далеки от того, чтобы полностью заменить SGD (стохастический градиентный спуск)», — утверждает исследователь . Янник Кильчер пошутил, что кликбейтное название видео могло быть «SGD больше не нужен», но Борис настоял на более осторожных оценках .