# Как бесконечно широкие нейросети превращаются в гауссовские процессы

Источник: https://www.youtube.com/watch?v=-eC0-5mXHQg
Канал: MIT OpenCourseWare
Опубликовано: 11.02.2026

---

Теория глубокого обучения стремится объяснить, почему сложные нейросетевые архитектуры оказываются столь эффективными на практике. В лекции Массачусетского технологического института (MIT) исследователь Джереми Бернштейн разбирает фундаментальную связь между искусственными нейросетями и классическими вероятностными моделями. Главным сюжетом лекции становится феномен соответствия бесконечно широких сетей гауссовским процессам, открывающий путь к аналитическому дизайну архитектур.

## 🏎️ Оптимизация на максимальной скорости: кейс «спидраннера» Келлера Джордана
[[JUMP:0:13]]

Лекция начинается с разбора практического примера из домашнего задания, связанного с матрицей градиента и сокращённым сингулярным разложением (SVD). Концептуально этот метод можно представить как обнуление или сведение к единице всех сингулярных значений матрицы градиента, что даёт полуортогональную прямоугольную матрицу. Бернштейн делится свежей новостью: независимый исследователь Келлер Джордан (известный в Twitter под ником `kellerjordan0`), называющий себя «спидраннером» нейросетей, взял этот теоретический метод за основу для ускорения обучения моделей. 

Чтобы избежать вычислительно долгой процедуры SVD при каждом шаге обучения, Джордан применил специальный итеративный метод вычисления, добавил моментум (импульс) и снизил точность вычислений. Бернштейн демонстрирует график сравнения результатов:

*   Решение LLM.C от Андрея Карпати считается одной из самых быстрых реализаций обучения трансформеров на чистом Си.
*   Метод «спектрального градиентного спуска» Келлера Джордана позволяет обучить ту же модель за малую долю от этого времени.

Бернштейн лично сотрудничает с Джорданом, поэтому он советует воспринимать эти результаты со здоровым скепсисом. Тем не менее, этот пример показывает, как глубокая оптимизационная математика способна напрямую ускорять реальные вычисления, что может послужить отличной темой для финальных проектов студентов.

## 🗺️ Суть обучения представлений и встроенное «мнение» архитектур
[[JUMP:4:58]]

Переходя к основной теме, Бернштейн напоминает содержание прошлых занятий, где рассматривалось контрастивное обучение (contrastive learning). Цель таких алгоритмов заключается в обучении представлений (эмбеддингов) данных без явного надзора: похожие объекты должны проецироваться в близкие точки пространства эмбеддингов, а семантически далёкие или принадлежащие к разным классам — разноситься как можно дальше. 

В процессе прохождения через слои нейросети, которые математически можно представить как последовательность векторных пространств, сильно перемешанные входные данные постепенно распутываются. В идеальном случае на выходе из сети данные разных классов становятся линейно разделимыми. 

Однако ключевой тезис лекции Бернштейна заключается в следующем:

> Выбранная вами архитектура нейросети уже обладает собственным «мнением» о том, какие точки данных похожи между собой, а какие нет, ещё до начала какого-либо обучения.

Архитектура изначально выражает эту априорную структуру сходства, и для понимания этого феномена необходимо рассмотреть классические подходы машинного обучения, существовавшие до бума глубокого обучения.

## 🧩 Классические альтернативы: ядерные методы и случайные функции
[[JUMP:9:47]]

Если отбросить всё, что известно о современном ML, и попытаться аппроксимировать данные с нуля, можно предложить линейную или полиномиальную интерполяцию. Доминирующим подходом в академической среде до начала эпохи глубокого обучения (примерно до 2013 года) были так называемые ядерные методы (kernel methods). 

Суть ядерных методов строится на размещении «функции-пузыря» (bump function), например, гауссианы, в локации каждого входного обучающего объекта. Если имеется $n$ точек данных, исследователь размещает $n$ таких функций и подбирает $n$ скалярных coefficients $\alpha_i$ для их масштабирования. Математически это выражается формулой:

$$f(x) = \sum_{i=1}^n \alpha_i k(x, x_i)$$

Здесь $k(x, x_i)$ — функция ядра, смещающая «пузырь» вдоль оси так, чтобы его центр находился в точке $x_i$. Множество таких функций формирует функциональное пространство $F$. Если устремить количество базовых функций к бесконечности, такое пространство называется воспроизводящим ядерным гильбертовым пространством (RKHS). В те времена вся задача инженерии сводилась не к выбору архитектуры, а к подбору удачной функции ядра, отражающей структуру данных.

Второй классический подход основан на сэмплировании случайных функций из некоторого стохастического процесса. Представив бесконечную генерацию случайных кривых, исследователь оставляет только те из них, которые в точности проходят через точки обучающей выборки, отбрасывая остальные. В математической статистике этот процесс называется обусловливанием распределения функций на обучающих данных, что даёт апостериорное распределение (posterior distribution). 

Между этими тремя концепциями — гауссовскими процессами (Gaussian processes), ядерными методами и нейросетями — существуют глубокие взаимные соответствия:

1. Вычисление математического ожидания (среднего) апостериорного распределения случайных функций из стохастического процесса даёт гладкую кривую, эквивалентную ядерному интерполятору с минимальной нормой в RKHS.
2. Если взять нейросеть, устремить ширину всех её скрытых слоёв к бесконечности и случайно инициализировать веса, распределение её функций при повторной инициализации станет эквивалентно гауссовскому процессу.

## 📈 Что такое гауссовский процесс: от случайных векторов к бесконечной размерности
[[JUMP:22:12]]

Для упрощения Бернштейн предлагает интуитивный переход от понятных многомерных случайных векторов. Представим нормальный случайный вектор с нулевым средним значением и некоторой матрицей ковариации. Если отобразить значения его координат на графике и соединить их линиями, получится дискретная функция. Если координаты независимы, график будет хаотичным, поскольку соседние точки никак не связаны. Однако если задать специальную структуру матрицы ковариации, где соседние элементы сильно коррелируют друг с другом, функция станет плавной и гладкой.

Гауссовский процесс — это прямое обобщение этой конструкции, когда размерность случайного вектора (количество точек сетки) устремляется к бесконечности. 

Формальное определение гласит:

> Если для любого конечного набора входных точек $x_1, x_2, \dots, x_n$ значения функции $f(x)$ образуют многомерный гауссовский случайный вектор, то непрерывный объект $f$ является гауссовским процессом.

Поскольку гауссовский вектор описывается матрицей ковариации, бесконечномерный гауссовский процесс описывается ковариационной функцией $\Sigma(x, x')$, которая определяет взаимосвязь значений функции в двух произвольных точках. Например, конечная ковариация вида $e^{-(i-j)^2}$ в непрерывном случае трансформируется в $e^{-(x-x')^2}$.

Ковариационная функция кодирует понятие близости:

*   Если точки $x$ и $x'$ близки, значения случайных функций в них будут строго коррелировать на диаграмме рассеяния.
*   Если точки разнесены далеко, значения станут независимыми.
*   В качестве ковариации могут выступать экспонента от отрицательного квадрата расстояния или скалярное произведение векторов. Данный подход можно расширить и на дискретные пространства, например, на эмбеддинги слов в языковых моделях.

Для предсказания (вывода) в нерасчётной точке $x^*$ используется аппарат обусловливания многомерного нормального распределения. Исследователь объединяет известные значения функции на обучении и неизвестную величину $f(x^*)$ в один большой вектор. Поскольку их совместное распределение гауссовское по определению, условное распределение последней координаты при фиксированных первых $n$ координатах также гарантированно является гауссовским. Это даёт замкнутые аналитические формулы для расчёта как среднего значения предсказания (гладкая кривая), так и стандартного отклонения (оно равно нулю в точках обучающей выборки и растёт по мере удаления от них).

## 🤝 Соответствие NNGP: как бесконечно широкая нейросеть превращается в гауссовский процесс
[[JUMP:44:56]]

Феномен соответствия гауссовских процессов и нейросетей (Neural Network Gaussian Process Correspondence, или NNGP) долгое время вызывал огромный энтузиазм в теоретическом сообществе. Бернштейн иллюстрирует его натурным экспериментом, который он провёл за два года до лекции. Он взял изображение грузовика из датасета CIFAR-10 и создал две модификации: одну с небольшим пиксельным шумом (высокое сходство), вторую — с сильным зашумлением (низкое сходство).

Используя трёхслойный полносвязный перцептрон (MLP) шириной скрытых слоёв в 1000 нейронов, Бернштейн переинициализировал веса случайными значениями 1000 раз, фиксируя выходы сети для этих картинок. Результаты эксперимента подтвердили теорию:

*   Для близких изображений случайные выходы сети оказались сильно скоррелированы.
*   Для зашумлённой картинки корреляция выходов заметно снизилась.

Математическое утверждение NNGP гласит: при стремлении ширины скрытых слоёв к бесконечности распределение выходов случайно инициализированной нейросети на любом конечном наборе входов сходится к многомерному гауссовскому распределению. Таким образом, случайная бесконечно широкая сеть в точности эквивалентна гауссовскому процессу, а структура её ковариационной функции полностью определяется выбранной архитектурой и типом функции активации.

Студенты в аудитории резонно поинтересовались, не приведёт ли бесконечная ширина к катастрофическому переобучению (overfitting) из-за избыточной ёмкости модели. Бернштейн объясняет, что в гауссовском процессе вероятность получить экстремально хаотичную функцию бесконечно мала, так как распределение жёстко концентрируется вокруг плавного математического ожидания. Кроме того, Бернштейн подчёркивает: огромная избыточность параметров (overparameterization) нейросетей вовсе не означает автоматическое переобучение на практике — она лишь указывает на теоретическую возможность этого, но сама сеть способна отлично обобщать и представлять простые, гладкие функции.

## 🧮 Математика соответствия и проблема инициализации весов
[[JUMP:1:04:45]]

Доказательство соответствия NNGP опирается на последовательное применение многомерной центральной предельной теоремы по слоям нейросети посредством индукции по глубине. На каждом слое широкой сети активации для фиксированного входа ведут себя как независимые одинаково распределённые случайные переменные, что в пределе и рождает гауссовость.

Для конкретного примера — многослойного перцептрона с активацией $\sqrt{2} \times \text{ReLU}$ — веса инициализируются со стандартной дисперсией вида $1/\text{fan-in}$ (где $\text{fan-in}$ — количество входящих связей нейрона). Это соответствует стандартной схеме инициализации Ксавье (Xavier), принятой по умолчанию в PyTorch. Математическое ожидание выхода такой сети будет равно нулю, а ковариационная структура примет форму так называемого композиционного арккосинусного ядра (compositional arccosine kernel), которое вычисляется путём итеративного применения специальной функции $L-1$ раз, где $L$ — глубина сети. Существует также аналогичный подход — нейронное тангенциальное ядро (Neural Tangent Kernel, или NTK), описывающее поведение уже обученных нейросетей в бесконечном пределе, однако интерес исследователей к нему в последнее время угас.

В финале лекции Джереми Бернштейн признаёт горькую правду о судьбе этих красивых математических теорий:

> По мнению Бернштейна, соответствие NNGP практически не повлияло на то, чем инженеры реально занимаются на практике в индустрии глубокого обучения. Вместо аналитического проектирования ядер под конкретные задачи индустрия просто использует стандартный набор архитектур, таких как трансформеры.

Помимо вычислительной сложности ядерных методов (их стоимость растёт кубически от размера датасета $O(n^3)$, в то время как нейросети масштабируются линейно $O(n)$), Бернштейн указывает на фундаментальный изъян стандартной инициализации Ксавье ($1/\text{fan-in}$). 

Она создавалась лишь для удержания масштаба активаций в момент самой инициализации. Но если входная размерность слоя многократно превышает выходную, матрица весов обладает огромным нуль-пространством (null space), зануляющим часть сигналов. По мнению Бернштейна, этот принцип оказывается неудачным для этапа активного обучения, поскольку активации становятся слишком большими. Именно поэтому для обучения по-настоящему гигантских моделей сегодня используют альтернативные подходы, такие как максимальная параметризация обновлений (mUP).