Ширина или глубина: математический спор об архитектуре нейросетей

В лекции Массачусетского технологического института (MIT) исследователь Джереми Бернштейн разбирает фундаментальный вопрос проектирования искусственных нейросетей: что эффективнее наращивать — ширину слоев или их глубину? Через призму классической теории аппроксимации автор демонстрирует, как математические абстракции помогают понять ограничения современных архитектур. Материал предлагает глубокий анализ того, способны ли нейросети выразить любую математическую функцию и как это соотносится с практикой обучения больших языковых моделей.

🧩 Три элемента машинного обучения и загадка аппроксимации 0:12

Бернштейн начинает лекцию с интерактивного вопроса к аудитории: что предпочтительнее масштабировать — ширину слоев нейросети или её глубину? Ответ «глубину» кажется интуитивным просто потому, что индустрия ассоциируется с термином «глубокое обучение». Однако с теоретической точки зрения выбор неочевиден. Чтобы разобраться в этом, лектор предлагает взглянуть на машинное обучение как на комплексный пазл, состоящий из трех независимых, но взаимосвязанных элементов:

Аппроксимация: существует ли вообще в выбранном семействе моделей нейросеть, способная описать обучающие данные?
Оптимизация: если такая сеть существует, сможем ли мы найти её параметры в процессе обучения?
Генерализация (обобщающая способность): будет ли найденное решение эффективно работать на новых, ранее не виденных данных?

Для иллюстрации проблемы аппроксимации приводится классический пример с двухмерными данными, которые не поддаются линейному разделению (например, чередующиеся группы точек на плоскости). Простая однослойная нейросеть с функцией активации ReLU представляет собой обычный линейный сепаратор, поскольку ReLU лишь накладывает нелинейность на выход, но не деформирует разделяющую гиперплоскость. Такая модель физически не способна аппроксимировать сложные структуры, тогда как двухслойная сеть потенциально может справиться с этой задачей.

В качестве экстремального примера Бернштейн демонстрирует функцию Вейерштрасса — патологический математический объект, который непрерывен везде, но ни в одной точке не имеет производной. По мнению лектора, точный ответ на вопрос, может ли нейросеть аппроксимировать фрактальную функцию Вейерштрасса, остается открытым, хотя теоретически это возможно сделать асимптотически при стремлении числа параметров к бесконечности.

📏 Математический фундамент: непрерывность Липшица 9:08

Чтобы строго доказать способность нейросетей приближать математические функции, необходимо ограничить пространство исследуемых кривых. В рамках лекции Бернштейн выбирает класс функций, удовлетворяющих условию непрерывности Липшица. Функция $g$ называется $L$-Липшицевой, если изменение её значения жестко ограничено размером изменения входного аргумента, помноженным на константу $L$:

$$|g(x + \Delta x) - g(x)| \le L |\Delta x|$$

По сути, непрерывность Липшица является обобщением понятия ограниченной производной. Если зафиксировать точку на графике, то липшицева функция обязана целиком укладываться в рамки ограничивающего конуса, напоминающего форму галстука-бабочки.

Для распространения этого принципа на многомерные пространства ($g: \mathbb{R}^d \to \mathbb{R}$) Бернштейн вводит среднеквадратичную норму (RMS norm) для измерения размера вектора:

$$\text{RMS}(x) = \sqrt{\frac{1}{d} \sum_{i=1}^d x_i^2} = \frac{1}{\sqrt{d}} |x|_2$$

Бернштейн подчеркивает, что RMS-норма, в отличие от стандартной евклидовой, является безразмерным аналогом, так как для вектора из одних единиц она всегда равна единице, независимо от размерности пространства.

Опираясь на этот базис, лектор формулирует ключевую теорему аппроксимации: для любой $L$-Липшицевой функции, заданной на единичном гиперкубе $[0, 1]^d$, существует трехслойная нейросеть ReLU с общим числом нейронов $N$, которая способна приблизить эту функцию с интегральной ошибкой ($L_1$-мера) менее чем $2\epsilon$. Главная проблема данной теоремы кроется в параметре $N$: требуемое количество нейронов пропорционально значению $(L/\epsilon)^d$, что указывает на катастрофическую экспоненциальную зависимость от размерности пространства $d$.

🧱 Ступени доказательства: от прямоугольников к нейросетям 22:15

Стратегия доказательства универсальной аппроксимации, предложенная Бернштейном, состоит из четырех последовательных шагов:

Аппроксимация одномерной функции с помощью набора прямоугольных ступеней (индикаторных функций).
Масштабирование конструкции до многомерных гиперпрямоугольников.
Доказательство того, что двухслойная сеть ReLU способна сформировать один такой гиперпрямоугольник.
Использование третьего слоя сети для линейной комбинации этих блоков в финальную кривую.

Начав с одномерного случая, Бернштейн рассчитывает геометрию ошибки. Если ширина прямоугольной ступени равна $1/N$, то максимальная высота отклонения от липшицевой функции за счет ограничения производной равна $L/N$, а площадь треугольного зазора составляет $\frac{1}{2} \cdot \frac{L}{N^2}$. Суммируя ошибку по всем $N$ полосам, мы получаем общую погрешность $\frac{1}{2} \cdot \frac{L}{N}$. Из этого легко выводится число необходимых элементов для достижения точности $\epsilon$: их должно быть больше, чем $L/\epsilon$. В $d$-мерном пространстве функция аппроксимируется «шапками» гиперпрямоугольников, что и дает искомую степень $(L/\epsilon)^d$.

Наиболее изящная часть доказательства заключается в том, как заставить ReLU-элементы имитировать прямоугольную ступень. Последовательно вычитая и складывая сдвинутые функции ReLU ($\text{ReLU}(x) - \text{ReLU}(x-1) \dots$), можно получить трапецию. Вводя масштабный коэффициент $c$ перед аргументами и устремляя его к бесконечности ($c \to \infty$), мы делали боковые склоны трапеции абсолютно вертикальными, превращая её в идеальный прямоугольник.

Чтобы создать многомерный куб, Бернштейн применяет логический трюк: берутся два перпендикулярных бесконечных прямоугольных желоба, выровненных по осям координат. При их сложении образуется крестообразная поверхность, где на пересечении высота равна 2, на ответвлениях — 1, а в остальных местах — 0. Если сдвинуть эту конструкцию вниз на величину $d-1$ и отсечь всё, что ниже нуля с помощью функции активации ReLU, сеть выдаст изолированный гиперкуб только в месте пересечения всех исходных полос.

Каждый такой многомерный блок требует $4d$ нейронов. Третий слой сети выполняет роль взвешенного сумматора (аналог интегральной суммы Римана), который задает нужную высоту для каждого гиперпрямоугольника и формирует итоговый ландшафт функции.

⚠️ Ограничения теории и классические альтернативы 40:13

Несмотря на математическую строгость, Бернштейн призывает скептически относиться к практической ценности этого доказательства. По его словам, это сугубо абстрактная («игрушечная») конструкция. Устремление коэффициента $c$ к бесконечности означает колоссальный взрыв весов, что в реальном глубоком обучении свидетельствует о поломке модели. Более того, обучение такой сети на реальных данных привело бы к катастрофическим результатам: модель просто подтягивала бы отдельные изолированные столбики под каждую точку обучающей выборки, полностью теряя обобщающую способность на тестовых данных.

Лектор указывает на существование более элегантных альтернатив в научной литературе. Например, теорема Баррона использует Фурье-представление функций для достижения более эффективных оценок аппроксимации. Существует также классический подход на основе теоремы Стоуна — Вейерштрасса, доказывающий возможность универсальной аппроксимации всего двумя слоями сети с помощью полиномов.

В завершение темы Бернштейн задается вопросом: является ли свойство универсальной аппроксимации достаточным или хотя бы необходимым для успеха машинного обучения? Как отмечает исследователь, полиномы и даже языки программирования (например, Python) тоже являются универсальными аппроксиматорами. Однако сам по себе факт установки Python не решает задачу искусственного интеллекта. По мнению Бернштейна, универсальная аппроксимация — это лишь одна часть мозаики, и для успешной работы алгоритмов она, строго говоря, даже не является обязательной.

⚡ Глубина против ширины: парадокс «изломов» 50:06

Во второй части лекции Бернштейн переходит к сравнению архитектурных подходов. С точки зрения компьютерных систем и железа, широкие и мелкие сети обладают колоссальным преимуществом — их вычисления легко распараллелить на графических процессорах. Напротив, чрезмерное увеличение глубины без должного контроля (например, если взять базовый многослойный перцептрон в 50 слоев) склонно приводить к коллапсу градиентов и ломать процесс оптимизации.

Однако у глубины есть фундаментальное математическое преимущество — композициональность. Для демонстрации этого Бернштейн разбирает так называемые «результаты о разделении по глубине» (depth separation results). В качестве метрики сложности функции выбирается количество линейных регионов или «изломов» (kinks) — точек, где резко меняется производная кусочно-линейной функции.

Поскольку сама функция активации ReLU является кусочно-линейной, любая комбинация слоев ReLU порождает кусочно-линейную функцию. При этом действуют следующие математические правила:

При сложении двух функций количество изломов в худшем случае суммируется.
При пропускании функции через ReLU количество изломов может максимум удвоиться, так как ReLU способна рассечь один линейный участок на два.

Для слоя нейросети шириной $n$ максимальное число изломов на выходе $L$-го слоя подчиняется рекурсивному ограничению и составляет не более $(2n)^L$. Ограничение растет полиномиально от ширины слоев $n$, но экспоненциально от глубины сети $L$.

Чтобы доказать, что эта теоретическая верхняя граница достижима на практике, Бернштейн приводит пример с фрактальной функцией «палатки» (или треугольника). Простая сеть ReLU может сформировать один треугольник. Если подать выход этой сети на вход точно такой же конструкции (осуществить композицию функции саму на себя), мы получим два треугольника. Повторная композиция даст четыре треугольника, и так далее.

Если повторить эту операцию композиции 500 раз, мы получим 1000-слойную сеть, генерирующую $2^{500}$ изломов. По расчетам Бернштейна, если бы мы попытались воспроизвести точно такую же функцию с огромным количеством изломов с помощью мелкой трехслойной нейросети, её ширина должна была бы составить фантастические $10^{50}$ нейронов. Этот пример наглядно доказывает экспоненциальное превосходство глубоких архитектур над широкими при моделировании сложных высокоосциллирующих зависимостей.

📈 Практика масштабирования: эмпирический ответ LLM 1:10:39

В индустриальном машинном обучении теоретические барьеры размываются, поскольку аппроксимация, оптимизация и генерализация работают одновременно. Инженеру большой языковой модели (LLM) крайне важно знать, куда направлять бюджет compute-флопсов при масштабировании.

Бернштейн ссылается на основополагающую работу Kaplan & McCandlish (2020) от компании OpenAI, в которой были сформулированы законы масштабирования нейросетей. Исследование показало, что по мере увеличения объема вычислений, размера датасета и числа параметров тест-лосс моделей стабильно падает по степенному закону.

При этом авторы статьи сделали неожиданный вывод: в пределах нескольких порядков величин конкретное распределение вычислительного бюджета между шириной слоев и глубиной сети практически не имеет значения. Главное — общий объем параметров. Эмпирические кривые производительности моделей разной конфигурации (при условии, что глубина сети превышает 6 слоев) фактически сливаются в одну линию.

Тем не менее Бернштейн предупреждает о наличии скрытых факторов — «конфаундеров» (confounders). Например, последующая знаменитая работа по исследованию законов масштабирования Chinchilla (Hoffmann et al.) оспорила ряд выводов OpenAI. Выяснилось, что если изменить график изменения скорости обучения (learning rate schedule), выводы о пропорциях масштабирования параметров и данных качественно меняются. Эксперименты в этой области чрезвычайно сложны, поскольку мы до конца не понимаем влияние всех настроек пайплайна обучения.

В качестве финального аккорда лекции Бернштейн предлагает подумать над тем, почему мы не используем универсальный многослойный перцептрон (MLP) вообще для всех задач, ведь он теоретически может аппроксимировать что угодно? Например, почему нельзя просто вытянуть аудиосигнал или пиксели изображения в один плоский вектор и подать на стандартный MLP?

Аудитория верно замечает, что это крайне неэффективно: стандартный MLP абсолютно игнорирует внутреннюю структуру данных — двухмерную топологию изображений или последовательную природу звуковых волн. По мнению Бернштейна, даже в современную эпоху засилья архитектуры Transformer, которая кажется универсальной, инженеры по-прежнему вынуждены адаптировать входные слои под структуру данных (например, нарезать картинку на 2D-патчи). Архитектура сети обязана соответствовать геометрии решаемой задачи, чтобы процесс поиска нужного аппроксиматора в многомерном пространстве весов оставался вычислительно подъемным.