# Профессор MIT Филип Изола о парадоксах современной теории обобщения

Источник: https://www.youtube.com/watch?v=EiO8BBa-xdc
Канал: MIT OpenCourseWare
Опубликовано: 11.02.2026

---

В лекции «Generalization Theory» из курса Массачусетского технологического института (MIT) профессор Филип Изола подробно разбирает фундаментальный вопрос современного искусственного интеллекта: почему глубокие нейросети способны успешно работать с новыми данными, несмотря на колоссальное количество параметров. Автор сопоставляет классические статистические теории обучения с реальным поведением глубоких моделей, выявляя глубокие противоречия и парадоксы вроде эффекта двойного спуска. В центре внимания лектора оказываются так называемые индуктивные смещения — скрытые механизмы архитектуры и оптимизации, которые заставляют нейросети предпочитать простые и обобщающие решения банальному зазубриванию.

## 🧩 Введение в теорию обобщения: основные понятия
[[JUMP:0:13]]

В рамках учебного курса до этого момента подробно рассматривался исключительно вопрос аппроксимации — то есть способность модели подстраиваться под уже имеющиеся обучающие данные. Качество этой подгонки традиционно измеряется с помощью эмпирического риска, который представляет собой усредненную ошибку предсказания модели на обучающей выборке в условиях обучения с учителем. Математически эмпирический риск выражается формулой:

$$R_{emp}(f) = \frac{1}{n} \sum_{i=1}^n L(f(x_i), y_i)$$

где $x_i$ — входные данные, $y_i$ — правильные ответы, $f$ — функция модели, а $L$ — функция потерь.

Однако истинной целью машинного обучения является не зазубривание обучающих примеров, а минимизация тестовой ошибки, также называемой популяционным риском. Популяционный риск отражает математическое ожидание ошибки на абсолютно новых образцах, извлеченных из генерального распределения реального мира $p$:

$$R(f) = \mathbb{E}_{(x,y) \sim p}[L(f(x), y)]$$

На практике исследователи часто используют эмпирический тестовый риск, рассчитываемый по фиксированному тестовому набору данных, например, из 10 000 изображений. 

По словам Филипа Изолы, весь процесс машинного обучения можно разделить на три ключевых этапа:

1.  **Аппроксимация** — поиск наилучшего вектора параметров $\theta^*$, который теоретически способен обеспечить минимальный эмпирический риск.
2.  **Оптимизация** — алгоритмический поиск этого вектора параметров в пространстве гипотез (например, с помощью метода обратного распространения ошибки).
3.  **Обобщение** — сокращение разрыва между ошибкой на обучении и ошибкой на тесте.

Именно способность к обобщению определяет ценность ИИ-системы при ее развертывании в реальном мире. Профессор подчеркивает, что данная тема является передним краем науки: классические учебники не дают полных ответов, а свойства обобщения глубоких сетей остаются одним из главных открытых вопросов в сфере ИИ.

## 🐱 Феномен обобщения: от «осьминога Пауля» до ChatGPT
[[JUMP:6:30]]

Чтобы наглядно объяснить суть обобщения, лектор приводит пример заведомо дефектного датасета. Если попытаться обучить классификатор «кошка против собаки», используя фотографии исключительно кошек, система предсказуемо провалится. Без репрезентативности, разнообразия и покрытия всех возможных условий в обучающей выборке качественное обобщение невозможно. Понимание распределения данных — неотъемлемая часть понимания природы обобщения.

В качестве примера утрированно плохой модели Филип Изола описывает алгоритм «картотечного шкафа» (filing cabinet). Эта простая программа на Python имитирует словарь: при получении новой точки данных $x$ она сохраняет ее вместе с ответом $y$, а при повторном запросе извлекает точное значение по хешу. 

Ошибка аппроксимации такой модели равна нулю, так как она идеально воспроизводит заученное. Однако ее ошибка обобщения будет катастрофической: на любом новом объекте, отсутствующем в базе, «картотечный шкаф» выдаст базовый ноль. Исключением может стать лишь гипотетический мир, где истинная целевая функция сама по себе равна нулю почти везде.

> «Один из главных вопросов глубокого обучения: являются ли нейросети аналогами таких картотечных шкафов, которые просто зазубривают данные, или они создают нечто большее?» — формулирует проблему Филип Изола.

Еще одной иллюстрацией ложного обобщения служит знаменитый осьминог Пауль, который безошибочно угадал исходы шести футбольных матчей подряд. Он продемонстрировал идеальную точность на «обучающей выборке», но это была лишь случайная функция, которой повезло. Ни один разумный человек не станет полагаться на прогнозы Пауля в следующем сезоне, поскольку у него нет реальной модели футбола.

При сопоставлении «картотечного шкафа» и трехслойного перцептрона (ReLU MLP) на графике скалярных данных обнаруживается фундаментальная разница. Обе модели достигают нулевой ошибки на обучающих точках, но нейросеть выстраивает плавную непрерывную линию интерполяции между ними, в то время как шкаф формирует резкие пики (дельта-функции), падающие до нуля во всех остальных местах. Физический мир в большинстве случаев непрерывен и плавен, поэтому гладкая интерполяция нейросети обеспечивает адекватное обобщение.

Чтобы доказать, что современные большие языковые модели (LLM) вроде ChatGPT не являются гигантскими картотечными шкафами, профессор провел математический эксперимент. В текстовом тесте использовался словарь из $m=30$ названий фруктов, из которых формировалась случайная последовательность длиной $n=10$. Количество возможных уникальных комбинаций рассчитывается как $m^n$, что дает колоссальное число вариантов (порядка $10^{30}$ или $30^{10}$). 

Модели предлагался случайный список фруктов и ставилась задача посчитать, сколько среди них цитрусовых. ChatGPT безошибочно справился во всех пяти попытках. Чтобы продемонстрировать аналогичный результат методом простого зазубривания, «картотечному шкафу» потребовалось бы хранить в памяти не менее 100 триллионов вариантов, в то время как весь объем обучения современных LLM составляет лишь десятки триллионов токенов. 

Схожий эксперимент был поставлен с мультимодальной моделью text-to-image при генерации изображений наборов фруктов. Несмотря на отдельные ошибки (модель периодически путала кокос или страстоцвет), в одном из восьми случаев она выдала абсолютно точное взаимное расположение редких объектов. Для достижения такой точности за счет памяти потребовался бы архив из 12 триллионов изображений, чем OpenAI явно не располагает. Это эмпирически доказывает наличие у глубоких сетей механизмов полноценного обобщения.

## 🎨 Выход за пределы распределения: генерация изображений и ConvNets
[[JUMP:19:41]]

Филип Изола поделился личным опытом участия в исследовательском проекте по созданию генеративной нейросети, преобразующей контурные наброски (скетчи) в реалистичные фотографии кошек. Поскольку ручная отрисовка эскизов людьми стоила дорого, авторы использовали автоматический детектор границ HED в качестве прокси-данных при обучении. Классическая статистическая теория утверждает, что модель способна работать только с новыми контурами из того же самого распределения.

Однако вопреки старым догмам, нейросеть продемонстрировала способность к генерации при подаче на вход реальных скетчей, нарисованных людьми от руки. Эти рисунки имели совершенно иную геометрическую и текстурную природу, являясь объектами вне обучающего распределения (out-of-distribution). 

Пользователи развлекались, тестируя систему граничными сценариями. Например, если пририсовать кошке третий глаз или усеять ими всю голову, сеть не зависала, а корректно генерировала текстуру глаза в указанных местах, несмотря на то, что никогда не видела трехглазых кошек в процессе обучения.

По мнению Филиппа Изолы, этот феномен объясняется специфическими индуктивными смещениями сверточных архитектур (ConvNets). Сверточная сеть обладает следующими свойствами:

* **Локальная фрагментация** — алгоритм разбивает изображение на независимые мелкие патчи.
* **Идентичная обработка** — каждый патч анализируется параллельно по одним и тем же математическим правилам.
* **Композиционность** — итоговый образ формируется за счет жестко заложенного в архитектуру правила сборки (сшивания) патчей, которое не нужно изучать по датасету.

Поскольку на уровне отдельных патчей округлые линии всегда похожи на элементы глаз, сеть успешно справляется с их отрисовкой, а общее их количество на холсте ограничивается лишь фантазией художника. 

Аналогичным Lever-механизмом обладают графовые нейросети (Graph Nets), которые изначально создаются перестановочно-инвариантными или эквивариантными. Им не требуется видеть все возможные перцепции графа на этапе обучения — математическая структура самой архитектуры гарантирует корректную обработку новых топологий. Таким образом, грамотно спроектированная архитектура служит главным инструментом для преодоления ограничений классической статистической теории.

## 📉 Кризис классической теории: парадокс двойного спуска
[[JUMP:24:22]]

Фундаментом классической теории обобщения является философский принцип Бритвы Оккама: при прочих равных условиях среди гипотез, одинаково хорошо объясняющих данные, следует предпочесть самую простую. Профессор акцентирует внимание на важной детали, о которой часто забывают: модель обязана качественно описывать выборку. Абсурдно использовать примитивную линейную функцию там, где она физически не способна аппроксимировать нелинейный процесс.

Строгое математическое описание этого принципа дает алгоритмическая теория индукции Соломонова. Согласно ей, кратчайшая компьютерная программа, способная сгенерировать имеющийся датасет, обладает максимальной предсказательной силой и обеспечивает наилучшее обобщение. Наиболее сжатое представление данных эквивалентно лучшей модели. Однако тотальный перебор всех возможных кодов на Python для поиска кратчайшего алгоритма вычислительно невозможен (intractable). Глубокое обучение обходит эту проблему, ограничивая поиск пространством весов внутри фиксированной архитектуры.

В рамках классического машинного обучения (ML 101) переобучение описывается через дилемму смещения и дисперсии (bias-variance trade-off). Полная тестовая ошибка раскладывается на ошибку обучения (смещение) и разность между тестом и обучением (дисперсия). Традиционный график утверждает, что по мере роста числа параметров емкость модели растет, смещение падает, но после определенного порога дисперсия резко устремляется вверх — модель начинает подстраиваться под случайный шум и теряет способность к обобщению.

Лектор демонстрирует несостоятельность этого подхода на примере полиномиальной регрессии с использованием полиномов Лежандра:

* При степени полинома $d=1$ (линейная модель) наблюдается недообучение — прямая линия не способна повторить изгибы процесса.
* При оптимальной степени $d=3$ модель идеально восстанавливает исходную гладкую функцию.
* При избыточной степени $d=20$ кривая начинает совершать дикие колебания, стремясь пройти через каждую зашумленную точку выборки (классический оверфиттинг).

Парадокс заключается в том, что если радикально увеличить сложность и выставить степень $d=1000$, график функции не взрывается, уходя в бесконечность, а внезапно возвращается к первоначальной гладкой форме, аккуратно следуя за истинным распределением. 

Данный феномен получил название **двойного спуска** (double descent). В условиях экстремальной избыточности параметров модель фактически разделяется на два математических слоя: базовый плавный тренд, отвечающий за генерализацию, и локальные изолированные микро-пики (spikes), которые точечно «впитывают» аномалии и шум, не портя общую картину интерполяции.

Граница, на которой модель впервые оказывается способна без ошибок зазубрить всю обучающую выборку, называется порогом интерполяции (interpolation threshold). До достижения этого порога сеть вынуждена строить сложные, изломанные конфигурации, чтобы связать точки. 

После прохождения порога открывается бесчисленное множество эквивалентных решений с нулевой ошибкой обучения. В силу внутренних свойств оптимизаторов (индуктивных смещений) система начинает выбирать из этого множества самые гладкие траектории. 

Современная индустрия глубокого обучения функционирует глубоко внутри этого избыточного режима: эмпирическое правило гласит, что модели нужно делать как можно больше и обучать как можно дольше, поскольку за пиком переобучения скрывается область устойчивого снижения тестовой ошибки.

## ❌ Почему теория Вапника — Червоненкиса бессильна перед нейросетями
[[JUMP:46:38]]

Пытаясь нащупать адекватную меру сложности, исследователи сталкиваются с тем, что простой подсчет количества синаптических весов или нейронов не работает. Профессор приводит мысленный эксперимент с функциями $f$, $g$ и их комбинацией $h$:

$$h = 10^{-100} \cdot f + g$$

Формально для вычисления $h$ требуются абсолютно все параметры огромной сети $f$, но фактически ее вклад ничтожен, и поведение системы полностью определяется компактной функцией $g$. Таким образом, физический объем параметров не отражает реальную емкость. Намного более важной метрикой является геометрическая длина (норма) вектора весов.

Лектор подробно разбирает классическую теорию Вапника — Червоненкиса (VC-теорию). Она базируется на утверждении, что если объем обучающей выборки $n$ существенно превосходит количество уникальных функций, которые способна реализовать модель, то близость тестовой ошибки к обучающей гарантируется теоретически. Каждая новая точка данных выступает жестким математическим ограничением, отсекающим ложноположительные, «случайно удачливые» функции из пространства поиска.

Для непрерывных пространств, свойственных нейросетям, емкость измеряется через дихотомии (dichotomies) — возможные варианты бинарного разделения точек данных на классы $+1$ и $-1$. Максимальное число объектов, которое модель способна разделить всеми мыслимыми способами ($2^n$ комбинаций), называется VC-размерностью ($d$). Математическая верхняя граница популяционного риска строго привязана к соотношению вида $\sqrt{d/n}$.

Однако в условиях глубокого обучения VC-теория полностью капитулирует перед эмпирическими фактами. Нейросети обладают настолько колоссальной емкостью, что способны абсолютно идеально подстроиться под любой бессмысленный шум. 

В знаковой научной работе 2017 года «Understanding Deep Learning Requires Rethinking Generalization» исследователи провели эксперимент по случайному перемешиванию меток классов (shuffled labels) на классических датасетах MNIST и CIFAR. Нейросети без проблем достигли 100% точности на обучении, успешно реализовав абсолютно хаотичные дихотомии. 

Поскольку сеть способна реализовать любую из $2^n$ дихотомий, ее VC-размерность $d$ становится экспоненциальной, а теоретическая формула оценки ошибки выдает значения, кратно превышающие 100% (так называемые содержательно пустые или vacuous bounds). Теория Вапника — Червоненкиса не способна объяснить, почему одна и та же сеть, одинаково легко зазубривающая и случайный шум, и реальные закономерности, при работе с реальными метками внезапно демонстрирует великолепное обобщение на тесте.

## 🏗️ Тайные механизмы нейросетей: индуктивные смещения и архитектурные симметрии
[[JUMP:59:10]]

Чтобы разгадать загадку обобщения, необходимо исследовать так называемое «пространство версий» (version space) — подмножество всех конфигураций весов и смещений модели, при которых достигается абсолютно нулевая ошибка на обучающем наборе данных. Пространство версий неоднородно: в нем соседствуют как «плохие» функции типа картотечного шкафа, так и «хорошие», непрерывные решения. Существуют скрытые силы, которые направляют траекторию оптимизации именно к качественным решениям.

Филип Изола систематизирует эти силы по трем основным направлениям.

### 1. Смещение к простоте в отображении параметров
Математическое отображение пространства параметров на пространство функций является отображением «многие к одному». Множество различных векторов весов кодируют одну и ту же итоговую функцию (например, за счет взаимно компенсирующих смещений на соседних слоях). 

Эмпирические замеры показали, что если случайно сэмплировать веса в перцептроне, получаемые функции с колоссальной вероятностью окажутся чрезвычайно простыми и легко сжимаемыми с точки зрения алгоритмов Лемпеля — Зива. Геометрический объем параметров, кодирующих хаотичные, несжимаемые функции, ничтожно мал. Случайная начальная инициализация изначально помещает модель в область простых решений, и градиентный спуск лишь сдвигает их к границам пространства версий, сохраняя эту базовую простоту.

### 2. Смещение к низкому рангу представлений
Филип Изола представил результаты собственного исследования, посвященного анализу матриц сходства (ядер) репрезентаций на глубоких слоях сетей. Эффективное обучение группирует схожие объекты в жесткие блоки, что математически выражается в резком падении ранга матрицы эмбеддингов. 

Примечательно, что если полностью удалить из глубокой сети все нелинейные функции активации, превратив ее в стек линейных слоев, эффект падения ранга и формирования блоков полностью сохраняется. С точки зрения классической емкости это необъяснимо, ведь любая глубокая линейная сеть математически эквивалентна одному-единственному плоскому слою. 

> «Это чистая математика случайных матриц: произведение нескольких независимых матриц Гаусса по определению порождает матрицу низкого ранга», — объясняет Филип Изола. 

Глубина архитектуры сама по себе выступает мощнейшим геометрическим фильтром, отсекающим полноранговый хаос и смещающим модель к простым, кластеризованным репрезентациям.

### 3. Неявная динамика оптимизатора и архитектурные барьеры
Сам процесс градиентного спуска накладывает жесткие ограничения на финальный результат:

* **Weight Decay (затухание весов)** — в ходе оптимизации неиспользуемые синаптические связи непрерывно уменьшаются в амплитуде, стремясь к нулю, что снижает общую норму параметров.
* **Инициализация вблизи нуля** — стартовая точка обучения гарантирует, что сеть начнет поиск с решений с минимальной нормой весов.
* **Динамика SGD** — стохастический градиентный спуск с фиксированным шагом физически не способен удержаться внутри узких, крутых и острых провалов функции потерь. Алгоритм неизбежно перескакивает через них и стабилизируется исключительно в широких, пологих и плоских минимумах (flat minima). Математически доказано, что плоские минимумы обладают кратно лучшим потенциалом обобщения по сравнению с острыми.

Наконец, важнейшим стабилизатором выступают архитектурные симметрии: инвариантность (достигаемая, например, через max pooling) и эквивариантность (сдвиговая в свертках или перестановочная в графах). Интеграция фундаментальных законов физики и геометрии напрямую в код (как уравнения перспективы и переноса света в архитектурах NeRF) позволяет нейросетям безошибочно обобщать данные на новые ракурсы, опираясь на нерушимые математические ограничения, а не только на статистику датасета.

В финале лекции профессор делится личным воспоминанием о дискуссии с сооснователем OpenAI Ильей Суцкевером. На вопрос Изолы о природе обобщения Суцкевер высказал глубокую интуитивную мысль, заявив, что глубокие сети успешны потому, что они находят компактные логические схемы (circuits), идеально описывающие данные. 

Когда Филип возразил, что современные нейросети по определению огромны и требуют сложнейших регуляризаторов, Суцкевер ответил емкой фразой: «Нейросети конечны. Этого вполне достаточно. Любая конечная структура покажется крошечной и компактной, если у вас есть по-настоящему колоссальный объем данных».