Проклятие размерности: почему нейросети всегда занимаются экстраполяцией

«В многомерных пространствах интерполяции не существует — всё в машинном обучении является экстраполяцией», — заявляет Ян Лекун, бросая вызов классической интуиции. Пока мы пытаемся представить данные как кривые в 3D, нейросети дробят реальность на миллиарды полиэдров, извлекая смысл из абсолютной пустоты гиперкубов. Это глубокое исследование того, как жесткие архитектурные априори и «лотерейные билеты» инициализации превращают аналоговый хаос сигналов в дискретную логику интеллекта.

🌐 Ловушка интуиции: почему мы ошибаемся в оценке многомерных пространств

Геометрическое ослепление: предел человеческого воображения 1:46

Одной из центральных проблем в понимании современного машинного обучения является фундаментальный когнитивный барьер: человеческий мозг не приспособлен для работы с высокой размерностью. Мы привыкли мыслить категориями двух или трех измерений, где понятия «близости», «соседства» и «границы» интуитивно понятны. Однако, как отмечает Ян Лекун (Yann LeCun), когда мы переходим к анализу данных в пространствах с тысячами измерений, наша интуиция не просто подводит нас — она становится математически ошибочной .

Возьмем классический пример с изображениями. Цветная картинка размером 256x256 пикселей — это точка в пространстве с размерностью около 200 000 . Даже если в обучающей выборке у нас есть миллион таких изображений, они покрывают лишь крошечную, исчезающе малую долю всех возможных комбинаций значений пикселей. В таком пространстве практически невозможно найти «соседей» в том смысле, в котором мы понимаем это на плоскости. Понятие выпуклой оболочки (convex hull), которое часто используется для определения интерполяции в низких размерностях, здесь фактически перестает работать .

Математический мираж интерполяции 1:16

В академических кругах долгое время доминировало мнение, что глубокое обучение — это просто продвинутый метод «подгонки кривой» (curve fitting), который работает исключительно за счет интерполяции между известными точками данных. Однако Ян Лекун (Yann LeCun) оспаривает этот взгляд. Он утверждает, что в многомерных пространствах интерполяции в привычном смысле не существует . Почти всё, что делает нейронная сеть, технически является экстраполяцией.

Это утверждение меняет наше представление о том, как обучаются системы ИИ:

Машинное обучение в высокой размерности — это всегда выход за пределы обучающей выборки .
Новое изображение крайне редко является линейной комбинацией предыдущих; оно почти всегда находится в «пустом» пространстве, которое модель должна научиться интерпретировать .
Наша вера в то, что нейросети «сглаживают» данные или находят непрерывные многообразия (manifolds), может быть лишь удобной иллюзией, упрощающей реальную сложность процесса .

Тим Скарф подчеркивает, что наше определение интерполяции корректно только для очень малого количества измерений . В реальности же статистическое обобщение в пространствах высокой размерности — это математический вызов, который мы пытаемся преодолеть с помощью архитектурных ухищрений и регуляризации .

Визуализация через «нарезку» пространства 12:00

Чтобы как-то компенсировать ограниченность нашей интуиции, исследователи предлагают новые метафоры. Одной из наиболее ярких является сравнение работы нейросети с игрой Fruit Ninja . Вместо того чтобы представлять нейросеть как гибкую поверхность, которую мы натягиваем на точки данных, полезнее думать о ней как о системе, которая «рубит» и «шинкует» входное пространство на огромное количество полиэдров или ячеек.

В этой модели каждый слой нейронной сети вносит свой набор гиперплоскостей, разделяющих пространство. В результате образуется сложная структура, напоминающая пчелиные соты, где каждая ячейка соответствует определенной линейной трансформации .

Вместо единого гладкого пространства мы имеем дело с «космическим пазлом», части которого сшиты вместе .
То, что на графиках проекций (вроде t-SNE или UMAP) кажется плавными переходами, на самом деле является результатом работы тысяч дискретных «разрезов» .
Обманчивая «гладкость» современных моделей возникает лишь за счет колоссального количества этих микро-регионов, которые меняются очень незначительно от соседа к соседу .

Такой взгляд на геометрию нейросетей разрушает магический ореол вокруг глубокого обучения. Оно начинает казаться более родственным классическим методам, таким как деревья решений или поиск ближайших соседей, но реализованным на немыслимом ранее уровне сложности . Понимание того, что нейросеть — это не «черный ящик» с магической интуицией, а гигантская машина по квантованию и разделению пространства, помогает избежать ловушек при проектировании новых архитектур .

В конечном счете, как отмечает Ян Лекун (Yann LeCun), успех обучения зависит не от способности системы «угадывать» паттерны в пустоте, а от того, насколько эффективно она учится игнорировать ненужные измерения в окружающем пространстве, фокусируясь на тех немногих связях, которые действительно имеют значение .

📐 Геометрия данных и гипотеза многообразия 47:15

Фундаментальная проблема современного машинного обучения заключается в том, что практически все решаемые нами задачи лежат в пространствах экстремально высокой размерности — зачастую исчисляемых тысячами или миллионами измерений. В таких условиях классические подходы к анализу данных становятся неэффективными, так как объем пространства растет экспоненциально по мере добавления новых измерений. Чтобы справиться с этой проблемой, исследователи опираются на гипотезу многообразия (manifold hypothesis).

Согласно этой концепции, реальные данные, с которыми мы сталкиваемся в жизни, не заполняют высокоразмерное пространство равномерно. Напротив, они «живут» на низкоразмерных гладких структурах — многообразиях, которые лишь вложены в это огромное пространство. Ян Лекун (Yann LeCun) и его коллеги отмечают, что использование геометрического глубокого обучения позволяет взглянуть на машинное обучение через призму принципов симметрии и инвариантности. Понимание этой геометрической структуры данных — ключ к тому, чтобы попытаться «обмануть» проклятие размерности.

Проклятие размерности: иллюзия плотности 48:22

Проклятие размерности вкратце означает, что по мере роста количества измерений доступные нам данные становятся критически разреженными. Ранее в разговоре они касались того, как проклятие размерности и геометрия гиперсфер влияют на возможность экстраполяции.

Интуиция, пришедшая из нашего трехмерного физического мира, часто нас подводит. Мы склонны думать, что по мере сбора большего количества обучающих примеров мы заполним пространство (выпуклую оболочку данных) и модель станет точной. Однако в высоких размерностях вероятность того, что новая тестовая точка попадет внутрь этой выпуклой оболочки, стремится к нулю. Например, для оценки плотности стандартного нормального распределения всего в 10 измерениях с приемлемой точностью потребовалось бы более 800 000 образцов данных. Если мы предполагаем, что истинная функция имеет вариации более чем в 16 измерениях, то имеющегося в мире объема данных просто недостаточно для ее точного приближения.

Геометрическое глубокое обучение как mindset 46:48

Ян Лекун подчеркивает, что геометрическое глубокое обучение — это не просто набор архитектур, а способ мышления. Физические процессы, создающие данные, опираются на симметрию, и учет этой структуры позволяет строить более надежные модели. Однако возникает вопрос: действительно ли нейронные сети «выучивают» эти гладкие многообразия?

Существует скепсис относительно того, что глубокие сети способны на это в полной мере. В реальности их работа часто выглядит не как «плавное разглаживание» пространства, а как дискретное разбиение его на множество линейных областей. Нейронная сеть последовательно вставляет плоскости, которые «нарезают» пространство на полиэдры, создавая иллюзию непрерывного морфинга там, где на самом деле происходят переключения между крошечными соседними ячейками. Это заставляет по-новому взглянуть на то, как нейронные сети находят закономерности, скрывающиеся за кажущейся гладкостью данных.

🌌 Геометрия пустоты: почему нейросети всегда экстраполируют 50:10

Когда мы пытаемся представить работу нейронных сетей, наше воображение часто рисует простую двумерную картинку: набор точек на плоскости, через которые алгоритм проводит плавную кривую. В этой парадигме обучение кажется «интерполяцией» — заполнением пробелов между знакомыми примерами. Однако Ян Лекун (Yann LeCun) утверждает, что эта интуиция в корне неверна. В многомерных пространствах, где оперируют современные модели, геометрия работает иначе, превращая обучение в постоянный прыжок в неизвестность — в экстраполяцию .

Проклятие размерности и исчезающий объем гиперсфер 50:22

Фундаментальная проблема глубокого обучения кроется в так называемом «проклятии размерности». Чтобы понять его суть, Ян Лекун предлагает рассмотреть геометрический парадокс вписанных фигур . Представьте себе гиперкуб со стороной 1, в который вписан гипершар того же диаметра. В двумерном пространстве (круг в квадрате) фигура занимает около 79% площади. В трехмерном (шар в кубе) объем сферы составляет уже лишь 52% от объема куба .

С ростом размерности происходит нечто контринтуитивное: объем вписанного гипершара стремится к нулю с колоссальной скоростью — фактически, факториально быстро . В пространствах с сотнями или тысячами измерений (как в слоях нейросетей) почти весь объем гиперкуба сосредоточен в его «углах», а центр остается практически пустым.

Для машинного обучения это означает следующее:

Пространство расширяется экспоненциально, и данные становятся невероятно разреженными .
Расстояния между точками увеличиваются, и понятие «близости» теряет свой привычный смысл.
Статистическое обобщение становится невозможным без сильных априорных допущений об архитектуре модели.

Ян Лекун выделяет три аспекта этого «проклятия» :

Статистический: чем больше измерений, тем больше существует функций, которые могут идеально пройти через обучающие точки, но будут бесполезны на новых данных.
Аппроксимационный: количество нейронов, необходимых для покрытия пространства, может расти экспоненциально.
Вычислительный: поиск оптимальных параметров в таком ландшафте превращается в задачу запредельной сложности .

Математический миф об интерполяции 58:13

В недавней научной работе, написанной в соавторстве с Рэндаллом Бализео и Жеромом Пенти, Ян Лекун доказывает тезис: «Обучение в высоких размерностях всегда сводится к экстраполяции» . Это утверждение бросает вызов критикам (таким как Гэри Маркус), которые пренебрежительно называют нейросети «простыми интерполяторами», неспособными к рассуждению.

Проблема заключается в определении. Если использовать классическое математическое определение — принадлежность точки к выпуклой оболочке (convex hull) обучающего набора, — то в высокой размерности новые данные практически никогда не попадают внутрь этой оболочки . Объем этой зоны ничтожно мал по сравнению с общим объемом пространства. Любое новое изображение, даже если оно очень похоже на обучающее, формально находится «снаружи».

Ян Лекун отмечает, что наша интуиция смещена в сторону малых размерностей. «Любая новая точка, как бы вы ни выбирали её в высоком измерении, почти наверняка окажется за пределами выпуклой оболочки существующих данных» . Следовательно, если нейросети работают (а они работают), они делают это за счет экстраполяции, а не простого соединения точек.

Существуют альтернативные способы описания «области покрытия», например, поиск минимального эллипсоида, содержащего данные. В такой модели новые точки с большей вероятностью окажутся внутри . Однако общий вывод остается прежним: традиционное понимание интерполяции как «нахождения между точками» в глубоком обучении не применимо.

Архитектурные фильтры и природа обобщения 1:09:58

Отвечая на вопрос о том, как нейросетям удается справляться с пустотой многомерного пространства, Ян Лекун подчеркивает роль конкретных архитектур. Разные модели по-разному «режут» это пространство .

Например, классические полносвязные сети с функциями активации ReLU или Sigmoid разделяют пространство гиперплоскостями. В то же время сети на основе радиально-базисных функций (RBF), популярные в 90-х, или современные трансформеры работают иначе. Трансформеры, по мнению Лекуна, действуют как «облагороженный метод ближайшего соседа» . Механизм внимания сопоставляет ключи и запросы, фактически выполняя ассоциативный поиск в памяти, что функционально ближе к интерполяции с использованием ядер (kernels) .

Ян Лекун предостерегает от смешивания понятий. Хотя он не согласен с тем, что глубокое обучение — это лишь интерполяция, он также не считает, что текущие модели обладают полноценным человеческим рассуждением. Ранее в разговоре уже упоминалось различие между обучением с учителем и глубоким обучением как методом, и Лекун вновь подчеркивает: ограниченность современных систем — это проблема обучения с учителем (supervised learning), которое заставляет модели полагаться на поверхностные корреляции в данных, а не фундаментальный недостаток самой идеи нейронных сетей .

Путь к истинному интеллекту лежит не в отказе от «подгонки кривых», а в переходе к более общим методам обучения, которые позволят моделям строить каузальные (причинно-следственные) модели мира, способные к осознанной экстраполяции далеко за пределы знакомых паттернов .

🧠 За рамками простого прохода данных: самообучение, оптимизация энергии и корни обратного распространения 1:15:23

Ранее в разговоре собеседники вскользь касались геометрического глубокого обучения, гипотезы многообразия и разницы между интерполяцией и экстраполяцией в многомерных пространствах. Однако, чтобы по-настоящему понять долгосрочный вектор развития ИИ, необходимо заглянуть глубже привычных парадигм и исследовать внутреннюю механику обучения и оптимизации систем.

Ограничения обучения с учителем против истинной силы глубоких архитектур 1:20:16

Ян Лекун (Yann LeCun) обращает внимание на фундаментальное заблуждение, укоренившееся в ИТ-сообществе: подавляющая часть современной критики нейросетей бьет мимо цели, поскольку направлена на ограничения классического обучения с учителем (supervised learning), а не на саму концепцию глубоких архитектур. У критиков сформировалось слишком узкое представление о возможностях моделей — их часто видят лишь как фиксированный наборов слоев, выполняющих взвешенное суммирование и пропускающих результат через нелинейную функцию.

В истории машинного обучения долгое время доминировал скепсис относительно целесообразности обучения без разметки. Лекун вспоминает свои давние споры с Джеффом Хинтоном, а также позицию создателя SVM Владимира Вапника. Вапник придерживался строгого математического правила: зачем решать более сложную промежуточную задачу (моделирование распределения данных), если можно сразу оптимизировать систему под конкретную целевую функцию?

Однако этот подход упускает из виду реальность: человечество и природа обладают колоссальными объемами неразмеченной информации, тогда как размеченные датасеты всегда жестко ограничены. Истинная сила глубоких архитектур раскрывается тогда, когда мы отказываемся от костылей в виде готовых меток класса и переходим к построению фундаментальных предсказательных моделей среды.

Самообучение (SSL) и архитектуры совместных вложений (Joint Embedding) 1:21:58

Революция самообучения (Self-Supervised Learning, SSL) уже доказала свою тектоническую значимость в обработке естественного языка через такие архитектуры, как BERT или маскированные автокодировщики. Однако в области компьютерного зрения чистый генеративный подход столкнулся с непреодолимым барьером высокой размерности. Ян Лекун признается, что за последние полтора-два года его собственное видение этой проблемы кардинально изменилось.

Попытки заставить систему предсказывать последующие кадры видео или пропущенные пиксели натыкаются на фундаментальную мультимодальность реальности: у одного и того же действия в реальном мире может быть миллион равновероятных продолжений. Проектирование латентных генеративных моделей в таких условиях чрезвычайно усложняется. Альтернативой стали архитектуры совместных вложений (Joint Embedding Architectures), где система не пытается генерировать каждый пиксель изображения, а обучается сопоставлять абстрактные высокоуровневые представления (эмбеддинги) двух фрагментов данных.

Исторически эти идеи восходят к сиамским нейросетям, которые Лекун развивал еще в 1992–1993 годах для верификации подписей. Главным барьером прошлого была необходимость контрастивного обучения (contrastive learning) — использования как похожих, так и заведомо отличающихся пар примеров. В пространствах высокой размерности вариантов «неправильного» взаимного расположения объектов бесконечно много. Ситуация изменилась благодаря недавним неконтрастивным алгоритмам:

BYOL от исследователей из DeepMind;
Barlow Twins, идея которого родилась во время работы Стефана Дени (Stephane Deny) в лаборатории FAIR;
VicReg — усовершенствованная версия, максимизирующая меру взаимной информации между выходами сетей без риска математического коллапса представлений.

В рамках этой же парадигмы Лекун упоминает классические методы регуляризации вроде Tangent Prop (разработанный им совместно с Патрисом Симаром и Джоном Денкером в Bell Labs) и алгоритм MixUp. Эти подходы фактически заполняют пустоты между реальными сэмплами виртуальными точками, явно требуя от сети нулевой производной в направлении касательной плоскости многообразия данных.

Рассуждение как процесс минимизации энергии 1:30:51

Когда заходит речь о способности искусственного интеллекта к сложному планированию и логическому выводу, Ян Лекун предлагает радикально переосмыслить сам термин «рассуждение». Вместо того чтобы представлять его как прямой последовательный проход данных через слои (forward pass), интеллектуальное рассуждение следует рассматривать как процесс минимизации энергии по латентным переменным.

Такой взгляд содержательно объединяет глубокое обучение с классическими задачами оптимизации. Итеративный поиск оптимального состояния латентной переменной, минимизирующей функцию энергии (например, ошибку предсказания или несоответствие контексту), уже четверть века успешно применяется в декодерах систем распознавания речи. Еще в 1991 году коллега Лекуна по имени Леу (Léon Bottou) опубликовал работу о сквозном дифференцировании алгоритмов динамического программирования для поиска кратчайшего пути в графе. Поиск такого пути — это чистая минимизация энергии, сквозь которую можно успешно распространять градиенты.

Любой тип логического вывода, даже в классическом символическом ИИ (например, задача выполнения булевых формул SAT), по сути является оптимизационной задачей. Биологические существа постоянно выполняют такие непрерывные вычисления:

«Меня интересует, как обычный кот планирует прыжок на стол, чтобы не упасть, или как он открывает дверь. Как только мы разберемся с этим, мы сможем подумать о более сложных вещах вроде вычисления цифр числа Пи».

Оптимальное управление: где на самом деле родился Backpropagation 1:31:55

Важнейшей частью дискуссии становится демистификация истории алгоритма обратного распространения ошибки (Backpropagation). Ян Лекун подчеркивает, что этот метод не был создан компьютерными учеными в вакууме — во многом его предвосхитили специалисты по теории оптимального управления и методам Понтрягина еще в 1960-х годах.

В классическом планировании траекторий (будь то полет ракеты к космической станции или движение роботизированного манипулятора) используется дифференцируемая динамическая модель, где состояние системы в момент времени $t+1$ задается как функция от состояния в момент $t$ и предпринятого действия. Чтобы найти идеальную последовательность действий, минимизирующую расход ресурсов, модель «разворачивают» во времени. Поиск минимума целевой функции осуществляется с помощью градиентного спуска.

Этот подход известен как алгоритм Келли (Kelley's algorithm) в теории оптимального управления, сформулированный еще в 1962 году. По своей математической сути алгоритм Келли — это чистый Backpropagation Through Time (обратное распространение ошибки во времени). Теоретики управления изобрели этот метод на два десятилетия раньше, чем компьютерное сообщество осознало его применимость для обучения многослойных сетей в середине 1980-х.

На возражение ведущего о том, что стандартный Backpropagation не способен работать с динамически меняющимся, переменным числом шагов или слоев, Лекун отвечает жестко: именно так и функционируют рекуррентные нейросети (RNN). Развернутая во времени RNN представляет собой в точности ту же итеративную модель управления, способную обрабатывать неопределенное количество шагов оптимизации, задолго до того, как система достигнет критерия останова. Непрерывная оптимизация полностью покрывает те задачи вычислений, которые традиционно ошибочно приписывают исключительно дискретно-символьному подходу.

🧠 От осознанного планирования к автоматизму: концепция Систем 1 и 2 1:40:40

Дифференцируемый мир: математический фундамент компиляции опыта 1:44:08

Обсуждая природу интеллектуальных агентов, Ян Лекун (Yann LeCun) указывает на фундаментальное различие между непрерывными дифференцируемыми задачами и дискретным поиском. Человеческий разум способен эффективно комбинировать оба подхода, однако в чисто дискретном поиске (например, в шахматах или го) люди биологически неэффективны и тотально проигрывают компьютерам. Чтобы преодолеть ограничения экспоненциального взрыва альтернатив, передовые системы машинного обучения задействуют гибридные подходы, ярким примером которых выступает архитектура Actor-Critic в обучении с подкреплением.

Суть этого метода восходит к классическим работам Саттона и Барто. Критик (Critic) представляет собой обучаемую нейросеть, которая строит дифференцируемую аппроксимацию функции ценности (value function) на основе текущего состояния среды. Наличие такой дифференцируемой модели позволяет эффективно прогонять градиенты через всю систему. Моделирование внутренней репрезентации мира дает агенту возможность предсказывать будущие состояния и сопутствующие издержки.

В результате внутри ИИ-агента формируется симулятор, позволяющий использовать градиентный спуск для двух ключевых задач:

Оптимизация последовательности действий для минимизации конкретных издержек в режиме реального времени.
Непосредственное обучение политики (policy), которая учится мгновенно выдавать правильное действие для любого состояния среды без долгого итеративного поиска.

Именно этот процесс перехода от ресурсоемкого вычисления траекторий к фиксированной политике, по мнению Яна Лекуна, идеально объясняет когнитивные механизмы человеческого обучения.

Теория Канемана в ИИ: как Система 2 превращается в Систему 1 1:47:00

Математическая компиляция опыта в нейросетях напрямую отражает когнитивный переход от медленного, осознанного мышления к автоматическому, описанный лауреатом Нобелевской премии Даниэлем Канеманом как дуализм Системы 2 и Системы 1. Ян Лекун иллюстрирует этот паттерн на классическом примере обучения вождению автомобиля.

Когда условный 18-летний подросток впервые садится за руль, он задействует всю свою внутреннюю модель мира, накопленную за предыдущие 18 лет жизни. Эта модель позволяет ему ментально предсказать, что если повернуть руль вправо на краю обрыва, машина сорвется вниз и наступит смерть. Человеку не нужно проверять это на практике — симуляция в голове уберегает от фатальных ошибок. Однако на начальном этапе этот процесс требует максимальной концентрации, deliberate-рассуждений и медленной езды — так работает Система 2. Новичок вынужден просчитывать каждый шаг вручную, тратя колоссальные когнитивные ресурсы.

Ситуация кардинально меняется по мере накопления практики. Примерно через 20–50 часов реального вождения навык опускается на уровень подсознания. То, что изначально требовало активного планирования и минимизации ментальной энергии, превращается в автоматическое, мгновенное действие — Систему 1. В терминах машинного обучения это означает, что агент «скомпилировал» долгий итеративный поиск оптимального управления в быстрый и эффективный сквозной проход (feedforward) нейронной сети.

Интуиция как результат оптимизации: опыт гроссмейстеров и автогонщиков 1:48:22

Проявление Системы 1 можно наблюдать не только в повседневных задачах, но и в сферах экстремального мастерства. Ян Лекун делится личным анекдотом о том, как однажды участвовал в сеансе одновременной игры в шахматы против гроссмейстера, игравшего сразу на 50 досках. Пока Лекун, будучи слабым игроком, подолгу обдумывал каждый свой ход, гроссмейстер подходил к его доске и делал ответный ход ровно за одну секунду.

Для мастера игра на таком уровне превратилась в чистое распознавание паттернов. Его Система 2 даже не включалась, поскольку уровень соперника не создавал критического напряжения для системы. Гроссмейстер действовал инстинктивно, предсказывая лучшие ходы на уровне сформировавшейся за годы практики Системы 1, и легко завершил партию победой в 10 ходов.

Аналогичный феномен Лекун наблюдал и на своем недавнем опыте вождения спортивного кара на гоночном треке. Первые круги требовали жесткого контроля, следования инструкциям и осознанного анализа геометрии трассы. Однако в течение всего одного дня deliberate-инструкции постепенно интегрировались в подсознание, обеспечивая резкий качественный скачок в скорости и точности управления. Интуиция, таким образом, оказывается не мистическим даром, а результатом глубокой компиляции ранее осознанных вычислений.

В финальной части этого сегмента интервью к дискуссии подключается Рэндалл (Randall), постдок Лаборатории фундаментальных исследований ИИ (FAIR) в Meta. В своей дальнейшей беседе участники детально разбирают математическую строгость понятий интерполяции и экстраполяции в многомерных пространствах, геометрический анализ нейросетей через теорию сплайнов, а также влияние проклятия размерности на генеративные модели. Все эти фундаментальные концепции, определяющие границы применимости глубокого обучения, подробно рассматриваются в смежных главах данной статьи.

🧩 Архитектурные априори и геометрия сплайнов: почему глубокое обучение — это не просто магия данных 2:05:15

Человеческий фактор против сырых данных: роль архитектурных априори 2:05:15

Распространенное мнение о том, что глубокое обучение безупречно работает «из коробки» для любых задач, является серьезным преувеличением. На самом деле триумф современных моделей обусловлен колоссальными инвестициями и огромным количеством человеко-часов. Если взять стандартный полносвязный перцептрон (plain MLP) и попытаться обучить его на датасете ImageNet, то никакого прорыва не произойдет. Успех достигается за счет того, что инженеры вручную проводят кросс-валидацию и закладывают в сети жесткие регуляризаторы, позволяющие вычленять только значимую информацию для обеспечения хорошей обобщающей способности. Как только мы выходим за рамки стандартного распознавания изображений и сталкиваемся с более капризными данными — например, в аудиоклассификации или медицинской диагностике, где тяжело переносить опыт между разными пациентами, — системы глубокого обучения начинают стремительно ломаться.

Вся индустрия искусственного интеллекта часто обесценивает человеческий вклад, восхищаясь тем, как ловко машины обучаются сами. Однако базовые принципы работы закладывают люди. Ярчайший пример — сверточные нейросети (CNN), которые изобрел Ян Лекун (Yann LeCun). Ни одна нейросеть не пришла к идее свертки самостоятельно: именно Ян Лекун (Yann LeCun) обучил машины этому математическому преобразованию, ставшему фундаментальным архитектурным априори. Инженеры направляют алгоритм, задавая структуру, и только после этого машина понимает, в какую сторону ей двигаться.

Ранее в разговоре спикеры также касались тем многомерной интерполяции и гипотезы многообразия, отмечая, что стабилизация латентного пространства часто требует жестких методов регуляризации вроде Dropout.

Теория сплайнов: мост между классической аппроксимацией и нейросетями 2:23:52

Для объяснения внутренней механики глубоких моделей ученые все чаще обращаются к строгой математике. В 2018 году Рэндалл Балестриеро совершил прорыв, опубликовав работу, посвященную теории сплайнов в контексте глубокого обучения. Эта теория возвела строгий мост между нейросетями и классической теорией аппроксимации через призму сплайн-функций и операторов. На самом деле архитектуры, использующие функции активации ReLU, операции взятия абсолютного значения или Max Pooling, представляют собой не что иное, как непрерывные кусочно-линейные отображения.

Заслуга Балестриеро и его коллег заключается в математической генерализации этого принципа: они детально описали, как именно сеть адаптивно разбивает входное пространство на полиэдры (многогранники) и как формируется геометрия этих регионов. Кусочно-линейная природа делает сложнейшие модели аналитически прозрачными. На практике такой подход открывает колоссальные возможности:

Появляется строгий инструмент для анализа устойчивости нейросетей к состязательным атакам (adversarial perturbations).
Становится возможным точный вывод EM-алгоритмов (Expectation-Maximization) для генеративных архитектур благодаря упрощенной аналитической форме сети.

Этот теоретический каркас примиряет две некогда враждовавшие академические школы: старую традицию обработки сигналов, полагавшуюся на сопоставление шаблонов (template matching), и современную волну глубокого обучения. Глубокая сеть — это изощренный метод построения адаптивных сплайнов, самостоятельно формирующих свои разбиения в пространствах экстремально высокой размерности. До появления этих работ классическая теория сплайнов заходила в тупик за пределами двух- или трехмерных пространств.

Иерархическое разбиение пространства и нейронные деревья решений 2:27:39

Сплайновое представление дает исследователям наглядный геометрический инструмент для понимания того, как нейросети организуют обработку сигналов в иерархическом режиме. Изучая эволюцию разбиения пространства от слоя к слою, Балестриеро обнаружил, что каждый последующий слой продолжает фрактально дробить и измельчать текущую конфигурацию подобластей. В сценарии бинарной классификации разделяющая поверхность внутри каждого конкретного полиэдра остается строго линейной. Задача наращивания глубины сети (добавления новых слоев) заключается в том, чтобы точечно рафинировать, измельчать те регионы пространства, которые все еще содержат в себе смесь объектов из разных классов.

Такой геометрический паттерн утилизации пространства до боли напоминает логику построения классических деревьев решений. Осознание этой близости подтолкнуло Балестриеро к созданию новой концепции, получившей название «нейронные деревья решений» (neural decision trees). Это синергетическое слияние двух подходов призвано объединить вычислительную мощность нейросетей и прозрачную интерпретируемость древовидных структур.

Главная слабость традиционного дерева решений заключается в его изолированности: то, как алгоритм разбивает одну конкретную область пространства с помощью плоскости, никак не помогает и не передает информацию о том, как нужно разбивать другую область в противоположном конце пространства. Нейросети элегантно обходят это ограничение. Если глубокая сеть находит эффективный способ разделения одной зоны, этот паттерн через общие веса автоматически координирует и улучшает разбиение всех соседних областей.

📊 Анализ данных: почему MNIST сложнее ImageNet 2:36:27

Вопрос о том, как нейронные сети работают с различными типами данных, часто упирается в интуитивное понимание их сложности. В ходе обсуждения Ян Лекун (Yann LeCun) обратил внимание на любопытный парадокс: при увеличении размерности пространства данных набор MNIST гораздо быстрее переходит в режим экстраполяции, чем ImageNet.

Природа данных и плотность информации 2:37:36

На первый взгляд, MNIST кажется проще, так как это всего лишь рукописные цифры. Однако в контексте машинного обучения «простота» может быть обманчива. Разница в поведении кривых обучения объясняется тем, как информация распределена в пространстве пикселей.

MNIST: При анализе даже небольшого фрагмента, например, патча 16x16, мы охватываем значительную часть всей полезной информации изображения. В таких данных много текстурных особенностей цифр, что делает их «плотными» с точки зрения информационного содержания.
ImageNet: Тот же патч 16x16 на фотографии высокого разрешения из набора ImageNet практически не несет информации о классе объекта. Он выглядит как однородный фрагмент текстуры, занимающий ничтожно малую долю общего изображения.

Именно из-за того, что MNIST уже сильно разрежен и сжат, нейросеть быстрее истощает возможности интерполяции при фиксированной размерности. Если бы мы взяли ImageNet и искусственно привели его к аналогичному разрешению или, наоборот, масштабировали MNIST до 224x224, различия в скорости перехода к экстраполяции значительно сократились бы или даже изменились.

Роль принципиальных компонент (PCA) 2:39:10

Чтобы обосновать эти выводы, исследователи используют анализ методом главных компонент (PCA) для оценки того, насколько эффективно данные лежат на низкоразмерных аффинных многообразиях.

Если для реконструкции патчей достаточно малого количества главных компонент, значит, данные хорошо описываются линейным многообразием.
Наличие такой структуры напрямую облегчает попадание модели в «зону интерполяции» — область, где имеющихся обучающих примеров достаточно для надежного предсказания.

В ходе беседы Ян Лекун (Yann LeCun) подчеркнул, что интуиция об «избыточной сложности» MNIST относительно ImageNet часто ошибочна, так как она игнорирует пропорцию изображения, попадающую в поле зрения модели. То, что кажется нам простым объектом, для математического аппарата нейронной сети требует оценки объема кодируемой информации относительно доступной размерности. Ранее в разговоре они касались различий между непрерывными и дискретными вычислительными режимами и того, как гибридные системы могут эффективно сочетать эти подходы.

🤖 Дискретная логика в аналоговом мире и «лотерейный билет» обучения 2:55:33

Одной из самых интригующих тем обсуждения стал разрыв между качественным дискретным рассуждением (символьной логикой, топологическим мышлением) и непрерывной дифференцируемой природой нейронных сетей. Существует точка зрения, что нейросети — это лишь сложные аппроксиматоры, подобные рядам Тейлора или анализу Фурье, которые «сбоят», как только выходят за пределы тренировочного диапазона . Однако участники дискуссии подчеркивают: человеческий мозг, будучи по своей сути аналоговой и непрерывной системой, каким-то образом умудряется порождать жесткую цифровую логику . Сигналы нейронов — это электрические заряды и концентрации нейромедиаторов, но на выходе мы получаем способность к математике и программированию.

Дискретные вычисления на базе непрерывных сетей 2:55:33

Вопрос о том, может ли непрерывная структура синтезировать дискретные решения, остается открытым. Ян Лекун (Yann LeCun) оптимистичен в этом вопросе, в то время как другие исследователи видят здесь качественную пропасть . Принципиальный момент заключается в эффективности: является ли нейросетевая реализация логики оптимальной? Мы можем научить ребенка алгоритму умножения столбиком, и это будет работать медленно и требовать огромного сосредоточения (то, что ранее в разговоре называлось «Системой 2»). В то же время копеечный калькулятор справляется с этой задачей мгновенно .

Человеческий мозг строит дискретное мышление «поверх» непрерывных функций, и это дается нам с трудом. Мы запоминаем таблицы умножения как своего рода «хеш-таблицы» в памяти, а затем применяем к ним алгоритмические шаги . В контексте ИИ это ставит вопрос о гибридных системах.

AlphaGo и AlphaZero — примеры того, как нейронная сеть направляет дискретный поиск, но сам алгоритм поиска там жестко закодирован .
Идеалом для таких ученых, как Ян Лекун (Yann LeCun), является полностью дифференцируемая система, где логика не прописана вручную, а выучена «от края до края» (end-to-end) .

Ранее в разговоре упоминалось рассуждение как процесс минимизации энергии. В этой главе участники добавляют, что такая минимизация во время инференса (inference time) фактически является способом внедрить алгоритмическое мышление «через черный ход» . Это позволяет системе не просто выдавать мгновенный ответ через прямой проход (feed-forward), а выполнять итеративный алгоритм для поиска оптимального решения, что гораздо ближе к настоящему рассуждению .

Лотерейная гипотеза и важность инициализации весов 3:15:13

Вторая важная тема — почему современные нейросети должны быть такими огромными. Обсуждение латентных пространств и избыточности параметров приводит к «лотерейной гипотезе». Согласно ей, обучение большой нейросети — это не столько создание структуры «с нуля», сколько поиск удачно инициализированной подсети внутри гигантского массива случайных весов .

Основные аргументы в пользу этой гипотезы:

Инициализация как «шведский стол»: Случайная инициализация предоставляет алгоритму SGD (стохастического градиентного спуска) огромный выбор комбинаций весов. Обучение — это процесс выбора тех «билетов», которые уже почти выиграли, и их последующая тонкая настройка .
Невозможность обучения с нуля: На текущем этапе развития технологий мы практически не можем обучить нейросеть, инициализированную нулями. Нам необходим хаос случайных чисел, чтобы из него выкристаллизовалась структура .
Избыточность кодирования: В огромных латентных пространствах информация часто дублируется. Градиентный спуск воздействует на каждое измерение независимо, пытаясь выжать из него максимум точности, что ведет к избыточному, но устойчивому представлению данных .

Этот процесс можно сравнить с эволюцией. Эволюция — это не индивидуальное обучение, а массовый распределенный комбинаторный поиск методом проб и ошибок, охватывающий миллионы видов и миллиарды лет . В этом смысле современное глубокое обучение — это своего рода ускоренная «эволюция» внутри одного GPU, где мы случайным образом создаем огромное количество связей и «отсекаем» лишнее, пока не останется работающая подсеть . Таким образом, огромный размер современных моделей — это не прихоть, а статистическая необходимость для того, чтобы среди миллиардов случайных весов гарантированно нашелся тот самый «счастливый билет», способный реализовать сложную функцию.