Почему нейросети обязаны быть огромными: всеобщий закон робастности Себастьена Бубека

На ежегодной конференции NeurIPS престижную награду Outstanding Paper Award получила работа, переворачивающая классические представления о проектировании нейросетей. В интервью для The TWIML AI Podcast старший главный менеджер по исследованиям в Microsoft Research Себастьен Бубек (Sebastien Bubeck) подробно рассказал о своей статье «A Universal Law of Robustness via Isoperimetry». Ученый объяснил, почему современным моделям искусственного интеллекта жизненно необходимы сотни миллиардов параметров и как фундаментальные геометрические принципы помогают понять глубинные механизмы машинного обучения.

🧠 От изучения мозга к теории машинного обучения: путь Себастьена Бубека 0:34

Путь Себастьена Бубека в сферу искусственного интеллекта начался с чистой математики. В 2005–2006 годах, будучи студентом, он увлекся поиском строгих математических моделей, способных описать работу человеческого мозга. К своему удивлению, Бубек обнаружил, что полноценного научного направления с такой формулировкой тогда практически не существовало.

Однако эти поиски привели его в смежную, активно развивавшуюся область — статистическое машинное обучение. По словам исследователя, эта дисциплина идеально объединила его любовь к теории вероятностей и математической статистике с процессами обучения, напоминающими когнитивные функции живых организмов.

📍 Ранние исследования и задача о «многоруких бандитах»

Свою докторскую диссертацию Себастьен Бубек защищал во Франции, в исследовательском центре INRIA в Лилле. Работа была посвящена классической теоретической проблеме машинного обучения — задаче о многоруком бандите (multi-armed bandit problem). Данная математическая абстракция описывает дилемму выбора между исследованием и эксплуатацией (exploration-exploitation trade-off), с которой люди сталкиваются ежедневно.

В качестве бытовой аналогии Себастьен Бубек приводит простой выбор:

Пойти в совершенно новый ресторан в надежде открыть для себя отличное место.
Отправиться в привычное, проверенное заведение, где качество еды гарантировано.

Как отмечает ученый, математическое решение этой задачи показывает, что оптимальная стратегия заключается не в резком переключении между фазами поиска и извлечения выгоды, а в их постоянном, плавном смешивании.

После получения докторской степени Бубек перешел в постдокторантуру в Барселоне, где погрузился в классическую и многомерную статистику. Именно там были заложены первые семена его будущего исследования-лауреата: он познакомился с концепцией изопериметрии — одного из фундаментальных понятий многомерной геометрии.

Позже он работал ассистентом профессора на кафедре исследований операций (Operations Research, OR) в Принстонском университете, где сфокусировался на выпуклой оптимизации и написал монографию на эту тему. В 2014 году Себастьен Бубек перешел в подразделение Microsoft Research (MSR), где продолжает свои изыскания по сей день.

📍 Переход в Microsoft Research и решение вековых математических загадок

В начале работы Бубека в MSR в 2014 году его команда была сильно ориентирована на теорию вероятностей. Он занимался вопросами статистики на случайных графах, где в качестве входных данных выступают структуры социальных сетей, таких как Facebook или Twitter.

Позже ученому удалось объединить два своих главных исследовательских увлечения — выпуклую оптимизацию и задачу о многоруких бандитах. Результатом стало решение фундаментальной проблемы выпуклой оптимизации для бандитов (bandit convex optimization), которая оставалась открытой с 2004 года. Бубек и его коллеги потратили несколько лет, чтобы преодолеть этот теоретический барьер.

Позже те же математические инструменты позволили им решить еще несколько старых задач в области онлайн-принятия решений, известных как метрические системы задач (metrical task systems) и задача о K-серверах. По признанию гостя, настоящим водоразделом для него стал триумф алгоритма AlphaGo и последовавшая за ним волна популярности нейросетей, побудившая его полностью переключиться на разработку теории глубокого обучения.

📉 Математика оптимизации: от выпуклых функций к хаосу нейросетей 6:02

Суть математической оптимизации заключается в работе с функцией, зависящей от огромного числа переменных. В контексте глубокого обучения этими переменными выступают параметры нейросети — веса связей между искусственными нейронами. Задача алгоритма оптимизации — подобрать такое подмножество параметров, при котором сеть начинает корректно решать прикладную задачу, например, безошибочно отличать изображения кошек от собак.

📍 Как устроен ландшафт параметров

Себастьен Бубек разделяет оптимизационные задачи на два класса:

Выпуклые задачи. Обладают строгой, жестко ограниченной внутренней структурой. Классический пример — линейная регрессия. Здесь алгоритмы (например, стохастический градиентный спуск) движутся по предсказуемому ландшафту, а их математические свойства хорошо изучены еще с 1980-х годов.
Невыпуклые задачи. К ним относится обучение современных нейросетей. Взаимодействие между параметрами разных нейронов здесь лишено какой-либо очевидной структуры. По мнению Бубека, тот факт, что для столь хаотичных систем мы до сих пор успешно применяем те же инструменты, что и для выпуклой оптимизации (градиентный спуск), остается большой математической загадкой.

В практических задачах, вроде интернет-рекламы, вместо выбора из фиксированного набора объявлений инженеры настраивают параметры непрерывной линейной модели. Этот подход порождает так называемую бандитскую обратную связь (bandit feedback). Исследователь подчеркивает, что это сугубо теоретическая концепция: вы не можете заранее предугадать результат изменения параметров, вам необходимо провести реальный эксперимент на пользователях, получить отклик и только затем корректировать модель.

📍 Задача о K-серверах и теория очередей

Другим важным ответвлением исследований операций, помогающим понять логику неопределенности, является задача о K-серверах (K-server problem). Чтобы объяснить её суть, Бубек использует понятную аналогию с городским такси (задача о K-такси). Представьте, что в городе работают $K$ автомобилей такси. Когда клиент запрашивает машину, диспетчерская система должна решить, какой именно автомобиль отправить. По прошествии многих дней работы можно оглянуться назад и рассчитать идеальный, абсолютно оптимальный маршрут для всех машин — это называется оценкой задним числом (hindsight).

Цель ученых — создать конкурентоспособный алгоритм, который в условиях полной неопределенности будущего будет выдавать результат, максимально близкий к этому идеалу. Сложность Себастьен Бубек демонстрирует на примере:

«Представьте, что два такси находятся на дальнем востоке города, а вызов поступает с запада. Вы отправляете туда одну машину. Следующий вызов приходит из соседнего квартала на том же западе. Что делать? Снова гонять то же самое такси туда-сюда? Или же признать, что пришло время понести издержки и пригнать вторую машину с восточного конца города?»

Ведущий подкаста Сэм в ответ поделился личной историей. Во время учебы в аспирантуре он изучал теорию очередей и долгое время увлеченно объяснял своей жене в продуктовых магазинах или банках, пытаясь математически рассчитать, в какую именно очередь выгоднее встать и через сколько минут ожидания её имеет смысл сменить на соседнюю. Бубек согласился, что это идеальный пример повседневного применения их теории: оба эти математические вызова призваны найти оптимальный способ хеджирования рисков против неопределенности будущего.

🛡️ Всеобщий закон робастности: почему нейросети должны быть огромными 18:21

Главная аномалия современного глубокого обучения заключается в феномене избыточной параметризации (over-parameterization). В математическом понимании большое число параметров означает, что модель функционирует в пространстве высокой размерности.

Классическая статистическая теория строго гласит: количество настраиваемых параметров модели никогда не должно превышать объем обучающей выборки. В противном случае модель просто зазубрит данные (эффект переобучения или overfitting), потеряв способность к генерализации — правильным ответам на новых, невиданных ранее примерах.

📍 Феномен избыточной параметризации: от AlexNet до GPT-3

Однако реальная практика разработки ИИ полностью опровергла классические догмы. Нейросети демонстрируют великолепную обобщающую способность, вопреки колоссальному избытку весов. Себастьен Бубек приводит хронологию этого феномена:

2011 год (Сеть AlexNet). В знаменитой работе Джеффа Хинтона, Ильи Суцкевера и Алекса Крижевского модель использовала 60 миллионов параметров для обработки выборки из 10 миллионов точек данных. Превышение классического лимита в 6 раз тогда казалось ученым безумным хаком, который со временем надеялись сократить.
Языковая модель GPT-3 от OpenAI. Модель оперирует уже сотнями миллиардов параметров на текстовых корпусах объемом в единицы миллиардов токенов. То есть избыточность выросла со стократным коэффициентом (100x), и конца этому процессу не видно.

📍 Гладкость функций и её связь с обучением

Статья Себастьена Бубека и его соавтора Марка Селке (Marc Selke) предлагает математическое объяснение этой аномалии. Авторы доказали фундаментальную теорему: избыточная параметризация строго необходима, если мы хотим, чтобы нейросеть не просто запоминала данные, а подгоняла их «гладко» (smoothly).

В математическом анализе такое свойство называют непрерывностью по Липшицу (Lipschitz continuity). На практике это означает, что если мы берем изображение из обучающей выборки и слегка меняем в нем несколько пикселей (сдвигаемся в пространстве признаков), предсказание модели не должно резко меняться. Математически гладкость эквивалентна дифференцируемости функции при условии, что её градиент не является слишком большим.

Всеобщий закон робастности (Universal Law of Robustness) утверждает: для обеспечения гладкой аппроксимации функции количество параметров модели обязано быть существенно больше числа точек в обучающем датасете. По мнению Бубека, данный результат удивителен тем, что исследователи потребовали от системы соблюдения абсолютного минимума — базовой гладкости, но даже это тривиальное условие мгновенно повлекло за собой математическую необходимость в гигантских моделях. При этом точная связь между математической гладкостью и качеством генерализации на неочевидных данных до сих пор остается не до конца раскрытой темой.

🔮 Будущее ИИ: философский взгляд на триллионы параметров 25:29

Доказанный Бубеком закон напрямую связан с насущной проблемой кибербезопасности ИИ — адверсариальными примерами (adversarial examples). Этот феномен заключается в том, что злоумышленник может незаметно для человеческого глаза изменить несколько пикселей на фотографии (например, собаки), в результате чего идеально обученная нейросеть с абсолютной уверенностью заявит, что на снимке изображена обезьяна.

📍 Почему оптические иллюзии — это не адверсариальные примеры

Себастьен Бубек считает некорректным популярное сравнение адверсариальных атак с оптическими иллюзиями человеческого зрения. Между ними есть фундаментальные различия:

Человеческие оптические иллюзии работают только на крайне специфических, искусственно сконструированных изображениях.
Адверсариальная уязвимость нейросетей проявляется практически на любых входных изображениях. Иными словами, современные архитектуры фатально чувствительны к шуму почти в любой точке пространства признаков.

Чувствительность к микроскопическим изменениям ввода — это и есть прямое проявление математической негладкости функции (отсутствие свойства Липшица). Закон робастности гласит: если ваша модель слишком мала, она неизбежно будет обладать адверсариальными уязвимостями. По мнению гостя, человечество до сих пор не создало абсолютно защищенную нейросеть лишь потому, что мы тренируем слишком маленькие модели.

📍 Рецепт устойчивости: расчет для ImageNet

Опираясь на свою формулу, Бубек провел точные вычисления для классического датасета ImageNet (выборка порядка 10 миллионов изображений). По его расчетам, чтобы нейросеть стала по-настоящему устойчивой к адверсариальным атакам на этом наборе данных, ей требуется от 1 до 10 миллиардов параметров. На момент проведения интервью лучшие мировые модели достигали размера лишь около 500 миллионов параметров.

«Мы масштабировали модели в 10 раз по сравнению с тем, что было десятилетие назад. Но закон показывает, что нам нужно совершить еще один десятикратный рывок (10x) в размерах, и только тогда мы, возможно, добьемся адверсариальной робастности», — подчеркивает Себастьен Бубек.

В то время как мировое сообщество инженеров пытается изобретать локальные уловки и трюки для защиты весов, авторы статьи указывают на существование прямолинейного «силового» метода (brute force approach) — простого увеличения масштаба. Правда, ученый честно предупреждает: их работа является так называемой теоремой о невозможности (impossibility result). Она строго доказывает, что маленькая модель не может быть устойчивой, но не дает 100-процентной гарантии, что любая огромная модель автоматически станет безопасной. Хотя сам Бубек лично склонен верить, что масштаб решит эту проблему.

Дополнительным преимуществом сверхбольших моделей, согласно экспериментальным наблюдениям последнего десятилетия, является то, что избыточная параметризация делает ландшафт оптимизации более сглаженным, облегчая алгоритмам поиск глобального минимума.

📍 Суть изопериметрического доказательства и допущения теоремы

Высокая оценка работы на NeurIPS во многом связана со строгостью и изяществом самого математического доказательства, использующего аппарат изопериметрии. В классической геометрии изопериметрическая задача (известная еще древним грекам) ищет фигуру, обладающую минимальной площадью поверхности при заданном объеме. Физическим воплощением этого закона является мыльный пузырь, неизменно принимающий форму сферы.

Когда этот геометрический принцип переносится на язык функций высокой размерности со множеством независимых переменных, происходит удивительный феномен. Нам кажется, что функция со случайными параметрами должна вести себя хаотично, но изопериметрия доказывает: в пространствах сверхвысоких размерностей любая функция от множества независимых переменных ведет себя практически как константа. Если случайным образом сэмплировать эти переменные, результат функции можно предсказать с точностью до микроскопической погрешности, которая стремительно сокращается с ростом размерности.

Бубек и Селке использовали этот парадокс «константности» от обратного. Они доказали, что если у модели слишком мало параметров, её математические «доверительные интервалы» (error bars) оказываются чересчур широкими, что физически не позволяет ей обеспечить гладкое и робастное прилегание к точкам данных. Одно из главных достоинств статьи — лаконичность: суть вывода можно полностью объяснить студентам магистратуры менее чем за час.

Тем не менее, как и любая математическая abstraction, теорема имеет допущение, не совсем идеально стыкующееся с реальностью. Ключевым требованием для работы закона является наличие так называемого «шума в разметке» (label noise). Модель гарантированно подчиняется закону робастности, если в процессе обучения с некоторой малой вероятностью (например, 1% или даже 0.1%) метки классов умышленно искажаются (например, собака случайно маркируется как кошка).

В реальной жизни инженеры стараются использовать идеально чистые датасеты. Себастьен Бубек признает это ограничение, но считает, что будущие математические модификации смогут обойти это условие, хотя само доказательство неизбежно станет намного сложнее.

В самом сжатом виде 30-секундное резюме часового доказательства выглядит так:

Абстрагироваться от конкретной архитектуры нейросетей — закон универсален для любого функционального пространства.
Рассчитать вероятность того, что отдельно взятая функция сможет гладко описать зашумленные данные.
Используя аппарат изопериметрии, доказать, что для единичной функции эта вероятность ничтожно мала, а затем с помощью классического статистического инструментария обобщить этот запрет на всё пространство функций.

🔮 Будущее ИИ: философский взгляд на триллионы параметров 37:45

Главный философский и практический вывод, который Себастьен Бубек предлагает сделать индустрии, заключается в том, что человечеству не удастся уйти от создания колоссальных моделей. Нам придется оперировать сетями беспрецедентного масштаба, однако текущие методы их обучения абсолютно не подходят для таких объемов.

📍 Проблема тотального обновления весов

Исследователь предлагает наглядный мысленный эксперимент:

«Представьте себе нейросеть, размер которой исчисляется триллионами параметров. Мы показываем этой сети всего одно новое изображение, на котором нарисована кошка. И что же, алгоритм должен обновить значения всех этих триллионов весов на основании одного единственного кадра? С точки зрения математической логики это абсолютно неразумно».

📍 Необходимость разреженного обучения (Sparse Updates)

По мнению эксперта, будущее за концепцией разреженного обновления (sparse updates). При показе конкретной картинки система должна активировать и корректировать лишь строго определенный пул, например, одну тысячу параметров из триллиона, оставляя остальные нетронутыми.

На сегодняшний день в индустрии практически нет алгоритмов обучения, реализующих подобный подход на фундаментальном математическом уровне. Существующие попытки внедрить нечто подобное диктуются исключительно инженерной необходимостью: инженеры крупных ИТ-корпораций вынуждены распределять вычисления по огромным фермам из графических (GPU) или тензорных (TPU) процессоров просто потому, что гигантские матрицы физически не помещаются в память одного чипа.

Себастьен Бубек призывает научное сообщество взглянуть на эту проблему не как на проблему нехватки железа, а как на глубокий математический вызов. Именно туда, на стык геометрии сверхвысоких размерностей и практической оптимизации, и указывает открытый им всеобщий закон робастности.