Как метод Ньютона преодолевает анизотропию и решает задачи оптимизации

В лекции Стэнфордского университета профессор Стивен Бойд подробно разбирает ограничения градиентного спуска и представляет метод Ньютона как мощную альтернативу для оптимизации гладких выпуклых функций. Анализируя геометрическую природу алгоритмов, лектор сопоставляет классический подход к оценке сходимости с советской теорией самосогласованности Юрия Нестерова и Аркадия Немировского. Особое внимание уделяется практической реализации вычислений, разрушающей стереотипы о чрезмерной сложности работы с матрицами большой размерности.

📐 Геометрия спуска: почему стандартный градиент пасует перед анизотропией 0:04

В начале лекции Стивен Бойд обращается к фундаментальной визуализации, которая дает исчерпывающее представление о механике оптимизации. Рассматривая простейшую задачу минимизации квадратичной функции с очевидным минимумом в точке нуля, лектор демонстрирует траекторию классического градиентного спуска. На графиках линий уровня отчетливо прослеживается ключевая уязвимость метода: если линии уровня плохо обусловлены, то есть являются анизотропными, эффективность алгоритма резко падает.

Понятие изотропии означает одинаковые геометрические свойства по всем направлениям, тогда как анизотропия указывает на существенные различия в кривизне функции вдоль разных осей. Если множества подуровней функции не приближаются по форме к евклидовым сферам, градиентный спуск начинает совершать неэффективные зигзагообразные движения. Противоположная ситуация наблюдается, когда множества подуровней представляют собой идеальные шары: в этом случае градиентный спуск находит оптимум ровно за один шаг. Таким образом, скорость сходимости метода напрямую определяется тем, насколько сильно геометрия функции отклоняется от сферической.

🔄 Определение направления: роль метрики и нормы в наискорейшем спуске 2:12

Анизотропия заставляет переосмыслить интуитивное представление о выборе оптимального пути. Профессор Стивен Бойд подчеркивает, что выбор направления наискорейшего спуска кажется очевидным лишь на первый взгляд. Нам кажется разумным двигаться туда, где целевая функция убывает быстрее всего при малом смещении, и классический анализ указывает на антиградиент. Однако это утверждение не является абсолютной истиной, поскольку траектория движения критически зависит от используемой метрики и выбранной нормы.

Математически при малом смещении на вектор $v$ уменьшение функции аппроксимируется как скалярное произведение градиента на этот вектор. Попытка просто минимизировать это выражение бессмысленна, так как значение неограниченно снизу. Чтобы ограничить шаг, необходимо ввести норму вектора смещения. Направление, минимизирующее скалярное произведение при заданном ограничении на норму, и называется направлением наискорейшего спуска.

Влияние выбора нормы на результат Стивен Бойд иллюстрирует следующими примерами:

Евклидова норма (L2). Направление наискорейшего спуска в точности совпадает с классическим отрицательным градиентом.
Квадратичная норма. Задается с помощью положительно определенной матрицы, а ее единичным шаром является эллипсоид. Такое масштабирование искажает геометрию, смещая направление спуска, но никогда не поворачивает его более чем на 90 градусов относительно градиента.
Норма L1. Приводит к минимизации скалярного произведения за счет поиска координаты градиента с наибольшим абсолютным значением. Шаг выполняется строго вдоль соответствующей оси. Такой подход, известный с середины XX века, называется покоординатным спуском.

Неправильно выбранная метрика, по словам лектора, способна катастрофически замедлить сходимость. Для достижения высокой скорости вычислений необходимо подбирать такую норму или метрику, которая выровнена со множествами подуровней функции и повторяет их форму.

🚀 Метод Ньютона: адаптивная смена метрики и квадратичная аппроксимация 10:13

Развитие идеи геометрического выравнивания приводит к концепции шага Ньютона, где в качестве текущей метрики выступает Гессиан (матрица вторых производных) функции в текущей точке. Стивен Бойд предлагает рассмотреть поведение гладких выпукных функций вблизи их минимума. Любая подобная функция локально ведет себя как квадратичная, а форма ее эллипсоидальных линий уровня определяется Гессианом в точке оптимума.

Эта концепция универсальна и находит отражение во многих дисциплинах. Например, в математической статистике при поиске оценки максимального правдоподобия через минимизацию отрицательного логарифма функции правдоподобия линии уровня вблизи максимума аппроксимируются эллипсоидами. Форма этих эллипсоидов задается Гессианом, который в данном контексте представляет собой не что иное, как информационную матрицу Фишера.

В идеальном сценарии следовало бы использовать квадратичную норму, основанную на Гессиане в точке оптимума, что обеспечило бы невероятную скорость сходимости. Однако для этого нужно сначала решить задачу, что делает подход непрактичным. В качестве прагматичного решения метод Ньютона использует Гессиан в текущей точке как наилучшее доступное приближение. Поскольку метрика пересчитывается на каждом шаге алгоритма, метод Ньютона классифицируется как метод переменной метрики (variable metric method).

Стивен Бойд приводит три эквивалентные интерпретации шага Ньютона:

Минимизация локальной квадратичной аппроксимации. Мы заменяем функцию разложением Тейлора второго порядка в текущей точке и находим её точный минимум. Локально это приближение чрезвычайно точное.
Линеаризация условий оптимальности. Задача поиска точки, где градиент равен нулю, решается путем замены нелинейного уравнения его первым дифференциальным приближением из математического анализа.
Адаптивный спуск в метрике Гессиана. Шаг выбирается как направление наискорейшего спуска в норме, задаваемой текущей матрицей вторых производных.

📉 Ньютоновский декремент и аффинная инвариантность алгоритма 21:08

Важным элементом алгоритма является ньютоновский декремент, который выражает предсказанное уменьшение значения целевой функции на основе её локальной квадратичной модели. По сути, он измеряет величину градиента в норме, определяемой текущим Гессианом. Главное математическое достоинство этой величины — её аффинная инвариантность, то есть полная независимость от линейных преобразований координат.

Если применить к задаче линейное преобразование (координатный сдвиг или масштабирование), траектория градиентного спуска кардинально изменится, что может сильно замедлить или, в редких случаях, ускорить его работу. Метод Ньютона же генерирует абсолютно идентичные итерации вне зависимости от масштабирования переменных. При линейном изменении координат Гессиан и градиент трансформируются согласованно, полностью компенсируя деформацию пространства.

В практическом программировании это означает, что разработчику не нужно тратить ресурсы на ручное масштабирование признаков и «округление» задачи (rounding the problem) для обеспечения изотропности. Алгоритм автоматически адаптирует метрику на каждом шаге, используя линейный поиск с возвратом (backtracking line search) для подбора длины шага. Для градиентного спуска плохая масштабируемость фатальна, тогда как для метода Ньютона она не имеет никакого значения.

🏛️ Парадоксы классического анализа сходимости и критика теоретических оценок 26:09

Истоки классического теоретического анализа метода Ньютона уходят в советскую математическую школу 1930-х годов. Для строго квадратичных функций метод Ньютона сходится ровно за одну итерацию, поскольку квадратичная аппроксимация идеально совпадает с самой функцией, превращая оптимизацию в задачу линейной алгебры. В общем случае скорость сходимости алгоритма определяется тем, насколько быстро меняется сам Гессиан при движении, что описывается третьей производной функции.

Математически третья производная функции многих переменных представляет собой сложную трилинейную форму (тензор третьего порядка), с которой комфортно работать разве что физикам или инженерам-механикам, привыкшим к индексам Эйнштейна. Чтобы избежать вычислительного кошмара, это ограничение традиционно формулируют через константу Липшица $L$ для Гессиана. Небольшое значение $L$ гарантирует, что матрица вторых производных меняется плавно, обеспечивая превосходную работу метода Ньютона.

Классический анализ разделяет процесс оптимизации на две фазы:

Фаза затухания (damped Newton phase). Градиент велик, и алгоритм гарантирует фиксированное, стабильное уменьшение целевой функции на каждом шаге с использованием демпфирования шага.
Фаза квадратичной сходимости. Как только градиент становится достаточно мал, точность начинает удваиваться с каждым шагом. Ошибка уменьшается лавинообразно: с 0.1 до 0.01, затем до $10^{-4}$, $10^{-8}$ и мгновенно достигает предела машинной точности $10^{-16}$.

Стивен Бойд подвергает жесткой критике традиционный западный подход к оценке сложности оптимизации, называя теоретические верхние оценки «абсурдными» и «бесполезными» в реальной инженерной практике. По мнению лектора, классические доказательства строятся на абсолютно нереалистичных гипотезах. Формулы содержат параметры $m$ (сильная выпуклость), $L$ (константа Липшица) и оптимальное значение $p^*$, которые никогда не известны инженеру до начала расчетов.

В результате математические доказательства выдают нелепые верхние границы порядка 10 или 150 миллионов итераций для задач, которые на практике гарантированно решаются за 12–20 шагов. Теоретики оправдывают это тем, что их анализ носит исключительно концептуальный характер, однако Бойд иронизирует над этой оторванностью от реальности.

🛠️ Модификации и вычисления в реальном мире: от квазиньютоновских методов до разреженных матриц 43:05

В ситуациях, когда вычисление Гессиана затруднено или невозможно, применяются альтернативные подходы, изучаемые в рамках отдельных специализированных курсов. Профессор упоминает квазиньютоновские методы (quasi-Newton methods), которые строят приближение Гессиана, используя исключительно историю изменений градиента. Еще одна эффективная модификация — вычисление и факторизация Гессиана не на каждом шаге, а один раз в 10–20 итераций. Это снижает вычислительную сложность промежуточных шагов с кубической $O(n^3)$ до квадратичной $O(n^2)$, существенно экономя ресурсы. Современные библиотеки также активно задействуют автоматическое дифференцирование (Autograd/autodiff), вызывая методы обратного распространения ошибки.

Демонстрируя практические графики сходимости, Стивен Бойд показывает, что для пространств малой (2D), средней (100D) и большой размерности (10 000 переменных) метод Ньютона демонстрирует одинаково взрывную терминальную скорость сходимости. В качестве примера приводится задача логарифмического барьера в пространстве $R^{10000}$, где оптимум находится всего за 18 обращений к процедуре вычисления координат.

Многие специалисты в области машинного обучения ошибочно полагают, что метод Ньютона неприменим к большим задачам из-за невозможности хранить и оборачивать матрицы размером $100000 \times 100000$. Однако Бойд опровергает это, указывая на критическую роль внутренней структуры Гессиана. Если целевая функция сепарабельна (представима в виде суммы функций от отдельных переменных), то первая производная дает раздельные компоненты, а Гессиан оказывается чисто диагональным, что позволяет выполнять расчеты мгновенно. Наличие разреженных матриц (sparse AI) и ленточных структур полностью нивелирует кубическую сложность. Современные графические процессоры (GPU) легко справляются с гигабайтными объемами матричных данных, превращая такие вычисления в микросекундные операции.

🇷🇺 Теория самосогласованности Нестерова и Немировского 59:26

Преодолеть эстетическое несоответствие между изящным аффинно-инвариантным алгоритмом Ньютона и неуклюжим, зависящим от выбора координат липшицевым анализом сходимости удалось в конце 1980-х — начале 1990-х годов. Прорыв совершили московские математики Юрий Нестеров и Аркадий Немировский, опубликовавшие фундаментальный труд объемом более 600 страниц. Аркадий Немировский в личной беседе со Стивеном Бойдом отмечал, что в советской школе студентов намеренно долго не учили матричной записи, считая её «костылем, ведущим к слабому и поверхностному мышлению», и заменяли её строгой работой с индексами.

Разработанная ими концепция самосогласованности (self-concordance) элегантно решает проблему инвариантности. Функция одной переменной называется самосогласованной, если абсолютное значение её третьей производной не превосходит удвоенную вторую производную в степени 3/2:

$$|f'''(x)| \le 2 f''(x)^{3/2}$$

При любых линейных заменах переменных коэффициенты масштабирования в левой и правой частях неравенства сокращаются автоматически, делая условие абсолютно аффинно-инвариантным. Свойством самосогласованности обладает огромное число практически значимых выпуклых функций, включая логарифмические барьеры.

Анализ Нестерова и Немировского позволил вывести строгие, аффинно-независимые верхние оценки сложности. Использование аффинно-инвариантного ньютоновского декремента вместо стандартного градиента привело к математической формуле, согласно которой максимальное число шагов строго ограничено величиной, пропорциональной $375(f(x_0) - p^*) + 6$. Стивен Бойд признается, что в своих выступлениях перед теоретиками ради шутки заменял второе слагаемое (которое является макросом для двойного логарифма $\log\log(1/\epsilon)$) константой 4, чем вызывал удивление и споры в академической среде.

Экспериментальные точечные диаграммы показывают, что реальное число итераций метода Ньютона на множестве случайных выборок логарифмических барьеров лежит существенно ниже теоретической прямой. Если заменить консервативный коэффициент 375 на реалистичный 0.5, формула дает практически идеальное предсказание времени работы алгоритма. Некоторые точки на графиках демонстрируют аномально быструю сходимость (например, за 8 шагов при ожидаемых 12), что Стивен Бойд объясняет обычным «везением», когда вектор направления случайно указывает точно в центр минимума.

💻 Секреты эффективной реализации: структура имеет значение 1:12:14

В финальной части лекции Стивен Бойд подводит итог, связывая воедино теорию оптимизации и численную линейную алгебру. Минимизация сложной гладкой выпуклой функции сводится методом Ньютона к последовательному решению серии простых квадратичных задач. На каждом шаге алгоритма вычисляется и решается ньютоновская система линейных уравнений вида $H \Delta x = -g$, базовым инструментом для чего выступает разложение Холецкого (Cholesky factorization).

Если Гессиан не имеет структуры, стоимость одного шага составляет $O(n^3)$ операций, однако в реальных инженерных приложениях структура присутствует практически всегда. В задачах оптимального управления и цифровой обработки сигналов переменные взаимодействуют лишь локально во времени или пространстве. Из-за этого Гессиан приобретает ленточную структуру (banded matrix), где ненулевые элементы сгруппированы около главной диагонали.

Для ленточной матрицы с фиксированной шириной полосы (например, равной 20) система уравнений решается за линейное время $O(n)$. Это позволяет методу Ньютона мгновенно находить решения даже в миллиономерных пространствах, опровергая скепсис некоторых специалистов по машинному обучению. В самом конце лекции Стивен Бойд дает студентам задание ознакомиться с материалом по методу Ньютона с ограничениями в виде равенств, предваряя тему следующего занятия.