Стивен Бойд: «Оптимизация — это всегда лишь суррогат того, что вы на самом деле хотите»

В заключительной лекции курса EE364A в Stanford University профессор Стивен Бойд (Stephen Boyd) подводит итоги изучения выпуклой оптимизации, уделяя особое внимание практическим эвристикам для работы с разреженностью (sparsity) и матричными рангами. Он объясняет, почему выпуклая оптимизация часто служит лишь эффективным «суррогатом» для решения реальных задач, и дает напутствие студентам, как применять полученные инструменты в «уличном бою» с невыпуклыми проблемами.

🚀 Эвристика L1-нормы и метод «полировки» 0:05

Одной из центральных тем лекции является борьба с ограничениями кардинальности (количества ненулевых элементов). Прямое решение таких задач крайне сложно (NP-трудно), поэтому Стивен Бойд предлагает использовать проверенную эвристику: заменять кардинальность на L1-норму или добавлять L1-регуляризацию в целевую функцию .

Для улучшения результатов лектор описывает метод, называемый «полировкой» (polishing):

Этап 1: Использование L1-эвристики для определения паттерна разреженности (выявление индексов ненулевых переменных) .
Этап 2: Повторное решение задачи только для выбранных переменных, но уже без регуляризации.

По словам Стивена Бойда, отношение к «полировке» в профессиональной среде неоднозначно. В статистике многие считают её вредной, так как регуляризация должна не только отбирать признаки, но и «сжимать» коэффициенты для предотвращения переобучения. Однако в инженерных дисциплинах, например, при проектировании фермовых конструкций, этот метод незаменим: если вы решили использовать только 236 балок из миллиона возможных, вам нужно оптимизировать параметры именно для этих конкретных элементов .

🧠 Почему L1-норма «выдавливает» нули? 8:06

Лектор приводит интуитивное объяснение эффективности L1-нормы по сравнению с квадратичным штрафом (L2). В L1-норме производная (штрафное «давление») остается постоянной (+1 или -1) вплоть до самого нуля. В то время как при использовании квадрата ошибки давление ослабевает по мере приближения к нулю, так как производная функции $x^2$ становится ничтожно малой .

Теоретически это обосновывается через концепцию выпуклой оболочки (convex envelope):

Выпуклая оболочка — это наибольшая выпуклая функция, которая везде находится ниже исходной невыпуклой функции .
Если ограничить переменную $x$ интервалом $[-R, R]$, то выпуклой оболочкой функции кардинальности (количества ненулевых элементов) станет именно L1-норма, деленная на $R$ .
Для асимметричных ограничений (когда пределы переменной слева и справа разные) более эффективным «разреживателем» будет взвешенная или асимметричная L1-норма .

📊 Практические примеры: от генетики до оперы 19:30

Стивен Бойд иллюстрирует мощь эвристик на нескольких классических примерах:

Отбор признаков (Regressor Selection): Предсказание исхода болезни на основе 25 000 генных экспрессий при наличии данных всего о 600 пациентах . Эвристика позволяет найти 20–30 ключевых генов, причем вычислительная сложность по сравнению с полным перебором сокращается в миллионы раз .
Восстановление сигналов (Sparse Signal Reconstruction): Метод позволяет восстановить 1000 параметров всего из 200 зашумленных измерений, если известно, что большинство параметров равны нулю . Лектор иронизирует, что 25 лет назад пакет L1-MAGIC казался чудом, а сегодня это стандартный инструмент машинного обучения .
Полная вариация (Total Variation): Использование L1-нормы производной для очистки сигналов от шума при сохранении резких скачков. Профессор упоминает исторический факт: в 1990-х этот метод использовали для реставрации старых записей оперного певца Энрико Карузо, очищая их от царапин без потери чёткости звука .
2D-реконструкция: В томографии методы минимизации полной вариации позволяют реконструировать изображения даже при восьмикратном дефиците данных измерений .

🛠️ Продвинутые приёмы: итеративный L1 и матрицы 34:10

Для тех, кому недостаточно стандартной L1-эвристики, Стивен Бойд предлагает итеративный взвешенный алгоритм. На каждом шаге веса переменных обновляются: если переменная мала, её вес увеличивается (чтобы «добить» её до нуля в следующей итерации), если велика — уменьшается . Этот метод часто дает результаты, близкие к глобальному оптимуму даже в сложных задачах .

Отдельно рассматривается расширение темы на матрицы:

Ранг матрицы является прямым аналогом кардинальности вектора .
Ядерная норма (Nuclear Norm) — сумма сингулярных чисел — служит выпуклым суррогатом ранга и помогает находить решения с низким рангом .
В статистике это применяется для поиска разреженных матриц точности (precision matrices), что соответствует выявлению условной независимости в гауссовских моделях .

🎓 Философия EE364A: Оптимизация как суррогат 48:52

Завершая курс, Стивен Бойд делится важным концептуальным выводом: в 95% случаев решаемая математическая задача — это лишь суррогат того, что нам нужно на самом деле .

Специалисту в машинном обучении не важна минимизация функции потерь сама по себе — ему нужны качественные предсказания на новых данных .
Финансисту не нужна абстрактная оптимизация портфеля — ему нужны деньги при минимальном риске .

По мнению Бойда, даже если задача не является выпуклой, инструменты выпуклой оптимизации дают огромное преимущество. Он называет это «уличным боем» (street fighting): вы можете временно игнорировать невыпуклые ограничения, решать релаксированную задачу, а затем использовать полученное решение как основу для эвристики или локального поиска . В качестве примера приводится расчет траектории полета с учетом расхода топлива: реальная термодинамика турбин чудовищно сложна и невыпукла, но аппроксимация её выпуклой функцией позволяет быстро находить отличные траектории .

📚 Что изучать дальше? 1:07:39

Профессор рекомендует студентам несколько направлений для дальнейшего развития:

EE364B: Продолжение курса, где изучаются субградиентные методы, декомпозиция и распределенная оптимизация .
Распределенная оптимизация: Позволяет нескольким организациям (например, больницам) совместно обучать модель, не передавая друг другу свои конфиденциальные данные, а обмениваясь лишь параметрами моделей .
Курсы Майкеля Кохендерфера (Mykel Kochenderfer): Лектор настоятельно советует изучать его книги и лекции (например, по AeroAstro), отмечая их исключительную ясность .