# Регрессионный анализ в MIT: от теории Гаусса — Маркова до регуляризации LASSO

Источник: https://www.youtube.com/watch?v=RruxdEjIvv0
Канал: MIT OpenCourseWare
Опубликовано: 03.12.2025

---

В одиннадцатой лекции курса MIT по статистическим аспектам машинного обучения профессор Питер Кемпторн углубляется в продвинутые методы регрессионного анализа. Основное внимание уделяется переходу от классической теории метода наименьших квадратов к техникам регуляризации, робастным оценкам и эмпирической проверке финансовых моделей на реальных рыночных данных.

## 📐 Теоретические основы и проверка статистических гипотез
[[JUMP:00:13]]

Профессор Кемпторн начинает с повторения свойств нормальной линейной регрессионной модели. В этой модели оценка коэффициентов $\hat{\beta}$ (beta hat) распределена как многомерная нормальная случайная величина [01:07]. Её среднее значение соответствует истинному параметру регрессии, а ковариационная матрица определяется через матрицу объясняющих переменных $X$ и дисперсию ошибок $\sigma^2$ [01:21].

Важным аспектом является независимость оценки $\hat{\beta}$ и вектора остатков $\hat{\epsilon}$. Это свойство позволяет математически обосновать использование t-статистик для проверки значимости отдельных коэффициентов [03:02]. 

Основные инструменты проверки гипотез в регрессии:

*   **t-статистика:** используется для проверки гипотезы о том, равен ли конкретный коэффициент $\beta_j$ нулю [05:02]. Если t-статистика по модулю превышает критическое значение, переменная считается значимой и не может быть исключена из модели [05:44].
*   **F-тест:** применяется для одновременной проверки группы коэффициентов [06:14]. Этот тест сравнивает остаточную сумму квадратов (RSS) в полной модели и в ограниченной подмодели [06:53].
*   **Эквивалентность:** профессор отмечает, что в случае проверки одного коэффициента квадрат t-статистики в точности равен значению F-статистики [09:07].

При нарушении предположений Гаусса — Маркова (например, если ошибки коррелированы), применяется обобщенный метод наименьших квадратов (GLS) [09:39]. Он трансформирует данные так, чтобы они соответствовали стандартным допущениям о нулевом среднем и постоянной дисперсии [10:36].

## 🧪 Метод максимального правдоподобия и робастные оценки
[[JUMP:11:07]]

Метод максимального правдоподобия (MLE) позволяет идентифицировать параметры, при которых наблюдаемые данные наиболее вероятны [12:11]. По словам Кемпторна, MLE является оптимальной оценкой с минимальной дисперсией в больших выборках [12:40]. 

Интересной альтернативой классической регрессии являются обобщенные M-оценки. Вместо минимизации суммы квадратов остатков они минимизируют произвольную функцию $Q$ [15:47]:

1.  **Наименьшие квадраты:** функция потерь — квадрат ошибки.
2.  **Абсолютные отклонения:** минимизация суммы модулей ошибок (робастный подход).
3.  **Квантильная регрессия:** позволяет оценивать не среднее значение, а, например, 90-й процентиль распределения [20:07]. Для этого используется асимметричная функция потерь, где положительные и отрицательные остатки масштабируются по-разному [19:25].

Робастные оценки (Robust Estimators) особенно полезны, когда данные загрязнены аномалиями или распределение ошибок имеет «тяжелые хвосты», отличные от нормального [18:01].

## 📉 Регуляризация: методы Ridge и LASSO
[[JUMP:22:40]]

Когда количество переменных велико или они сильно коррелированы между собой, стандартный метод наименьших квадратов становится нестабильным. Для решения этой проблемы используются методы сжатия (shrinkage).

**Ридж-регрессия (Ridge Regression)** добавляет к минимизируемой сумме квадратов штраф, пропорциональный квадрату длины вектора коэффициентов $\beta$ [23:00]. Кемпторн подчеркивает важность предварительной стандартизации переменных: все предикторы должны иметь нулевое среднее и единичную дисперсию, чтобы шкала измерений не влияла на размер штрафа [25:16]. С точки зрения байесовского подхода, ридж-регрессия эквивалентна наложению априорного нормального распределения на коэффициенты с нулевым средним [27:17].

**LASSO (Least Absolute Shrinkage and Selection Operator)** использует штраф в виде суммы абсолютных значений коэффициентов (L1-нормирование) [34:10]. Ключевое отличие LASSO заключается в том, что этот метод способен занулять некоторые коэффициенты, тем самым исключая лишние переменные из модели [37:01]. Геометрически это объясняется тем, что область ограничений LASSO имеет «вершины» на осях координат [36:48].

## 📊 Кейс-стади: Анализ ETF и хеджирование рисков
[[JUMP:37:35]]

Профессор демонстрирует применение регрессии на примере цен биржевых фондов (ETF), привязанных к секторам американского рынка (энергетика, финансы, здравоохранение) и широким индексам (S&P 500, NASDAQ) [38:29].

Цель такого анализа может быть двоякой:

*   **Хеджирование:** если инвестор хочет вложиться в потребительский сектор (ETF XLP), но желает исключить влияние общих рыночных колебаний, он может построить регрессию XLP на рыночные индексы [41:15]. Полученная разница (остатки) будет представлять собой доходность сектора, очищенную от общих рисков [41:34].
*   **Репликация стратегий:** подобные методы используются для имитации стратегий хедж-фондов через ликвидные рыночные инструменты [42:06].

Сравнение методов на этих данных показывает, что при больших выборках результаты Ridge и LASSO часто схожи, однако Ridge дает более плавное сжатие, а LASSO эффективнее отсеивает незначимые факторы [51:46].

## 📈 Модель CAPM и её проверка на данных S&P 500
[[JUMP:53:08]]

Центральная часть лекции посвящена эмпирическому анализу модели оценки капитальных активов (CAPM). Согласно теории, ожидаемая доходность акции должна зависеть только от безрисковой ставки и коэффициента «бета» ($\beta$), отражающего рыночный риск [54:37].

Уравнение регрессии выглядит так: доходность актива за вычетом безрисковой ставки регрессируется на избыточную доходность рынка. В этой модели:

*   **Коэффициент альфа ($\alpha$):** если CAPM верна, константа $\alpha$ должна быть равна нулю [56:45]. Ненулевая положительная альфа указывает на аномальную доходность выше рыночной.
*   **Коэффициент бета ($\beta$):** наклон линии регрессии. Средняя бета по рынку равна 1. Акции с $\beta > 1$ считаются более рискованными, с $\beta < 1$ — защитными [1:07:13].

При анализе акций General Electric (GE) Кемпторн обнаружил, что остатки модели не совсем соответствуют нормальному распределению [1:05:20]. Использование робастных оценок позволило лучше описать «центр» данных, хотя в экстремальных значениях (верхний и нижний 1%) модель все равно давала сбои [1:05:06].

### Изменение режимов и долгосрочный анализ
Профессор указывает на то, что параметры модели могут меняться со временем (смена режимов). На примере той же GE [1:13:07] было показано, что при разделении данных на два периода коэффициенты $\alpha$ и $\beta$ существенно различаются [1:13:49]. Бета компании выросла с 0.77 до более чем 1.1, что говорит о значительном изменении профиля риска компании [1:14:05].

Результаты по всему индексу S&P 500 (около 380-400 акций):

*   Для большинства акций гипотеза о нулевой альфе не была отвергнута (p-value > 0.05), что подтверждает работоспособность модели CAPM в среднем [1:17:14].
*   Сектора с низкой бетой: потребительские товары первой необходимости (Consumer Staples), где значения падают до 0.18 [1:19:54].
*   Сектора с высокой бетой: компьютерные технологии [1:19:14].
*   Самая высокая альфа была зафиксирована у компании из сектора энергетики (ENPH), чья доходность в годовом исчислении при текущей ежедневной альфе могла бы составить феноменальные значения, хотя Кемпторн призывает относиться к таким цифрам с осторожностью [1:21:55].

В завершение лекции Кемпторн упоминает более сложные модели, такие как факторы Фама — Френча, которые расширяют CAPM для более точного объяснения доходности активов [1:22:33].