Регрессионный анализ в MIT: от теории Гаусса — Маркова до регуляризации LASSO

В одиннадцатой лекции курса MIT по статистическим аспектам машинного обучения профессор Питер Кемпторн углубляется в продвинутые методы регрессионного анализа. Основное внимание уделяется переходу от классической теории метода наименьших квадратов к техникам регуляризации, робастным оценкам и эмпирической проверке финансовых моделей на реальных рыночных данных.

📐 Теоретические основы и проверка статистических гипотез 0:13

Профессор Кемпторн начинает с повторения свойств нормальной линейной регрессионной модели. В этой модели оценка коэффициентов $\hat{\beta}$ (beta hat) распределена как многомерная нормальная случайная величина . Её среднее значение соответствует истинному параметру регрессии, а ковариационная матрица определяется через матрицу объясняющих переменных $X$ и дисперсию ошибок $\sigma^2$ .

Важным аспектом является независимость оценки $\hat{\beta}$ и вектора остатков $\hat{\epsilon}$. Это свойство позволяет математически обосновать использование t-статистик для проверки значимости отдельных коэффициентов .

Основные инструменты проверки гипотез в регрессии:

t-статистика: используется для проверки гипотезы о том, равен ли конкретный коэффициент $\beta_j$ нулю . Если t-статистика по модулю превышает критическое значение, переменная считается значимой и не может быть исключена из модели .
F-тест: применяется для одновременной проверки группы коэффициентов . Этот тест сравнивает остаточную сумму квадратов (RSS) в полной модели и в ограниченной подмодели .
Эквивалентность: профессор отмечает, что в случае проверки одного коэффициента квадрат t-статистики в точности равен значению F-статистики .

При нарушении предположений Гаусса — Маркова (например, если ошибки коррелированы), применяется обобщенный метод наименьших квадратов (GLS) . Он трансформирует данные так, чтобы они соответствовали стандартным допущениям о нулевом среднем и постоянной дисперсии .

🧪 Метод максимального правдоподобия и робастные оценки 11:07

Метод максимального правдоподобия (MLE) позволяет идентифицировать параметры, при которых наблюдаемые данные наиболее вероятны . По словам Кемпторна, MLE является оптимальной оценкой с минимальной дисперсией в больших выборках .

Интересной альтернативой классической регрессии являются обобщенные M-оценки. Вместо минимизации суммы квадратов остатков они минимизируют произвольную функцию $Q$ :

Наименьшие квадраты: функция потерь — квадрат ошибки.
Абсолютные отклонения: минимизация суммы модулей ошибок (робастный подход).
Квантильная регрессия: позволяет оценивать не среднее значение, а, например, 90-й процентиль распределения . Для этого используется асимметричная функция потерь, где положительные и отрицательные остатки масштабируются по-разному .

Робастные оценки (Robust Estimators) особенно полезны, когда данные загрязнены аномалиями или распределение ошибок имеет «тяжелые хвосты», отличные от нормального .

📉 Регуляризация: методы Ridge и LASSO 22:40

Когда количество переменных велико или они сильно коррелированы между собой, стандартный метод наименьших квадратов становится нестабильным. Для решения этой проблемы используются методы сжатия (shrinkage).

Ридж-регрессия (Ridge Regression) добавляет к минимизируемой сумме квадратов штраф, пропорциональный квадрату длины вектора коэффициентов $\beta$ . Кемпторн подчеркивает важность предварительной стандартизации переменных: все предикторы должны иметь нулевое среднее и единичную дисперсию, чтобы шкала измерений не влияла на размер штрафа . С точки зрения байесовского подхода, ридж-регрессия эквивалентна наложению априорного нормального распределения на коэффициенты с нулевым средним .

LASSO (Least Absolute Shrinkage and Selection Operator) использует штраф в виде суммы абсолютных значений коэффициентов (L1-нормирование) . Ключевое отличие LASSO заключается в том, что этот метод способен занулять некоторые коэффициенты, тем самым исключая лишние переменные из модели . Геометрически это объясняется тем, что область ограничений LASSO имеет «вершины» на осях координат .

📊 Кейс-стади: Анализ ETF и хеджирование рисков 37:35

Профессор демонстрирует применение регрессии на примере цен биржевых фондов (ETF), привязанных к секторам американского рынка (энергетика, финансы, здравоохранение) и широким индексам (S&P 500, NASDAQ) .

Цель такого анализа может быть двоякой:

Хеджирование: если инвестор хочет вложиться в потребительский сектор (ETF XLP), но желает исключить влияние общих рыночных колебаний, он может построить регрессию XLP на рыночные индексы . Полученная разница (остатки) будет представлять собой доходность сектора, очищенную от общих рисков .
Репликация стратегий: подобные методы используются для имитации стратегий хедж-фондов через ликвидные рыночные инструменты .

Сравнение методов на этих данных показывает, что при больших выборках результаты Ridge и LASSO часто схожи, однако Ridge дает более плавное сжатие, а LASSO эффективнее отсеивает незначимые факторы .

📈 Модель CAPM и её проверка на данных S&P 500 53:08

Центральная часть лекции посвящена эмпирическому анализу модели оценки капитальных активов (CAPM). Согласно теории, ожидаемая доходность акции должна зависеть только от безрисковой ставки и коэффициента «бета» ($\beta$), отражающего рыночный риск .

Уравнение регрессии выглядит так: доходность актива за вычетом безрисковой ставки регрессируется на избыточную доходность рынка. В этой модели:

Коэффициент альфа ($\alpha$): если CAPM верна, константа $\alpha$ должна быть равна нулю . Ненулевая положительная альфа указывает на аномальную доходность выше рыночной.
Коэффициент бета ($\beta$): наклон линии регрессии. Средняя бета по рынку равна 1. Акции с $\beta > 1$ считаются более рискованными, с $\beta < 1$ — защитными .

При анализе акций General Electric (GE) Кемпторн обнаружил, что остатки модели не совсем соответствуют нормальному распределению . Использование робастных оценок позволило лучше описать «центр» данных, хотя в экстремальных значениях (верхний и нижний 1%) модель все равно давала сбои .

Изменение режимов и долгосрочный анализ

Профессор указывает на то, что параметры модели могут меняться со временем (смена режимов). На примере той же GE было показано, что при разделении данных на два периода коэффициенты $\alpha$ и $\beta$ существенно различаются . Бета компании выросла с 0.77 до более чем 1.1, что говорит о значительном изменении профиля риска компании .

Результаты по всему индексу S&P 500 (около 380-400 акций):

Для большинства акций гипотеза о нулевой альфе не была отвергнута (p-value > 0.05), что подтверждает работоспособность модели CAPM в среднем .
Сектора с низкой бетой: потребительские товары первой необходимости (Consumer Staples), где значения падают до 0.18 .
Сектора с высокой бетой: компьютерные технологии .
Самая высокая альфа была зафиксирована у компании из сектора энергетики (ENPH), чья доходность в годовом исчислении при текущей ежедневной альфе могла бы составить феноменальные значения, хотя Кемпторн призывает относиться к таким цифрам с осторожностью .

В завершение лекции Кемпторн упоминает более сложные модели, такие как факторы Фама — Френча, которые расширяют CAPM для более точного объяснения доходности активов .