В одиннадцатой лекции курса MIT по статистическим аспектам машинного обучения профессор Питер Кемпторн углубляется в продвинутые методы регрессионного анализа. Основное внимание уделяется переходу от классической теории метода наименьших квадратов к техникам регуляризации, робастным оценкам и эмпирической проверке финансовых моделей на реальных рыночных данных.
📐 Теоретические основы и проверка статистических гипотез 0:13
Профессор Кемпторн начинает с повторения свойств нормальной линейной регрессионной модели. В этой модели оценка коэффициентов $\hat{\beta}$ (beta hat) распределена как многомерная нормальная случайная величина . Её среднее значение соответствует истинному параметру регрессии, а ковариационная матрица определяется через матрицу объясняющих переменных $X$ и дисперсию ошибок $\sigma^2$ .
Важным аспектом является независимость оценки $\hat{\beta}$ и вектора остатков $\hat{\epsilon}$. Это свойство позволяет математически обосновать использование t-статистик для проверки значимости отдельных коэффициентов .
Основные инструменты проверки гипотез в регрессии:
- t-статистика: используется для проверки гипотезы о том, равен ли конкретный коэффициент $\beta_j$ нулю . Если t-статистика по модулю превышает критическое значение, переменная считается значимой и не может быть исключена из модели .
- F-тест: применяется для одновременной проверки группы коэффициентов . Этот тест сравнивает остаточную сумму квадратов (RSS) в полной модели и в ограниченной подмодели .
- Эквивалентность: профессор отмечает, что в случае проверки одного коэффициента квадрат t-статистики в точности равен значению F-статистики .
При нарушении предположений Гаусса — Маркова (например, если ошибки коррелированы), применяется обобщенный метод наименьших квадратов (GLS) . Он трансформирует данные так, чтобы они соответствовали стандартным допущениям о нулевом среднем и постоянной дисперсии .
🧪 Метод максимального правдоподобия и робастные оценки 11:07
Метод максимального правдоподобия (MLE) позволяет идентифицировать параметры, при которых наблюдаемые данные наиболее вероятны . По словам Кемпторна, MLE является оптимальной оценкой с минимальной дисперсией в больших выборках .
Интересной альтернативой классической регрессии являются обобщенные M-оценки. Вместо минимизации суммы квадратов остатков они минимизируют произвольную функцию $Q$ :
- Наименьшие квадраты: функция потерь — квадрат ошибки.
- Абсолютные отклонения: минимизация суммы модулей ошибок (робастный подход).
- Квантильная регрессия: позволяет оценивать не среднее значение, а, например, 90-й процентиль распределения . Для этого используется асимметричная функция потерь, где положительные и отрицательные остатки масштабируются по-разному .
Робастные оценки (Robust Estimators) особенно полезны, когда данные загрязнены аномалиями или распределение ошибок имеет «тяжелые хвосты», отличные от нормального .
📉 Регуляризация: методы Ridge и LASSO 22:40
Когда количество переменных велико или они сильно коррелированы между собой, стандартный метод наименьших квадратов становится нестабильным. Для решения этой проблемы используются методы сжатия (shrinkage).
Ридж-регрессия (Ridge Regression) добавляет к минимизируемой сумме квадратов штраф, пропорциональный квадрату длины вектора коэффициентов $\beta$ . Кемпторн подчеркивает важность предварительной стандартизации переменных: все предикторы должны иметь нулевое среднее и единичную дисперсию, чтобы шкала измерений не влияла на размер штрафа . С точки зрения байесовского подхода, ридж-регрессия эквивалентна наложению априорного нормального распределения на коэффициенты с нулевым средним .
LASSO (Least Absolute Shrinkage and Selection Operator) использует штраф в виде суммы абсолютных значений коэффициентов (L1-нормирование) . Ключевое отличие LASSO заключается в том, что этот метод способен занулять некоторые коэффициенты, тем самым исключая лишние переменные из модели . Геометрически это объясняется тем, что область ограничений LASSO имеет «вершины» на осях координат .
📊 Кейс-стади: Анализ ETF и хеджирование рисков 37:35
Профессор демонстрирует применение регрессии на примере цен биржевых фондов (ETF), привязанных к секторам американского рынка (энергетика, финансы, здравоохранение) и широким индексам (S&P 500, NASDAQ) .
Цель такого анализа может быть двоякой:
- Хеджирование: если инвестор хочет вложиться в потребительский сектор (ETF XLP), но желает исключить влияние общих рыночных колебаний, он может построить регрессию XLP на рыночные индексы . Полученная разница (остатки) будет представлять собой доходность сектора, очищенную от общих рисков .
- Репликация стратегий: подобные методы используются для имитации стратегий хедж-фондов через ликвидные рыночные инструменты .
Сравнение методов на этих данных показывает, что при больших выборках результаты Ridge и LASSO часто схожи, однако Ridge дает более плавное сжатие, а LASSO эффективнее отсеивает незначимые факторы .
📈 Модель CAPM и её проверка на данных S&P 500 53:08
Центральная часть лекции посвящена эмпирическому анализу модели оценки капитальных активов (CAPM). Согласно теории, ожидаемая доходность акции должна зависеть только от безрисковой ставки и коэффициента «бета» ($\beta$), отражающего рыночный риск .
Уравнение регрессии выглядит так: доходность актива за вычетом безрисковой ставки регрессируется на избыточную доходность рынка. В этой модели:
- Коэффициент альфа ($\alpha$): если CAPM верна, константа $\alpha$ должна быть равна нулю . Ненулевая положительная альфа указывает на аномальную доходность выше рыночной.
- Коэффициент бета ($\beta$): наклон линии регрессии. Средняя бета по рынку равна 1. Акции с $\beta > 1$ считаются более рискованными, с $\beta < 1$ — защитными .
При анализе акций General Electric (GE) Кемпторн обнаружил, что остатки модели не совсем соответствуют нормальному распределению . Использование робастных оценок позволило лучше описать «центр» данных, хотя в экстремальных значениях (верхний и нижний 1%) модель все равно давала сбои .
Изменение режимов и долгосрочный анализ
Профессор указывает на то, что параметры модели могут меняться со временем (смена режимов). На примере той же GE было показано, что при разделении данных на два периода коэффициенты $\alpha$ и $\beta$ существенно различаются . Бета компании выросла с 0.77 до более чем 1.1, что говорит о значительном изменении профиля риска компании .
Результаты по всему индексу S&P 500 (около 380-400 акций):
- Для большинства акций гипотеза о нулевой альфе не была отвергнута (p-value > 0.05), что подтверждает работоспособность модели CAPM в среднем .
- Сектора с низкой бетой: потребительские товары первой необходимости (Consumer Staples), где значения падают до 0.18 .
- Сектора с высокой бетой: компьютерные технологии .
- Самая высокая альфа была зафиксирована у компании из сектора энергетики (ENPH), чья доходность в годовом исчислении при текущей ежедневной альфе могла бы составить феноменальные значения, хотя Кемпторн призывает относиться к таким цифрам с осторожностью .
В завершение лекции Кемпторн упоминает более сложные модели, такие как факторы Фама — Френча, которые расширяют CAPM для более точного объяснения доходности активов .