Питер Кемпторн: «Математические основы линейной регрессии и диагностики»

Основы регрессионного анализа: математический аппарат и диагностика моделей 0:13

Регрессионный анализ — это фундаментальный статистический инструмент для моделирования зависимостей, который включает формализацию модели, подбор параметров, проверку допущений и, при необходимости, трансформацию данных. В ходе лекции Питер Кемпторн (MIT OpenCourseWare) подробно разобрал математическую структуру метода наименьших квадратов (МНК), его вероятностные расширения и методы оценки качества получаемых результатов.

📉 Математика метода наименьших квадратов 1:13

В основе линейной регрессии лежит модель $y = X\beta + \epsilon$, где $y$ — вектор зависимых переменных, $X$ — матрица предикторов, $\beta$ — вектор коэффициентов, а $\epsilon$ — вектор ошибок.

Критерий подбора: Для определения вектора $\beta$ используется сумма квадратов остатков $Q(\beta) = (y - X\beta)^T (y - X\beta)$, которую необходимо минимизировать.
Нормальные уравнения: В результате минимизации по методу наименьших квадратов выводятся так называемые «нормальные уравнения» $X^T X \hat{\beta} = X^T y$.
Хат-матрица (Hat Matrix): При решении уравнений получается матрица $H = X(X^T X)^{-1} X^T$, которая проецирует вектор наблюдений $y$ на пространство столбцов матрицы $X$. Это матрица проекции, обладающая свойством идемпотентности ($H^2 = H$).
Ортогональность остатков: Важнейшим свойством модели является ортогональность вектора остатков $\hat{\epsilon} = y - \hat{y}$ и вектора предсказанных значений $\hat{y}$. Это позволяет применять теорему Пифагора в n-мерном пространстве для разложения сумм квадратов.

🎲 Вероятностные модели и распределения 16:35

Для статистического вывода МНК-модель расширяется до вероятностной, где ошибки $\epsilon$ предполагаются независимыми и одинаково распределенными (i.i.d.) согласно нормальному закону.

Распределение $\hat{\beta}$: Используя производящие функции моментов, можно доказать, что оценка МНК $\hat{\beta}$ следует многомерному нормальному распределению с вектором средних $\beta$ и ковариационной матрицей $\sigma^2 (X^T X)^{-1}$.
Свойства остатков: Вектор остатков $\hat{\epsilon}$ также распределен нормально, но его ковариационная матрица $\sigma^2(I - H)$ является сингулярной (невырожденной), что указывает на линейную зависимость между остатками.
T-статистика: При оценке параметров используется t-распределение, которое возникает при делении нормальной случайной величины на корень из нормированного хи-квадрат распределения. Кемпторн напомнил историю возникновения «t-распределения Стьюдента», которое было открыто сотрудником пивоварни Guinness при работе с малыми выборками.

🛠 Диагностика моделей и влияние данных 48:20

Анализ данных на примере исследования рака простаты (на основе работ Брэда Эфрона и Тревора Хасти) показывает, что корректная интерпретация результатов требует проверки допущений.

Стандартизация: Масштабирование предикторов до среднего 0 и стандартного отклонения 1 облегчает интерпретацию коэффициентов, делая их сравнимыми по значимости.
Диагностические показатели:
- Стьюдентизированные остатки: Позволяют выявлять выбросы, нормализуя остатки с учетом их разной дисперсии.
- Расстояние Кука (Cook's distance): Мера влияния отдельного наблюдения на оценки коэффициентов регрессии.
- Hat values: Диагональные элементы матрицы $H$, отражающие «плечо» или влияние наблюдения на его собственное предсказанное значение.

⚖️ Теорема Гаусса-Маркова и обобщенная регрессия

Согласно теореме Гаусса-Маркова, при соблюдении стандартных допущений оценки МНК являются «наилучшими линейными несмещенными оценками» (BLUE), обладающими минимальной дисперсией среди всех несмещенных линейных оценок.

Если дисперсия ошибок непостоянна, применяется метод обобщенных наименьших квадратов (GLS). Он предполагает трансформацию модели путем умножения на матрицу, обратную корню из ковариационной матрицы ошибок. Это позволяет «взвешивать» наблюдения, придавая меньший вес тем, у которых выше вариативность, что делает оценки параметров более точными в условиях гетероскедастичности.