# Питер Кемпторн: «Математические основы линейной регрессии и диагностики»

Источник: https://www.youtube.com/watch?v=cMF_c2WNPyU
Канал: MIT OpenCourseWare
Опубликовано: 03.12.2025

---

## Основы регрессионного анализа: математический аппарат и диагностика моделей
[[JUMP:0:13]]

Регрессионный анализ — это фундаментальный статистический инструмент для моделирования зависимостей, который включает формализацию модели, подбор параметров, проверку допущений и, при необходимости, трансформацию данных. В ходе лекции Питер Кемпторн (MIT OpenCourseWare) подробно разобрал математическую структуру метода наименьших квадратов (МНК), его вероятностные расширения и методы оценки качества получаемых результатов.

### 📉 Математика метода наименьших квадратов
[[JUMP:1:13]]

В основе линейной регрессии лежит модель $y = X\beta + \epsilon$, где $y$ — вектор зависимых переменных, $X$ — матрица предикторов, $\beta$ — вектор коэффициентов, а $\epsilon$ — вектор ошибок.

*   **Критерий подбора:** Для определения вектора $\beta$ используется сумма квадратов остатков $Q(\beta) = (y - X\beta)^T (y - X\beta)$, которую необходимо минимизировать.
*   **Нормальные уравнения:** В результате минимизации по методу наименьших квадратов выводятся так называемые «нормальные уравнения» $X^T X \hat{\beta} = X^T y$.
*   **Хат-матрица (Hat Matrix):** При решении уравнений получается матрица $H = X(X^T X)^{-1} X^T$, которая проецирует вектор наблюдений $y$ на пространство столбцов матрицы $X$. Это матрица проекции, обладающая свойством идемпотентности ($H^2 = H$).
*   **Ортогональность остатков:** Важнейшим свойством модели является ортогональность вектора остатков $\hat{\epsilon} = y - \hat{y}$ и вектора предсказанных значений $\hat{y}$. Это позволяет применять теорему Пифагора в n-мерном пространстве для разложения сумм квадратов.

### 🎲 Вероятностные модели и распределения
[[JUMP:16:35]]

Для статистического вывода МНК-модель расширяется до вероятностной, где ошибки $\epsilon$ предполагаются независимыми и одинаково распределенными (i.i.d.) согласно нормальному закону.

*   **Распределение $\hat{\beta}$:** Используя производящие функции моментов, можно доказать, что оценка МНК $\hat{\beta}$ следует многомерному нормальному распределению с вектором средних $\beta$ и ковариационной матрицей $\sigma^2 (X^T X)^{-1}$.
*   **Свойства остатков:** Вектор остатков $\hat{\epsilon}$ также распределен нормально, но его ковариационная матрица $\sigma^2(I - H)$ является сингулярной (невырожденной), что указывает на линейную зависимость между остатками.
*   **T-статистика:** При оценке параметров используется t-распределение, которое возникает при делении нормальной случайной величины на корень из нормированного хи-квадрат распределения. Кемпторн напомнил историю возникновения «t-распределения Стьюдента», которое было открыто сотрудником пивоварни Guinness при работе с малыми выборками.

### 🛠 Диагностика моделей и влияние данных
[[JUMP:48:20]]

Анализ данных на примере исследования рака простаты (на основе работ Брэда Эфрона и Тревора Хасти) показывает, что корректная интерпретация результатов требует проверки допущений.

*   **Стандартизация:** Масштабирование предикторов до среднего 0 и стандартного отклонения 1 облегчает интерпретацию коэффициентов, делая их сравнимыми по значимости.
*   **Диагностические показатели:**
    *   **Стьюдентизированные остатки:** Позволяют выявлять выбросы, нормализуя остатки с учетом их разной дисперсии.
    *   **Расстояние Кука (Cook's distance):** Мера влияния отдельного наблюдения на оценки коэффициентов регрессии.
    *   **Hat values:** Диагональные элементы матрицы $H$, отражающие «плечо» или влияние наблюдения на его собственное предсказанное значение.

### ⚖️ Теорема Гаусса-Маркова и обобщенная регрессия
[[JUMP:111:15]]

Согласно теореме Гаусса-Маркова, при соблюдении стандартных допущений оценки МНК являются «наилучшими линейными несмещенными оценками» (BLUE), обладающими минимальной дисперсией среди всех несмещенных линейных оценок.

Если дисперсия ошибок непостоянна, применяется метод **обобщенных наименьших квадратов (GLS)**. Он предполагает трансформацию модели путем умножения на матрицу, обратную корню из ковариационной матрицы ошибок. Это позволяет «взвешивать» наблюдения, придавая меньший вес тем, у которых выше вариативность, что делает оценки параметров более точными в условиях гетероскедастичности.