Профессор MIT об анализе временных рядов: от S&P 500 до отрицательных цен на нефть

В современной финансовой аналитике и эконометрике анализ временных рядов занимает центральное место, позволяя не только описывать прошлые состояния рынков, но и строить математически обоснованные прогнозы. В лекции MIT OpenCourseWare профессор Питер Кемпторн (Peter Kempthorne) раскрывает фундаментальные концепции этой дисциплины, переходя от строгих определений стационарности к практическим аспектам моделирования рыночных индексов и акций.

📈 Введение в анализ временных рядов 0:00

Анализ временных рядов — это мощная статистическая методология, которая особенно эффективна при моделировании финансовых рынков . Временной ряд представляет собой стохастический процесс, где $X_t$ соответствует значению процесса в момент времени $t$. Временные периоды могут быть как дискретными (что встречается чаще всего), так и непрерывными .

Основная задача моделирования заключается в определении вероятностной модели для любой совокупности значений во временных точках. По словам Кемпторна, это подразумевает способность специфицировать совместную плотность вероятности для любого конечного набора из $m$ временных точек .

⚖️ Понятие стационарности: строгость против практики 2:26

Одной из ключевых концепций в анализе является стационарность. Профессор выделяет два её типа:

Строгая стационарность: Распределение любого набора временных точек остается неизменным при сдвиге на константу $\tau$ . Это означает, что среднее значение и разброс данных остаются горизонтальными и постоянными во всех временных окнах .
Слабая стационарность (ковариационная): Более мягкое условие, сфокусированное на ожиданиях первого и второго порядка . В этом случае:
1. Математическое ожидание $\mu$ постоянно для всех $t$.
2. Дисперсия не зависит от времени.
3. Ковариация между значениями, разделенными интервалом $\tau$, зависит только от величины этого интервала, а не от конкретного момента времени .

Лектор подчеркивает, что стационарность критически важна для статистики: если параметры распределения одинаковы на всем диапазоне данных, их можно оценить последовательно и с высокой точностью .

📊 Финансовые данные и «тонкие» хвосты распределений 8:18

При анализе реальных данных, таких как индекс S&P 500, становится очевидно, что они не являются стационарными из-за выраженных временных трендов . Для работы с ними аналитики используют трансформацию в логарифмическую доходность (log returns).

Кемпторн приводит примеры трансформаций для различных активов:

S&P 500: Логарифмирование превращает экспоненциальный рост в линейный . Месячные логарифмические доходности выглядят как стационарный процесс с уровнем около нуля и постоянной дисперсией .
Amazon: На графике акций компании виден значительный экспоненциальный рост. После взятия логарифма вариативность данных становится более сопоставимой на разных участках времени, что является преимуществом для моделирования .

Особое внимание профессор уделяет несовершенству нормальной модели (Гаусса) для описания доходностей. На гистограммах S&P 500 отчетливо видна лептокуртрозис (leptokurtosis) — свойство распределения иметь более высокий пик в центре и «тяжелые хвосты» . По мнению Кемпторна, нормальная модель часто недооценивает вероятность экстремальных событий в хвостах распределения .

🛢️ Аномалии рынка: отрицательные цены на нефть 18:23

В качестве экстраординарного примера нестационарности и рыночного шока лектор приводит ситуацию с фьючерсами на сырую нефть в 2020 году. Тогда стоимость контракта стала отрицательной, что стало шоком для брокеров и трейдеров .

Последствия этого события:

Инвесторы внезапно оказались должны своим брокерам суммы, кратные отрицательной цене .
Системы многих брокеров технически не могли отображать позиции, так как не были запрограммированы на работу с отрицательными ценами .
Стандартная математическая трансформация через логарифм стала невозможной для этого периода, так как логарифм отрицательного числа не определен .

📉 Автокорреляция и проверка адекватности моделей 24:08

Для оценки зависимости значений ряда от их прошлых состояний используется автокорреляционная функция (ACF). Лектор отмечает следующие важные моменты:

Интервалы значимости: На графиках ACF синие полосы обозначают область, внутри которой значения корреляции считаются статистически неотличимыми от нуля .
Возврат к среднему (Mean reversion): Отрицательная автокорреляция (например, лаг 5 для недельных данных S&P 500) может указывать на эффект возврата к среднему: если цена выросла слишком сильно, она имеет тенденцию скорректироваться вниз .
Белый шум: Остатки (residual series) хорошей модели должны представлять собой белый шум — иметь нулевое среднее, постоянную дисперсию и быть некоррелированными . Если в остатках сохраняется значимая автокорреляция, модель не завершена и требует доработки .

Для проверки совокупности лагов на равенство нулю используется тест Бокса-Пирса (Box-Pierce test), основанный на распределении хи-квадрат .

🛠️ Теорема Волда и операторы сдвига 38:46

Профессор представляет «экстраординарную», по его словам, теорему Волда (Wold Representation Theorem). Согласно ей, любой ковариационно-стационарный процесс может быть разложен на две части:

Линейно-детерминированный процесс ($V_t$): Значение может быть представлено как линейная комбинация прошлых значений (например, периодические функции типа косинуса) .
Процесс скользящего среднего ($S_t$): Взвешенная сумма текущих и прошлых значений «белого шума» .

Для математического удобства вводится лаговый оператор ($L$), который сдвигает индекс времени назад на один период ($L X_t = X_{t-1}$) . Использование полиномов от лаговых операторов позволяет компактно записывать сложные модели временных рядов .

🏗️ Модели ARMA и условия устойчивости 59:12

Кемпторн переходит к описанию моделей ARMA(p, q), сочетающих в себе авторегрессию (AR) и скользящее среднее (MA):

AR(p): Текущее значение ряда линейно зависит от $p$ его предыдущих значений и ошибки .
MA(q): Ряд представляется как взвешенная сумма текущей и $q$ прошлых ошибок .

Важным условием для модели AR(p) является её стационарность. Для этого корни характеристического уравнения должны лежать вне единичного круга в комплексной плоскости . В частном случае для модели AR(1) это означает, что абсолютное значение коэффициента $\phi$ должно быть меньше единицы .

Если $\phi = 1$, процесс превращается в случайное блуждание, которое не является стационарным . Если $\phi > 1$, процесс становится «взрывным» (explosive) .

🔧 Методы оценки и дифференцирование 1:11:31

Для оценки параметров AR-моделей лектор предлагает два подхода:

Линейная регрессия: Использование лагов ряда в качестве объясняющих переменных .
Уравнения Юла-Уокера (Yule-Walker): Метод, основанный на принципе моментов, где выборочные автоковariaции приравниваются к теоретическим для нахождения параметров модели .

В завершение лекции обсуждается борьба с нестационарностью через взятие разностей (differencing) . Первая разность ($\Delta Y_t = Y_t - Y_{t-1}$) позволяет устранить линейный тренд в данных . Вторая разность эффективна для удаления квадратичного тренда . По сути, дифференцирование — это переход к анализу динамики наклона (первой или второй производной) временного ряда .