Линейная алгебра и теория вероятностей на службе инвестора: разбор лекции MIT

В лекции, прочитанной в рамках открытого курса MIT OpenCourseWare, профессор Питер Кемпторн (Peter Kempthorne) детально разбирает фундаментальные математические концепции, связывающие линейную алгебру и теорию вероятностей с практическими задачами финансового анализа. На примере моделирования доходности портфелей акций, оценки опционов и анализа главных компонент (PCA) лектор демонстрирует, как абстрактные теоремы превращаются в мощные инструменты для инвесторов и аналитиков. Разбираемые методы помогают не только эффективно диверсифицировать риски, но и находить скрытые закономерности в огромных массивах рыночных данных.

📐 Собственные значения и диагонализация матриц: фундамент системной динамики 0:12

Линейная алгебра предлагает мощный аппарат для работы с многомерными системами, и одними из наиболее полезных понятий в прикладных задачах являются собственные значения и собственные векторы . Когда матрица $A$ умножается на свой собственный вектор $v$, результатом является простое масштабирование этого вектора на величину собственного значения $\lambda$ :

$$Av = \lambda v$$

Для нахождения этой пары решается характеристическое уравнение, в котором определитель матрицы $(A - \lambda I)$ приравнивается к нулю . Нулевой детерминант означает, что полученная матрица не является обратимой . Если матрица обратима, ее определитель отличен от нуля, а обратная матрица выражается через алгебраические дополнения. Чтобы собственный вектор $v$ не был тривиальным (нулевым), параметр $\lambda$ обязан удовлетворять этому полиномиальному уравнению . Профессор отмечает, что в среде программирования R корни любого подобного полинома вычисляются чрезвычайно просто .

Если матрица $A$ имеет линейно независимые собственные векторы, их можно объединить в качестве столбцов матрицы $S$ . Тогда произведение матрицы $A$ на $S$ будет эквивалентно произведению $S$ на диагональную матрицу собственных значений $\Lambda$ :

$$AS = S\Lambda \implies A = S\Lambda S^{-1}$$

Подобная процедура называется диагонализацией матрицы $A$ и возможна только тогда, когда матрица $S$ обратима (то есть ее столбцы линейно независимы) .

Этот математический аппарат находит прямое отражение в уравнениях фильтров Калмана и моделировании динамических систем . Если матрица $A$ описывает переход системы из состояния во время $t-1$ в состояние во время $t$, то состояние системы через $t$ шагов от начального $u_0$ выражается степенью матрицы $A^t$ . Если представить начальное состояние как линейную комбинацию собственных векторов, то динамика процесса сведется к сумме их степенных масштабирований .

Математический анализ такого перехода показывает:

Если абсолютно все собственные значения матрицы $\lambda_i$ по модулю строго меньше единицы, то при стремлении времени к бесконечности состояние системы неизбежно стремится к нулевому вектору .
Если хотя бы одно собственное значение равно единице, а остальные меньше единицы, система стабилизируется в предельном состоянии, пропорциональном первому собственному вектору .

В реальных финансовых и физических задачах часто встречаются ситуации, когда наибольшее собственное значение в точности равно единице, что позволяет получать элегантные аналитические решения для предельного поведения систем .

Симметричные вещественные матрицы обладают особыми свойствами: все их собственные значения вещественны , а собственные векторы, соответствующие различным собственным значениям, ортогональны друг другу . Это позволяет использовать их в качестве идеального ортогонального базиса для описания многомерных пространств .

🧩 Сингулярное разложение (SVD) и теорема Перрона-Фробениуса 11:13

Сингулярное разложение (SVD) является одним из ключевых результатов линейной алгебры. Любая матрица $A$ может быть представлена в виде произведения трех матриц :

$$A = UDV^T$$

Матрицы $U$ и $V$ являются ортогональными (их столбцы образуют ортонормированные базисы), а $D$ представляет собой диагональную матрицу с неотрицательными сингулярными числами на главной диагонали . Геометрически этот оператор осуществляет ортогональный поворот осей координат, их растяжение или сжатие, а затем проецирование на новый базис .

Если рассмотреть матрицу данных $A$ размерности $m \times n$ (где $m$ — наблюдения, а $n$ — переменные), то произведение $A^T A$ будет симметричной вещественной матрицей . Ее можно диагонализировать в виде $VD^2V^T$, где столбцы $V$ выступают собственными векторами, а диагональные элементы $D^2$ — собственными значениями . Количество ненулевых диагональных элементов строго ограничено рангом исходной матрицы $A$ .

В практическом анализе данных SVD ценится за возможность снижения размерности . Если вариативность данных сосредоточена в подпространстве меньшей размерности (например, ранга 2 или 3), то SVD позволяет легко выделить этот базис и отбросить малозначимый «шум». Матрицу можно представить в виде суммы одноранговых слагаемых, взвешенных по сингулярным числам :

$$A = \sum_{i=1}^{r} \sigma_i u_i v_i^T$$

Еще одним важным математическим результатом для анализа положительных квадратных матриц (где все элементы строго больше нуля) является теорема Перрона-Фробениуса . Согласно этой теореме:

Существует единственное вещественное максимальное собственное значение $\lambda_0$, которое строго больше по модулю, чем все остальные собственные значения матрицы .
Ему соответствует собственный вектор $v$, все элементы которого строго положительны .

Этот результат незаменим при работе с марковскими цепями и матрицами переходов в экономике.

💻 Практикум в RStudio: моделирование портфеля акций и дилемма ребалансировки 19:40

Для демонстрации теоретических выкладок Питер Кемпторн обращается к программированию в среде RStudio . Профессор рекомендует использовать платформу RStudio Cloud (Cloud Rstudio), которая избавляет студентов от необходимости локально устанавливать библиотеки и позволяет запускать готовые скрипты в один клик . Источником исторических цен акций выступает Yahoo Finance, а для чтения качественной аналитики лектор советует оформить подписку на Wall Street Journal, бесплатную для студентов MIT через институтский Kerberos ID .

В рамках практического кейса разбираются два взаимосвязанных скрипта:

Script_SP500 — загружает библиотеки, скачивает котировки акций из индекса S&P 500 и сохраняет рабочее пространство R .
Equal Weighted Portfolios — считывает сохраненные данные котировок для последующего бэктеста инвестиционных стратегий .

Эксперимент строится вокруг гипотетического вложения $1000 на начале 2019 года . Рассматриваются две альтернативы:

Инвестирование в равных долях во все акции из индекса S&P 500.
Равновзвешенный портфель из популярных в то время технологических гигантов — Amazon, Apple, NVIDIA (или Netflix, как уточняет спикер) и Google .

Результаты симуляции показывают, что точечный выбор фаворитов мог принести доходность, существенно опережающую широкий индекс S&P 500, однако платой за это становится кратно возросший риск . Из-за отсутствия глубокой диверсификации портфель технологических гигантов на графике демонстрирует глубокие просадки в определенные периоды .

Особый интерес представляет динамика структуры портфеля без вмешательства инвестора. За пятилетний период акции Apple выросли значительно сильнее остальных активов . В результате их доля в портфеле превысила первоначальные 25%, что привело к снижению диверсификации и росту концентрации риска на одной компании.

Решением данной проблемы выступает ребалансировка. Профессор ставит перед аудиторией вопрос: стоит ли проводить ребалансировку ежедневно?

По мнению Кемпторна, слишком высокая частота ребалансировки вредна . Ежедневное выравнивание долей приводит к тому, что инвестор систематически забирает деньги у растущих активов («победителей») и направляет их в падающие («проигравшие»), тем самым лишая портфель возможности зарабатывать на краткосрочных трендах. Для поддержания стабильного уровня риска лектор считает оптимальным проведение периодической ребалансировки (например, ежемесячно или ежеквартально) .

🎲 Теория вероятностей: от дискретных событий к непрерывным распределениям 28:26

Во второй части лекции профессор Кемпторн переходит к экспресс-обзору теории вероятностей. В прикладных финансах крайне важно разделять дискретные и непрерывные случайные величины .

К дискретным событиям относятся дефолт контрагента по обязательствам или решение ФРС США по процентной ставке . Даже поток внутридневных ордеров на покупку или продажу акций исторически описывался дискретными величинами (размер ордера в штуках акций), хотя сегодня появление дробных акций размывает эту границу .

К непрерывным величинам относятся рыночная стоимость активов, а также время ожидания между событиями (например, интервал времени до прихода следующего ордера по акциям Apple) .

Существуют и смешанные случайные величины. Наглядным примером служит стоимость акций компании: в обычных условиях она непрерывна, но имеет дискретную вероятность упасть до нуля в случае внезапного банкротства .

Фундаментальным инструментом описания распределений выступает кумулятивная функция распределения (CDF) :

$$F_X(c) = P(X \le c)$$

Эта функция монотонно возрастает, принимая значения от 0 до 1, и однозначно определяет закон распределения случайной величины .

Интересным математическим фактом является теорема о преобразовании вероятностей (Probability Integral Transform) . Если случайная величина $X$ имеет непрерывную функцию распределения $F_X$, то новая случайная величина $Y = F_X(X)$ всегда распределена равномерно на отрезке $[0, 1]$ . Это свойство незаменимо на практике: если у исследователя есть выборка данных и он предполагает, что они подчиняются определенному закону распределения, применение функции CDF к этим данным должно дать равномерное распределение. Отклонение от равномерности сигнализирует о несоответствии выбранной модели реальности .

Для количественной оценки распределений используются моменты случайных величин :

Математическое ожидание (первый момент) — средневзвешенное по вероятностям значение.
Дисперсия — мера неопределенности вокруг среднего значения, рассчитываемая как разность математического ожидания квадрата величины и квадрата ее ожидания :

$$Var(X) = E[X^2] - (E[X])^2$$

Поскольку дисперсия измеряется в квадратных единицах, для сопоставления масштаба с исходными данными на практике используют стандартное отклонение (квадратный корень из дисперсии) .

Для детального анализа формы распределения, отличной от классической симметричной колоколообразной кривой, применяются стандартизированные моменты высших порядков — асимметрия (skewness) и эксцесс (kurtosis) . Если стандартизировать случайную величину как $Z = (X - \mu)/\sigma$ , то коэффициент асимметрии запишется как $\gamma = E[Z^3]$, а эксцесс — как $\kappa = E[Z^4]$ . Асимметрия указывает на смещение распределения влево или вправо, а эксцесс характеризует «тяжесть» хвостов распределения. Для нормального (гауссовского) распределения $\gamma = 0$, а $\kappa = 3$ .

🔔 Гауссовские и логнормальные модели на финансовых рынках 39:01

Формула плотности нормального распределения обязана быть знакомой каждому студенту :

$$f(x) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}$$

Максимум функции плотности достигается в точке математического ожидания $\mu$, а точки перегиба (где вторая производная меняет знак) находятся строго на расстоянии одного стандартного отклонения $\sigma$ в обе стороны от центра . Согласно эмпирическому правилу, в пределах одного стандартного отклонения лежит около 68% всех исходов, двух — 95%, трех — 99.7% .

Несмотря на популярность нормального распределения, его прямое применение к моделированию цен активов ограничено тем, что область определения случайной величины в гауссовской модели включает отрицательные значения. Цены акций не могут быть меньше нуля. Решением становится логнормальное распределение: предполагается, что нормальному закону подчиняется не сама цена, а логарифм цены . Если случайная величина $X$ распределена нормально, то $Y = e^X$ будет иметь логнормальное распределение .

Логнормальное распределение тесно связано с концепцией броуновского движения — важнейшего стохастического процесса на финансовых рынках . В модели броуновского движения приращения процесса за фиксированные промежутки времени распределены нормально, а с увеличением временного интервала меняются как среднее значение, так и дисперсия процесса .

Математический метод замены переменных позволяет строго вывести плотность логнормального распределения . Если функция $g$ связывает переменные $Y = g(X)$, а $h = g^{-1}$ — обратная к ней функция (например, логарифм для экспоненты), то плотность распределения $Y$ выражается через плотность исходной величины с использованием цепного правила дифференцирования . В результате плотность логнормального распределения приобретает вид :

$$f_Y(y) = \frac{1}{y\sqrt{2\pi}\sigma} e^{-\frac{1}{2}\left(\frac{\ln y - \mu}{\sigma}\right)^2}$$

Профессор Кемпторн приводит практический пример с параметрами $\mu = 0.2$ и $\sigma = 0.4$ на логарифмической шкале . Финансовый смысл такой модели заключается в описании изменения цены актива за один год с ожидаемой непрерывной доходностью около 20% и годовой волатильностью (стандартным отклонением) в 40% . График такого распределения ярко асимметричен, что наглядно демонстрируют несимметричные квантили (5-й и 95-й процентили) .

🏒 Расчет стоимости опционов и производящие функции моментов 49:34

Логнормальное распределение лежит в основе классической оценки стоимости европейских опционов . Для call-опциона с ценой исполнения (страйком) $K$ и ценой базового актива на момент экспирации $X$ функция выплаты (payoff) выглядит как $\max(X - K, 0)$ . График этой функции напоминает хоккейную клюшку (hockey stick payoff) — термин, который часто используют соавторы курса Василий и Джейк .

Математическое ожидание выплаты по опциону при известной плотности распределения цены актива $f(x)$ и функции распределения $F(x)$ рассчитывается через интегрирование по частям :

$$E[\max(X - K, 0)] = \int_{K}^{\infty} (1 - F(x)) dx$$

Выбор конкретного вероятностного закона (нормального или логнормального) критически важен, так как он напрямую определяет расчетную справедливую стоимость опциона .

Для упрощения аналитической работы с моментами распределений в теории вероятностей применяются производящие функции моментов (MGF), определяемые как математическое ожидание экспоненты от случайной величины :

$$M_X(t) = E[e^{tX}]$$

Разложив экспоненту в ряд Тейлора и взяв математическое ожидание от каждого члена, можно последовательно находить моменты любого порядка через производные функции $M_X(t)$ в точке $t=0$ .

Однако производящая функция моментов существует не всегда. Если хвосты распределения слишком тяжелые (как у распределения Коши), интеграл расходится и принимает бесконечное значение . В таких случаях математики переходят к более универсальному инструменту — характеристической функции :

$$\phi_X(t) = E[e^{itX}] = E[\cos(tX)] + i E[\sin(tX)]$$

Благодаря свойствам комплексных чисел, характеристическая функция существует абсолютно для любого распределения случайных величин . Она обладает теми же ключевыми свойствами, что и MGF:

Если две случайные величины имеют идентичные характеристические функции (или производящие функции моментов, если они существуют), их законы распределения полностью совпадают .
Если последовательность производящих функций моментов сходится к некоторой предельной функции, то и последовательность случайных величин сходится по распределению к соответствующему закону .

Для стандартного нормального распределения $Z \sim N(0, 1)$ производящая функция моментов вычисляется путем выделения полного квадрата в показателе экспоненты под интегралом . Результат вычислений предельно прост :

$$M_Z(t) = e^{\frac{1}{2}t^2}$$

Применяя линейное преобразование случайной величины $Y = \mu + \sigma Z$, можно получить MGF для любого общего нормального распределения :

$$M_Y(t) = e^{t\mu + \frac{1}{2}t^2\sigma^2}$$

Что примечательно, данное выражение фактически представляет собой математическое ожидание логнормальной случайной величины. Подставляя $t = 1$, инвестор получает среднее значение логнормального распределения, а при $t = 2$ — его второй момент, что позволяет легко рассчитывать дисперсию цены активов .

🕸️ Многомерные случайные векторы и математика диверсификации 1:03:47

Переходя от анализа единичных активов к портфельному менеджменту, необходимо оперировать системами случайных величин. Две случайные величины $X$ и $Y$ независимы, если вероятность их совместного попадания в любые интервалы равна произведению индивидуальных вероятностей . В терминах плотностей это выражается в расщеплении совместной плотности на произведение маргинальных плотностей :

$$f(x, y) = f_X(x) f_Y(y)$$

Степень линейной взаимосвязи между переменными оценивается ковариацией и корреляцией . Корреляция представляет собой ковариацию стандартизированных случайных величин и нормирована в границах от -1 до +1 . Кемпторн подчеркивает: равенство ковариации нулю означает отсутствие линейной связи, но не гарантирует полную независимость случайных величин .

Для описания системы из $n$ активов вводится случайный вектор $X$ с вектором математических ожиданий $\mu$ и матрицей ковариаций $\Sigma$ размерности $n \times n$ :

$$\Sigma = E[(X - \mu)(X - \mu)^T]$$

Если инвестор формирует портфель с весами активов, заданными вектором $a$, то доходность портфеля является линейной комбинацией $Y = a^T X$ . Математическое ожидание доходности такого портфеля выражается как $a^T \mu$ , а его дисперсия рассчитывается по квадратичной форме :

$$Var(Y) = a^T \Sigma a$$

На этом уравнении базируется математическое доказательство пользы диверсификации портфеля. Если рассмотреть частный случай, когда ковариация между всеми различными активами равна нулю ($\Sigma$ диагональна), а веса распределены поровну ($a_i = 1/n$) , то дисперсия портфеля примет вид :

$$Var(Y) = \frac{1}{n} \sigma^2$$

Дисперсия равновзвешенного портфеля из некоррелированных активов с одинаковой волатильностью снижается ровно в $n$ раз по сравнению с дисперсией отдельного актива . Это математически иллюстрирует, как диверсификация эффективно устраняет индивидуальный риск инструментов.

📊 Анализ главных компонент (PCA) в управлении портфелем 1:14:16

В реальности финансовые активы сильно коррелируют между собой, из-за чего матрица ковариаций $\Sigma$ содержит множество ненулевых внедиагональных элементов. Для анализа структуры этих взаимосвязей применяется метод анализа главных компонент (PCA) .

Исходный вектор данных $X$ размерности $m \times 1$ характеризуется вектором средних $\alpha$ и симметричной вещественной ковариационной матрицей $\Sigma$ . Важнейшим свойством ковариационной матрицы является то, что она всегда является положительно полуопределенной . Это напрямую следует из физического смысла дисперсии: для любого вектора весов $a$ дисперсия портфеля не может быть отрицательной :

$$a^T \Sigma a \ge 0$$

Следовательно, все собственные значения ковариационной матрицы $\lambda_1, \dots, \lambda_m$ вещественны и неотрицательны . Ортонормированные собственные векторы $\gamma_i$ нормируются к единичной длине и взаимно ортогональны .

PCA вводит новые переменные (главные компоненты $P_i$) путем проецирования центрированного вектора данных на собственные векторы ковариационной матрицы :

$$P_i = \gamma_i^T (X - \alpha)$$

Новые переменные обладают уникальными свойствами:

Их математическое ожидание в точности равно нулю .
Они абсолютно некоррелированы друг с другом, то есть их ковариационная матрица строго диагональна и содержит собственные значения $\lambda_i$ на главной диагонали .
Если упорядочить собственные значения от наибольшего к наименьшему ($\lambda_1 \ge \lambda_2 \ge \dots \ge \lambda_m$), то первая главная компонента будет объяснять максимальную долю совокупной дисперсии системы активов, вторая — чуть меньше, и так далее .

В результате многомерное и сильно скоррелированное пространство доходностей проецируется на ортогональный базис . Это дает возможность отбросить компоненты с близкими к нулю собственными значениями, радикально снизив размерность задачи без существенной потери информации . Именно принципы PCA лежат в основе построения современных многофакторных моделей оценки активов и управления рисками на финансовых рынках .