На лекции в Стенфордской высшей школе бизнеса (Stanford GSB) профессор Маттео Маджори представил обзор революционных изменений в доступности финансовых данных. Основной акцент был сделан на наборе данных N-PORT — публичных микроданных США, которые позволяют исследователям детально анализировать инвестиционные портфели без необходимости покупки дорогостоящих коммерческих лицензий.
🔓 Преимущества публичных данных для молодых ученых 0:22
Для аспирантов и PhD-студентов публичные данные являются критически важным ресурсом из-за ограниченности их бюджетов и необходимости быстрого старта проектов. По мнению Маджори, использование открытых источников позволяет избежать многомесячных переговоров по контрактам и ожидания финансирования от университетов.
Ключевые преимущества работы с публичными микроданными:
- Скорость: Возможность мгновенно проверить гипотезу и увидеть, есть ли в данных потенциал для диссертации.
- Доступность: Данные бесплатны и не требуют специальных разрешений на публикацию результатов в сети.
- Образовательный эффект: Преподаватели могут свободно использовать эти данные в учебных задачах и домашних заданиях, чего нельзя делать с лицензионными коммерческими базами.
📊 Регуляция N-PORT: Новая эра прозрачности 3:36
Главным сдвигом в информационной среде США стало введение отчетности по форме N-PORT. Согласно этому регламенту, компании по управлению инвестициями обязаны ежеквартально раскрывать свои активы правительству США. Эти данные публикуются на портале data.gov и доступны через API.
Характеристики данных N-PORT:
- Объект наблюдения: Исключительно взаимные фонды (mutual funds). Хедж-фонды и другие типы инвесторов в эти отчеты не попадают.
- Детализация: Полный отчет о портфеле, включая стоимость позиций и валюту.
- Идентификаторы: Набор включает коды ISIN и CUSIP. Маджори подчеркивает, что CUSIP являются коммерческими идентификаторами, и их наличие в бесплатном доступе — «большая удача», так как это позволяет связывать N-PORT с другими университетскими или коммерческими базами данных.
- Дополнительные метаданные: Информация о стране, сроках погашения (maturity) и типах эмитентов (LEI) уже встроена в пакет.
По мнению профессора, десять лет назад сбор такой информации требовал колоссальных усилий, в то время как сейчас она предоставляется «в чистом и упакованном виде».
⚖️ Верификация: Сравнение с макроданными и коммерческим сектором 9:40
Любые микроданные требуют проверки на репрезентативность. Маджори и его команда (включая Бруно Канавани из Колумбийского университета и Джесси Шрегера) провели бенчмаркинг N-PORT против агрегированных показателей системы национальных счетов США — Flow of Funds.
Результаты сопоставления:
- Общее соответствие: Данные по акциям и долговым обязательствам совпадают практически идеально.
- Расхождения в гособлигациях: Маджори отметил, что в категории Treasuries данные N-PORT оказываются выше, чем показатели Flow of Funds.
- Причина расхождений: Спикер утверждает, что макроданные (Flow of Funds) в США не являются «золотым стандартом», так как часто строятся на опросах и вменениях (imputations), а не на прямом административном учете.
Для сравнения, в Евросоюзе после долгового кризиса была создана гораздо более точная система административного учета каждой ценной бумаги, находящейся в собственности резидентов ЕС. США в этом плане пока отстают, не имея единого реестра внутренних владений.
🧩 Технические сложности и идентификаторы 18:06
При переходе от агрегированных показателей к более детальным срезам возникают две основные проблемы: определения и шум. Например, классификация корпоративных облигаций и ценных бумаг, обеспеченных активами (ABS), может различаться в разных базах данных.
Спикер выделил специфику идентификации эмитентов через CUSIP:
- CUSIP9: Девятизначный код, где последняя цифра — контрольная сумма, а две предыдущие идентифицируют конкретную бумагу.
- CUSIP6: Первые шесть цифр идентифицируют эмитента. Однако крупные компании, выпускающие слишком много бумаг, часто исчерпывают лимит кодов и получают новые шестизначные идентификаторы.
Агрегация данных требует тщательной работы по связыванию этих кодов, чтобы понимать, что разные бумаги принадлежат одному и тому же юридическому лицу.
📉 «Терра инкогнита» производных финансовых инструментов 28:24
Ситуация с деривативами в публичных данных остается сложной. По словам Маджори, адекватная оценка экспозиции (exposure) через производные инструменты практически невозможна на основе текущих отчетов.
Проблема заключается в способе отчетности:
- Фонды часто указывают номинальную стоимость (notional amount), которая не отражает реальный риск.
- Для понимания позиции экономисту нужно знать коэффициент дельта ($\Delta$) — показатель того, как быстро меняется стоимость дериватива при движении базового актива.
- Для опциона $\Delta$ может варьироваться от почти нуля до единицы в зависимости от того, насколько цена «вне денег» или «в деньгах».
В данных N-PORT информация о страйках, сроках и объемах для сложных деривативов часто отсутствует или представлена противоречиво. Однако для валютных свопов и форвардов ситуация обстоит лучше, и на их основе уже пишутся качественные работы.
🏠 Практическое применение: Домашнее смещение и валютный эффект 32:34
Для демонстрации возможностей N-PORT команда проекта воспроизвела классические экономические исследования на новых данных. Были проверены гипотезы о home bias (предпочтение инвесторами бумаг своей страны) и валютном влиянии.
Основные выводы репликации:
- Home Bias: Даже спустя 20 лет после классических работ Френча и Потербы, эффект «домашнего смещения» остается мощнейшим фактором в данных.
- Валютный фактор: Инвесторы склонны держать бумаги, номинированные в их национальной валюте. При совместном анализе коэффициент «домашнего смещения» снижается, а валютный коэффициент остается стабильно высоким.
🛠 Открытый код как общественное благо 7:16
Stanford GCAP Lab позиционирует свою работу как создание «общественного блага». В рамках летней школы они подготовили GitHub-репозиторий, который содержит не только ссылки на данные, но и код для их очистки (cleaning codes).
Цель проекта — создать готовую базу данных, которую можно загрузить напрямую в Stata или другие статистические пакеты. Маджори призвал сообщество использовать этот открытый код и сообщать об обнаруженных ошибках или «двойном счете» (double counting), превращая проект в коллективную разработку.