# Эконометрика против «черного ящика»: как исправить ошибки нейросетей

Источник: https://www.youtube.com/watch?v=Yuv3aJDJnMQ
Канал: Stanford Graduate School of Business
Опубликовано: 28.08.2025

---

## Эконометрика и машинное обучение: как бороться с ошибками нейросетей 📉
[[JUMP:0:09]]

В эпоху больших данных экономисты всё чаще прибегают к использованию неструктурированной информации — от газетных статей до спутниковых снимков. Однако, как отмечает спикер, нейронные сети, извлекающие из этих данных структурированные признаки, не являются источником абсолютной истины. Даже лучшие модели совершают ошибки, которые зачастую носят систематический характер, что может исказить результаты любых экономических исследований. В этом выступлении представлена концептуальная основа **MARS** (Missing at Random Structured Data), призванная объединить современные методы глубокого обучения с проверенными десятилетиями инструментами классической эконометрики для обеспечения достоверности и точности оценок.

### 🤖 Проблема «черного ящика» и предвзятость нейросетей
[[JUMP:5:29]]

Нейронные сети, ставшие стандартом де-факто для извлечения данных, не гарантируют отсутствие предвзятости в конечных выборках. Проблема усугубляется тем, что ошибки моделей не являются «классическими» в статистическом смысле.

Основные причины систематических искажений:

*   **Архитектурные выборы:** Выбор архитектуры сети и гиперпараметров напрямую влияет на результат.
*   **Специфика данных:** Распределение обучающей выборки часто не совпадает с реальными данными.
*   **Нелинейность:** Сложные нелинейные трансформации на каждом слое нейросети нарушают предположения, необходимые для классической теории измерения ошибок.

Спикер подчеркивает: любые искажения на первом этапе извлечения данных «распространяются» (propagate) на финальные оценки, существенно влияя как на точечные значения, так и на оценку неопределенности. Если игнорировать этот факт, исследователь может получить чрезмерно уверенные, но неверные выводы.

### 🧪 Фреймворк MARS: новый взгляд на старые проблемы
[[JUMP:12:26]]

Методология MARS переформулирует задачу извлечения данных как проблему **«отсутствующих данных»** (missing data problem), основываясь на классических механизмах Рубина.

Главные компоненты подхода:

1.  **Принцип «принятия позиции» (Ground Truth):** Исследователь должен создать проверочную выборку, где он готов взять на себя ответственность за определение «истины». Это не «истина в последней инстанции», а четкая, воспроизводимая процедура измерения, которую можно критиковать и обсуждать.
2.  **Representative Validation Sample:** Проверочная выборка должна быть репрезентативной и отделенной от обучающей. Она используется исключительно для калибровки и исправления ошибок (debiasing).
3.  **Принцип «сильного перекрытия» (Strong Overlap):** Вероятность того, что наблюдение попадет в размеченную выборку, должна быть известна и ограничена (не равна 0 или 1). Это позволяет статистически скорректировать смещение.

### ⚖️ Эффективность и робастность оценок
[[JUMP:31:21]]

В отличие от многих современных работ по ИИ, которые игнорируют вопрос статистической эффективности, данный подход использует полупараметрический метод для достижения максимально возможной точности оценок.

*   **Эффективность:** Достигается путем учета не только неструктурированных данных, но и дополнительных контекстных переменных, помогающих уточнить прогноз.
*   **Робастность:** Метод обеспечивает «слабую двойную робастность». Это означает, что даже при наличии значительного смещения в работе самой нейросети (которая рассматривается как «черный ящик»), исследователь может получить несмещенные оценки, используя проверочную выборку для корректировки.

### 📰 Реальный кейс: Индекс экономической неопределенности
[[JUMP:1:20:10]]

Для демонстрации работоспособности фреймворка спикер проанализировал известный индекс EPU (Economic Policy Uncertainty). Сравнение классического метода (поиск по ключевым словам) и современного подхода (Longformer + MARS) показало, что стандартные ошибки при учете генерации данных существенно выше. 

Однако попытка «исправить» результаты других исследователей показала интересную деталь: часто ошибки разных типов (систематическое занижение и классический шум) могут частично компенсировать друг друга. Тем не менее, полагаться на такое «совпадение» в научных работах опасно, так как в других сценариях искажения могут приводить к совершенно иным выводам.