Эконометрика против «черного ящика»: как исправить ошибки нейросетей

Stanford Graduate School of Business 2,6 тыс. 1 ч 31 мин 3 мин 28.08.2025
Главное

Эконометрика и машинное обучение: как бороться с ошибками нейросетей 📉 0:09

В эпоху больших данных экономисты всё чаще прибегают к использованию неструктурированной информации — от газетных статей до спутниковых снимков. Однако, как отмечает спикер, нейронные сети, извлекающие из этих данных структурированные признаки, не являются источником абсолютной истины. Даже лучшие модели совершают ошибки, которые зачастую носят систематический характер, что может исказить результаты любых экономических исследований. В этом выступлении представлена концептуальная основа MARS (Missing at Random Structured Data), призванная объединить современные методы глубокого обучения с проверенными десятилетиями инструментами классической эконометрики для обеспечения достоверности и точности оценок.

🤖 Проблема «черного ящика» и предвзятость нейросетей 5:29

Нейронные сети, ставшие стандартом де-факто для извлечения данных, не гарантируют отсутствие предвзятости в конечных выборках. Проблема усугубляется тем, что ошибки моделей не являются «классическими» в статистическом смысле.

Основные причины систематических искажений:

Спикер подчеркивает: любые искажения на первом этапе извлечения данных «распространяются» (propagate) на финальные оценки, существенно влияя как на точечные значения, так и на оценку неопределенности. Если игнорировать этот факт, исследователь может получить чрезмерно уверенные, но неверные выводы.

🧪 Фреймворк MARS: новый взгляд на старые проблемы 12:26

Методология MARS переформулирует задачу извлечения данных как проблему «отсутствующих данных» (missing data problem), основываясь на классических механизмах Рубина.

Главные компоненты подхода:

  1. Принцип «принятия позиции» (Ground Truth): Исследователь должен создать проверочную выборку, где он готов взять на себя ответственность за определение «истины». Это не «истина в последней инстанции», а четкая, воспроизводимая процедура измерения, которую можно критиковать и обсуждать.
  2. Representative Validation Sample: Проверочная выборка должна быть репрезентативной и отделенной от обучающей. Она используется исключительно для калибровки и исправления ошибок (debiasing).
  3. Принцип «сильного перекрытия» (Strong Overlap): Вероятность того, что наблюдение попадет в размеченную выборку, должна быть известна и ограничена (не равна 0 или 1). Это позволяет статистически скорректировать смещение.

⚖️ Эффективность и робастность оценок 31:21

В отличие от многих современных работ по ИИ, которые игнорируют вопрос статистической эффективности, данный подход использует полупараметрический метод для достижения максимально возможной точности оценок.

📰 Реальный кейс: Индекс экономической неопределенности 1:20:10

Для демонстрации работоспособности фреймворка спикер проанализировал известный индекс EPU (Economic Policy Uncertainty). Сравнение классического метода (поиск по ключевым словам) и современного подхода (Longformer + MARS) показало, что стандартные ошибки при учете генерации данных существенно выше.

Однако попытка «исправить» результаты других исследователей показала интересную деталь: часто ошибки разных типов (систематическое занижение и классический шум) могут частично компенсировать друг друга. Тем не менее, полагаться на такое «совпадение» в научных работах опасно, так как в других сценариях искажения могут приводить к совершенно иным выводам.

💬 Цитаты

«Нейронные сети не будут генерировать несмещенные прогнозы в конечных выборках.»

Неизвестный спикер 05:29

«Мы не пытаемся получить истину в каком-то глубоком смысле, но вы готовы взять на себя ответственность.»

Неизвестный спикер 14:23
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
MARS
Missing at Random Structured Data — фреймворк для проведения статистически корректного анализа с использованием данных, извлеченных нейросетями.
Ground Truth
Проверочная выборка с данными, размеченными экспертом, которую исследователь использует как эталон для калибровки модели.
Strong Overlap
Предположение, что вероятность разметки данных не равна нулю или единице для любого наблюдения, что позволяет избежать неисправимых искажений.
📊 Цифры
⚖️ Другая сторона
Экономика и финансы MARS econometrics machine learning deep neural networks