Глубокое обучение в экономике: кастомные модели против коммерческого ИИ

Мелисса Делл, профессор экономики и исследователь из Стэнфордского университета, представила детальный разбор применения методов глубокого обучения (Deep Learning) для работы с неструктурированными данными в экономике. Проект охватывает методологию перевода текстов, изображений и аудио в векторный формат, пригодный для традиционного эконометрического анализа. В материале рассматриваются созданные автором программные пакеты и практические кейсы — от дедупликации векового архива американских газет до высокоточного распознавания редких азиатских языков и развенчания устоявшихся исторических мифов.

🧠 Глубокое обучение как инструмент сжатия данных 0:10

Экономические исследования все чаще сталкиваются с необходимостью обработки колоссальных массивов неструктурированной информации: архивных документов, спутниковых снимков, аудиозаписей и медиатекстов. По определению Мелиссы Делл, неструктурированные данные характеризуются слишком высокой размерностью, сложностью и плохой интерпретируемостью для того, чтобы внедрять их напрямую в регрессионный анализ. Задача глубокого обучения — построить математическое отображение (mapping) этих сложных объектов в непрерывное векторное пространство низкой размерности (например, до 512 измерений), с которым классические алгоритмы работают максимально эффективно.

По мнению докладчицы, нейросети в широком смысле можно воспринимать как передовую технологию сжатия информации. В качестве примера приводится коммерческая языковая модель GPT-4, которая способна сжать триллионы текстовых токенов из интернета в 176 миллиардов параметров своего кода. Мелисса Делл признает, что при таком сжатии неизбежна потеря части информации, однако ключевой вопрос для исследователя заключается в том, критична ли эта потеря для конкретной научной задачи. При необходимости модель всегда можно дообучить на собственных данных, чтобы настроить параметры на извлечение строго определенных признаков.

⚡ Три столпа силы нейросетей: трансферное обучение, контекст и масштабируемость 6:15

В ходе лекции спикер выделила три главные причины, почему глубокие нейросети произвели революцию в обработке неструктурированных данных:

Трансферное обучение (Transfer Learning). Современные языковые модели в процессе предварительного обучения обрабатывают триллионы токенов текста. Исследователю не нужно обучать модель языку с нуля; он может взять готовую архитектуру, в создание которой были инвестированы миллионы долларов, и адаптировать её под свою узкую задачу.
Учет контекста. Модели на базе архитектуры трансформеров (Transformer) кардинально превосходят старые подходы компьютерной лингвистики вроде «мешка слов» (bag of words). В устаревших методах каждое слово кодировалось независимо, без оглядки на окружение. Трансформеры же способны динамически менять векторное представление пикселя или слова в зависимости от того контекста, в котором они находятся.
Беспрецедентная масштабируемость. Перевод данных в непрерывные векторы открывает доступ к сверхоптимизированным вычислительным библиотекам. Мелисса Делл поделилась примером из собственной практики: использование открытой библиотеки FAISS (Facebook AI Similarity Search) от Meta AI позволило её команде выполнить 10 в 14-й степени точных вычислений векторного сходства всего за несколько часов на одной видеокарте среднего уровня, купленной еще в 2020 году.

Отвечая на вопрос модератора о возможном конфликте между предсказательной силой нейросетей и экономической теорией, Мелисса Делл подчеркнула, что не призывает отказываться от теории. Существует очевидное методологическое напряжение: с одной стороны, исследователь получает модель с идеальной точностью прогноза, но с другой — она представляет собой «черный ящик», внутренние механизмы которого непонятны. Нахождение баланса в этой сфере, по словам гостьи, остается большим открытым вопросом, который сейчас активно обсуждается в научной литературе, включая готовящиеся публикации в Journal of Economic Literature (JEL). Дополнительным преимуществом современной ИТ-инфраструктуры является доступность облачных вычислений: спикер отметила, что сегодня можно арендовать 1000 дешевых процессоров в облаке Azure на весь день всего за 100 долларов или даже меньше.

📊 Три типа задач при работе с неструктурированными данными 17:19

В эконометрическом контексте Мелисса Делл разделяет задачи прогнозирования на основе неструктурированных данных на три концептуальные группы:

Регрессия (в терминах машинного обучения). Прогнозирование непрерывного числового значения. Пример из доклада: определение точных географических координат уличных торговцев на спутниковых снимках для оценки локальной экономической активности.
Классификация. Присвоение объекту предопределенного дискретного класса (или нескольких классов в задачах multi-label). Например, автоматический анализ 50 миллионов газетных статей с целью определить, идет ли в них речь о неопределенности экономической политики (значения 0 или 1). По мнению Мелиссы Делл, генеративный ИИ на фундаментальном уровне тоже выполняет задачу классификации, рассчитывая векторные вероятности для предсказания каждого следующего слова в тексте.
Выявление скрытых связей (эмбеддинги). Ситуации, когда классы или темы не заданы исследователем заранее (ex ante), и требуется изучить внутреннюю структуру массива данных.

При выборе инструмента классификации Мелисса Делл предлагает руководствоваться четким алгоритмом. Если классы неизвестны заранее или их количество измеряется сотнями тысяч (что делает вычисление классификационного слоя невозможным), традиционные классификаторы использовать нельзя — необходимо работать напрямую с векторами-эмбеддингами. Если же классы фиксированы и их немного, выбор между использованием готового генеративного ИИ (GPT, Gemini, Claude) и обучением собственной модели зависит от специфики данных. Для стандартных текстов из интернета коммерческий ИИ подходит отлично, но для специфических исторических доменов (например, документов Испанской империи XVI века) или узкотехнических разграничений потребуется кастомное решение.

🤖 Кастомные классификаторы против Generative AI: битва за точность и воспроизводимость 21:40

Команда Мелиссы Делл провела масштабное исследование, сравнив эффективность моделей GPT с собственными кастомными классификаторами на примере 19 различных задач по тематической разметке исторических американских газет. В качестве кастомных решений использовались открытые модели с архитектурой RoBERTa: DistilRoBERTa (80 миллионов параметров) и RoBERTa Large (320 миллионов параметров).

По результатам тестов кастомные модели практически всегда превосходили коммерческий ИИ по точности. GPT отлично справляется с простыми и однозначными категориями: антимонопольное регулирование, гороскопы, спортивные новости, некрологи или вакцинация от полиомиелита. Однако на более размытых темах (например, категория «преступность») или при смене временных эпох коммерческие модели начинают ошибаться. Примечательно, что GPT значительно хуже распознает статьи о Первой мировой войне по сравнению с материалами о войне во Вьетнаме. Профессор объясняет это тем, что в обучающем корпусе интернета информации о Вьетнаме кратно больше, а изменения в английском языке за сто лет создают для LLM дополнительные трудности, незаметные для человека.

Отдельно докладчица выделила критические проблемы, возникающие при использовании коммерческого ИИ в науке:

Ложные срабатывания систем безопасности. При тестировании модели Claude от Anthropic исследователи столкнулись с жесткими ограничениями концепции Constitutional AI. Модель регулярно отказывалась обрабатывать исторические тексты (например, статьи о Первой мировой войне или исторические колонки Гитлера), необоснованно помечая их как «токсичный контент». У моделей OpenAI таких проблем не возникало.
Проблема воспроизводимости результатов (Replication). Коммерческие модели постоянно обновляются, депрецируются и исчезают из облачного доступа. По мнению Мелиссы Делл, это создает серьезные риски для академических стандартов, так как другие ученые не смогут в точности повторить вычисления. Решением может стать компромиссный подход: использовать GPT для разметки пилотной выборки (например, из 1000 примеров), а затем на этих качественных данных обучить собственную открытую модель, которая навсегда останется в распоряжении исследователя.

🔗 Эмбеддинги и контрастивное обучение: как заставить модель понимать суть 42:32

Эмбеддинги представляют собой плотные числовые векторы, генерируемые нейросетью для отображения синтаксиса, семантики и тематики текста. Мелисса Делл категорически не рекомендует использовать эмбеддинги базовых моделей (BERT, RoBERTa, GPT) «из коробки». Они обладают свойством анизотропии — создаваемое ими векторное пространство не является выпуклым и содержит системные «пустоты». Без специальной настройки модель может группировать тексты по схожести синтаксической структуры, игнорируя тот факт, что исследователю важна именно экономическая тематика.

Для решения этой проблемы применяется метод контрастивного обучения (Contrastive Learning). Модель обучается на парах данных таким образом, чтобы объекты одного класса прижимались в векторном пространстве друг к другу, а объекты разных классов — отдалялись за пределы установленного порога.

Эффективность этого подхода была протестирована на открытом датасете Comparative Agendas, содержащем тематические теги для законодательных актов и законопроектов Конгресса США. Исследователи замерили косинусное сходство (cosine similarity) векторов:

При использовании стандартной популярной модели Sentence BERT (SBERT) или базовых эмбеддингов OpenAI распределения «внутри одной темы» и «между разными темами» критически пересекались. Выделить чистые кластеры было невозможно.
После контрастивного дообучения всего на нескольких сотнях или тысячах пар векторов было достигнуто четкое разделение распределений.

Спикер указывает на высокую выборочную эффективность (sample efficiency) контрастивного обучения — методу требуется на порядок меньше размеченных примеров для качественной настройки по сравнению с тяжелыми классификационными архитектурами.

📰 Практические кейсы в экономике: от датасета Newswire до дедупликации новостей 51:51

Использование контрастивно обученных моделей позволило команде Стэнфорда реализовать несколько крупных исследовательских проектов:

Создание датасета Newswire. Ученые обработали 138 миллионов фронтальных страниц американских местных газет за 100-летний период. Исторически около половины контента в таких изданиях копировалось из центральных телеграфных агентств, в первую очередь — Associated Press. Однако локальные редакторы сокращали тексты под формат страницы, а процессы сканирования добавили массу ошибок оптического распознавания (OCR). Кастомная модель на базе SBIRT в связке с алгоритмом односвязной кластеризации (single linkage clustering) и методами обнаружения сообществ (community detection) позволила эффективно дедуплицировать этот гигантский массив. В итоге было выделено 99,4 миллиона уникальных статей, из которых 2,8 миллиона публиковались более четырех раз. Весь датасет выложен в открытый доступ на платформе Hugging Face.
База парных заголовков. Поскольку центральные новостные ленты поставляли статьи без заголовков, местные редакторы придумывали их самостоятельно. Это позволило собрать уникальный массив альтернативных заголовков к одним и тем же текстам, ярко отражающий разницу в локальной политической повестке и интерпретации событий. Датасет также опубликован на Hugging Face и активно используется в ML-сообществе для обучения моделей семантического сходства.
Определение главных сюжетов года. Чтобы понять, какие темы волновали общество в конкретный год (без предвзятости ex ante), модель обучили на данных современного агрегатора All Sides, который собирает пулы статей из разных источников (Fox, NYT, CNN) вокруг одного инфоповода. Обученную модель применили к проекту American Stories (20 миллионов оцифрованных страниц из коллекции Chronicling America). Анализ показал, что подавляющее большинство главных новостей прошлого было связано с экономическими и трудовыми конфликтами (забастовками). Встречались и курьезы: главным сюжетом 1909 года стала медийная битва между двумя полярниками, оспаривавшими первенство в достижении Северного полюса.

Спикер также упомянула исследование, в котором из исторических текстов маскировались все имена собственные, после чего эмбеддинги сопоставлялись с современными новостями. Выяснилось, что в 1950-х годах общество испытывало точно такой же технологический оптимизм, будучи уверенным, что полноценный искусственный интеллект будет создан к 1965 году. А студенческие протесты сегодняшнего дня в точности повторяют риторику Беркли 1960-х, когда Ричард Никсон предлагал полностью лишить университет федерального финансирования науки в наказание за митинги.

🖼️ Визуальный анализ и развенчание исторических мифов: кейс «напалмовой девочки» 1:05:07

Аналогичный подход с обучением на синтетически зашумленных и обрезанных кадрах был применен к анализу исторических изображений, что позволило выявлять самые тиражируемые снимки разных лет. Проверка на базовый здравый смысл (sanity check) показала, что главным кадром 1969 года была высадка человека на Луну. В 1970 году лидировал драматический снимок из зала суда, где подсудимый смог пронести оружие и захватить заложников. Гендерный анализ прессы тех лет выявил тотальное доминирование мужчин: студентка, занимавшаяся разметкой данных, за весь день нашла лишь одно фото женщины, причем в подписи к нему был указан объем её талии.

Серьезная эконометрическая часть исследования коснулась так называемых «изображений, изменивших историю». В центре внимания оказалась знаменитая фотография «Напалмовая девочка» (дети, бегущие от бомбардировки во Вьетнаме) и кадр публичной казни партизана офицером в Сайгоне. В историографии принято считать, что именно эти кадры перевернули сознание американцев и вынудили власти завершить войну.

Однако тотальный сбор данных по всем газетам США выявил иную картину:

Фотография «напалмовой девочки» в реальности публиковалась крайне скудно. Большинство региональных редакторов отказались ставить её на первые полосы из-за фронтальной обнаженности ребенка, и снимок шел «ниже сгиба» (below the fold).
Анализ аномальной доходности (abnormal stock returns) акций военных подрядчиков США не показал никакой статистически значимой реакции инвесторов на публикацию этих исторических кадров. Зафиксирован лишь краткосрочный минимальный спад акций компании Dow Chemical, производившей напалм.
Взрывной рост упоминаний этой фотографии в американском дискурсе начался только в 1990-х годах, когда выросшая героиня снимка основала публичный благотворительный фонд.

По мнению Мелиссы Делл, этот кейс доказывает, что человечество склонно фильтровать past через призму настоящего. Только прямой масштабный анализ прессы тех лет позволяет увидеть историю в её подлинном контексте, который часто радикально расходится с нашей коллективной памятью.

🏢 Пакет Link Transformer и революция в связывании записей (Record Linkage) 1:08:14

Одной из ключевых болей экономистов перед началом любого анализа является связывание разнородных баз данных (например, мэтчинг американских цензов 1930 и 1940 годов или объединение реестров фирм). Традиционно для этого используется строковое сходство (string similarity), которое абсолютно бессильно перед семантическими различиями. Строковые алгоритмы не понимают, что "Co." и "Corporation" — это одно и то же, так как это совершенно разные наборы букв.

Для решения этой проблемы Мелисса Делл совместно со своим студентом Абхишеком Аророй разработала специализированную Python-библиотеку Link Transformer. Этот инструмент использует предобученные трансформеры для перевода названий компаний, продуктов или имен в векторы, после чего мэтчинг происходит на основе векторных расстояний, учитывающих семантику.

Возможности пакета Link Transformer включают в себя:

Стандартное слияние баз данных и слияние с блокировкой (blocking) по нескольким ключам.
Агрегацию сырых наименований товаров в официальные отраслевые классификаторы.
Мультиязыковое связывание записей. Используя мультиязычные LLM, пакет позволяет напрямую связывать названия продуктов на разных языках без промежуточного этапа перевода, что ранее считалось нерешаемой задачей для строковых методов.

Разработчики выложили в хаб Hugging Face кастомные модели для шести языков, оптимизированные под реестры фирм и товарные номенклатуры. Мелисса Делл отметила, что пакет помог спасти её собственный исторический проект по изучению импортозамещающей индустриализации: ученым требовалось связать ежемесячные таможенные тарифные сетки, где названия товаров постоянно менялись вручную и не имели стандартизированных кодов. Модель Link Transformer обеспечила высочайшую точность мэтчинга исключительно по текстовым описаниям. При этом архитектура пакета написана так, чтобы быть интуитивно понятной исследователям, привыкшим к синтаксису R или Stata.

📐 Мультимодальный подход и кастомный OCR для сложных языков 1:15:00

Иногда текстовой семантики оказывается недостаточно, и на помощь приходит компьютерное зрение. Команда Мелиссы Делл разработала мультимодальную модель Clippings для связывания японских фирм в исторических архивах после Второй мировой войны. Сложность заключалась в том, что часть документов была напечатана вертикально, часть — горизонтально, а стандартный OCR допускал критические ошибки в иероглифах. Сочетание визуального анализа начертания знаков и языковой семантики дало практически идеальный результат мэтчинга, в то время как использование этих модальностей по отдельности проваливалось. С помощью глубокого обучения экономисты смогли восстановить структуру транзакционных сетей 1957 года и доказать, что антимонопольная политика США по принудительному дроблению японских дзайбацу провалилась — целевые холдинги все равно остались центральными узлами японской экономики.

Второй крупный технологический прорыв лекторов — переосмысление систем оптического распознавания символов (OCR). Традиционная архитектура OCR (sequence-to-sequence) объединяет зрение и язык, требуя для обучения миллионы документов; при этом лучшая коммерческая система от Baidu ошибалась более чем в половине иероглифов на сложных японских архивных страницах. Мелисса Делл предложила революционный обходной путь: относиться к OCR как к задаче эмбеддингов.

Каждый символ на странице вырезается и кодируется чистой визуальной моделью.
Полученный вектор сопоставляется с векторной базой данных идеальных цифровых шрифтов.
Модель просто ищет ближайшего «соседа» в векторном пространстве.

Такой подход показал невероятную sample-эффективность, обойдя тяжелую модель от Microsoft, обученную на 670 миллионах изображений. Кастомный OCR-пакет команды Мелиссы Делл находится в открытом доступе и позволяет исследователям с помощью одного блокнота Jupyter дообучить распознавание, например, древнегреческого языка, демонстрируя результаты лучше, чем Google Cloud Vision. Если для стандартной машинописи на английском языке Мелисса Делл советует без раздумий использовать коммерческий GPT, совершивший колоссальный рывок за последние полгода, то для нестандартных задач, рукописей и редких языков её кастомная embedding-архитектура остается незаменимой.

В финале первой части лекции спикер упомянула пакет Layout Parser, созданный ею в соавторстве с Джейком Карлсоном для анализа макетов страниц. Коммерческие системы вроде Google Cloud Vision часто воспринимают многоколоночные исторические газеты как сплошную одноколоночную книгу, полностью перемешивая текст при выгрузке. Layout Parser позволяет силами обычных студентов разметить всего несколько сотен страниц и обучить модель безошибочно разделять заголовки, подписи к фото и колонки, сохраняя правильную структуру документов для будущих поколений исследователей. Все ресурсы и примеры кода агрегированы на специализированном сайте Econ DL.