Ча Чжан рассказал о применении глубокого обучения в OCR

Технологии оптического распознавания символов (OCR) долгое время считались решенной задачей, однако лавинообразный рост мобильного контента и необходимость извлечения данных «в дикой природе» заставили инженеров полностью перестроить привычные архитектуры. В новом выпуске подкаста The TWIML AI Podcast ведущий Сэм Чаррингтон беседует с партнером-менеджером по инженерии в Microsoft Cloud and AI Ча Чжаном (Cha Zhang). Эксперт подробно рассказывает, как интеграция глубокого обучения, безанкерных подходов и пространственных языковых моделей позволила совершить качественный скачок от простого сканирования документов к интеллектуальному анализу сложных бизнес-форм.

👤 Путь в компьютерное зрение и смена парадигмы OCR 1:12

Ча Чжан посвятил работе в корпорации Microsoft 16 лет, из которых первые 12 лет он провел в качестве исследователя в подразделении Microsoft Research. Его ключевая научная деятельность была сосредоточена на применении алгоритмов машинного обучения к обработке изображений, аудио и видеоматериалов. В 2016 году он перешел на продуктовую сторону компании, где в настоящее время возглавляет команду инженеров, специализирующихся на OCR и глубоком понимании документов (document understanding).

По воспоминаниям эксперта, еще относительно недавно классическое распознавание символов ассоциировалось исключительно со сканированием бумажных документов, где текст располагался на идеальном белом фоне. В этой плоскости задача казалась индустрии практически решенной. Однако лавинообразное распространение мобильных телефонов сформировало совершенно новый рынок и новые требования: пользователям потребовалось распознавать надписи на фотографиях, сделанных в реальном мире. Этот вызов Ча Чжан называет сценарием «изображений в дикой природе» (images in the wild). Именно интеграция глубокого обучения в начале 2010-х годов позволила поднять точность систем OCR на принципиально новый уровень, сделав технологию повсеместно применимой и надежной.

🔍 Сложности распознавания «в дикой природе» и метрика IoU 4:12

Переход от сканов к мобильной съемке обнажил множество фундаментальных проблем компьютерного зрения. В отличие от стандартного контрастного листа бумаги, фотографии из реального мира содержат колоссальное количество искажений.

Ча Чжан выделяет следующие ключевые препятствия для алгоритмов:

Масштабируемость надписей: на одном снимке городской улицы огромная вывеска магазина может соседствовать с едва различимым мелким шрифтом.
Экстремальные пропорции: текстовые строки обладают вытянутым соотношением сторон, что сильно отличает их от стандартных объектов детекции вроде кошек или собак.
Геометрические искажения: из-за мобильной съемки на ходу объекты практически никогда не вписываются в идеальные прямоугольники, выровненные по осям, страдая от перспективных искажений.
Визуальные шумы фона: такие привычные городские текстуры, как заборы, кирпичная кладка или полосы, для человеческого глаза тривиальны, но для нейросети они выглядят как бесконечные цепочки единиц или специфических символов.

Главное техническое отличие OCR от классического обнаружения объектов (object detection) заключается в требованиях к точности локализации. В компьютерном зрении стандартное качество измеряется метрикой Intersection over Union (IoU) — отношением площади пересечения ограничивающих рамок к площади их объединения. Для детекции лиц или предметов значение IoU выше 0.5 традиционно считается хорошим результатом.

Однако для распознавания текста, как подчеркивает гость, этого критически мало: алгоритмам требуется точность IoU на уровне 0.9–0.95. Если рамка сдвинется хотя бы наполовину (IoU = 0.5), система неизбежно потеряет крайние символы, например, букву «d» на конце фразы «hello world», что сделает итоговое распознавание ошибочным. На сегодняшний день OCR применяется не только в пользовательских приложениях вроде переводчиков меню, но и выступает неотъемлемым компонентом поисковых систем Google и Bing для точной индексации и выдачи изображений.

🚫 Безанкерная детекция: Отказ от классических подходов Faster R-CNN 12:13

Традиционные алгоритмы обнаружения объектов, такие как Fast R-CNN и Faster R-CNN, опираются на концепцию предустановленных опорных рамок — анкеров. Нейросеть строит сетку анкеров заданной плотности с фиксированным соотношением сторон (например, 1:1, 1:2 или 2:1) и затем регрессирует их границы до контуров объекта. Ча Чжан объясняет, что для задач OCR этот подход неприменим из-за колоссальных вычислительных затрат: пропорции текстовых строк могут достигать соотношения 20:1. Предустановка анкеров под такие параметры перегрузила бы систему.

По этой причине современные OCR-системы перешли на так называемую безанкерную детекцию (anchor-free detection). Используя сверточные нейросети (CNN), алгоритм принимает решения на попиксельном уровне, проводя классификацию «текст/не текст» для каждого региона. После этого в силу вступают механизмы группировки пикселей в полноценные текстовые строки.

В эволюции методов группировки Ча Чжан выделяет два этапа:

Эвристический подход: на ранних этапах использовались жесткие алгоритмы на основе правил, такие как SegaLink, связывающие регионы по предопределенным признакам.
Нейросетевой подход: современные системы задействуют специализированные сети отношений (Relation Networks), которые оценивают степень близости и сходства признаков различных областей (цвет, шрифт, текстура), гибко объединяя их даже в изогнутые линии.

🎙 Пайплайн распознавания: Модели символов и вызовы конфиденциальности 16:02

Архитектура современного OCR представляет собой многоступенчатый пайплайн, а не единую сквозную (end-to-end) нейросеть. После того как безанкерная детекция выделила строки текста, они подвергаются нормализации — выравниванию в прямую линию фиксированной высоты. Только после этого изображение передается в модель символов (character model) для непосредственного декодирования в текстовый формат.

Этот процесс Ча Чжан сравнивает с распознаванием речи (Speech-to-Text). Если в аудиозадачах происходит трансформация акустического сигнала в текст, то в OCR — перевод графических признаков в символы. При этом используются аналогичные математические подходы, включая рекуррентные архитектуры LSTM и языковое моделирование.

На вопрос ведущего о том, почему OCR до сих пор не перешел на полностью сквозное обучение от картинки к тексту, эксперт дает экономическое и юридическое обоснование. По его словам, в речевых технологиях гораздо проще собрать и разметить гигантские массивы данных. Сбор данных для OCR обходится индустрии чрезвычайно дорого.

Более того, ключевым барьером выступает политика конфиденциальности. Документы, представляющие наибольший коммерческий интерес — счета-фактуры (invoices), чеки (receipts), визитные карточки — содержат персональную информацию (PII). Microsoft строго соблюдает стандарты безопасности, что накладывает жесткие ограничения на методы сбора, хранения и ручной разметки подобных документов, делая создание универсальных end-to-end датасетов труднодостижимым. По мнению Ча Чжана, пошаговый пайплайн на данный момент остается наиболее экономически оправданным решением.

🧠 Обучение с нуля против трансферных моделей: Борьба за вычислительную эффективность 22:05

Всплеск инноваций в сфере обработки естественного языка (NLP), ознаменованный появлением моделей семейства BERT и GPT, во многом опирался на переход к полуавтоматическому обучению (semi-supervised learning) на гигантских текстовых массивах. Однако прямое внедрение таких тяжеловесных архитектур в OCR сталкивается с жесткими инфраструктурными ограничениями. В коммерческих продуктах OCR критически важна скорость работы и низкая стоимость вычислений, поэтому развертывание моделей с миллиардами параметров нецелесообразно.

Ча Чжан делится историей технологической эволюции инженерии в Microsoft:

Эра дистилляции: на заре внедрения глубокого обучения в OCR команда полагалась на метод «учитель-ученик» (teacher-student learning). Сначала обучалась огромная, тяжелая нейросеть, а затем ее знания постепенно дистиллировались в компактную модель для эффективного продакшн-рантайма.
Эра обучения с нуля: сегодня инженеры научились обучать легковесные модели с нуля (from scratch). Объем накопленных специализированных данных Microsoft, измеряемый сотнями тысяч и миллионами изображений, позволяет достигать целевой точности без громоздкого этапа дистилляции.

Эксперт отмечает, что в отличие от классического компьютерного зрения, где трансферное обучение (transfer learning) на базе датасета ImageNet и сетей ResNet является стандартом для малых задач вроде детекции строительных касок, в OCR ситуация иная. Когда объем проприетарных данных компании достигает критической массы, необходимость в переносе знаний от сторонних предобученных моделей практически исчезает — обучение с нуля дает сопоставимые или превосходящие результаты.

📄 Форм-распознавание и LayoutLM: Анализ полуструктурированных документов 28:42

Конечным клиентам бизнеса зачастую нужен не просто плоский массив распознанного текста, а структурированные данные. Примером такой интеграции служит мобильная версия Microsoft Excel, способная по фотографии таблицы автоматически выстроить электронную сетку. Для решения более комплексных задач автоматизации Microsoft развивает продукт Form Recognizer (в настоящее время известный как Azure AI Document Intelligence).

Долгое время компании обрабатывали входящие чеки и счета вручную. Из-за колоссальной трудоемкости организации могли позволить себе лишь выборочную проверку около 5% документов, полностью упуская из виду потенциальные ошибки или мошенничество в остальных 95%. Продукты распознавания форм делятся на готовые коробочные решения (pre-built) для типовых документов (чеки, визитки) и кастомизированные системы (custom forms).

Главный вызов при анализе форм — потеря порядка чтения (read order). Текст, извлеченный OCR из помятого, повернутого или искаженного счета, теряет свою линейную структуру. Чтобы научить алгоритмы понимать контекст без жестких правил, исследователи из Microsoft Research Asia (MSRA) разработали архитектуру LayoutLM.

По сути, это модифицированная модель BERT, которая помимо семантики слов учитывает их двухмерные пространственные координаты (bounding boxes). Модель проходит этап несвязанного предобучения (unsupervised pre-training) методом маскирования текста. Это позволяет LayoutLM понимать взаимное расположение блоков: например, что название компании часто пишется крупным шрифтом вверху, а итоговая сумма — справа от слова «Total», даже если само поле названия поставщика не имеет явной текстовой метки.

Параллельно развиваются еще два перспективных архитектурных направления:

Графовые сверточные сети (GCN): документ представляется в виде графа, где текстовые строки являются узлами, а ребра отражают пространственную близость. Свертка по графу позволяет агрегировать контекст со всех соседних блоков для принятия финального решения.
Сети отношений на уровне полей: алгоритмы обучаются предсказывать логическую связь между ключевыми парами «ключ-значение» (key-value pairs), автоматически объединяя многострочные адреса или таблицы без привязки к жестким шаблонам.

🧪 Кастомизация на пяти примерах: Низкоресурсное обучение в действии 48:10

Одной из самых притягательных и технически сложных функций Form Recognizer является обучение кастомных моделей на экстремально малой выборке — от 5 документов (low-shot learning). Бизнес-клиенты категорически не хотят размечать сотни документов вручную, поэтому инженеры Microsoft реализовали два сценария работы:

Неконтролируемый (unsupervised): клиент просто загружает 5 похожих документов (например, счета от одного поставщика). Алгоритм сравнивает их между собой и вычисляет статические элементы текста, которые повторяются неизменно — это шаблон формы. Меняющиеся от документа к документу данные изолируются и определяются как целевые значения для извлечения.
Контролируемый (supervised): пользователь через визуальный интерфейс (UX) самостоятельно размечает ключевые поля на этих 5 примерах, подсвечивая нужные строки. Точность работы такой модели на выходе достигает внушительных 90–95%.

Ча Чжан подчеркивает: весь этот процесс происходит в полностью автоматическом режиме на стороне API. В целях соблюдения конфиденциальности ни один сотрудник Microsoft не имеет доступа к загружаемым документам клиентов. Чтобы добиться столь высокой точности всего на 5 примерах без привлечения трансферного обучения, инженеры разработали продвинутый внутренний пайплайн генерации данных. Если пользователь указывает, что конкретное поле является датой, система начинает искусственно генерировать и подставлять синтетические вариации дат в макет, синтезируя масштабный датасет для обучения модели с нуля.

Тем не менее, в отношении критически важных финансовых процессов Ча Чжан сохраняет прагматизм. Эксперт не рекомендует использовать полностью сквозную автоматическую обработку (straight-through processing) без участия человека, если цена ошибки высока. Каждое извлеченное значение сопровождается индексом уверенности (confidence score), и компании могут гибко настраивать порог, при котором документ отправляется на верификацию оператору.

Для оптимизации процессов Microsoft предлагает архитектуру Model Compose. Она позволяет объединить до 10 специализированных кастомных моделей под единым API-эндпоинтом. Интеллектуальный каскад сначала направляет входящий документ на кастомные модели, оценивает их уверенность, и, если документ не соответствует ни одному из уникальных шаблонов, автоматически перенаправляет его на универсальную коробочную модель (pre-built). Такая гибридная схема обеспечивает максимальную гибкость и точность обработки корпоративного контента.