Ча Чжан рассказал о применении глубокого обучения в OCR

The TWIML AI Podcast 1,8 тыс. 1 ч 2 мин 9 мин 11.11.2020
Главное

Технологии оптического распознавания символов (OCR) долгое время считались решенной задачей, однако лавинообразный рост мобильного контента и необходимость извлечения данных «в дикой природе» заставили инженеров полностью перестроить привычные архитектуры. В новом выпуске подкаста The TWIML AI Podcast ведущий Сэм Чаррингтон беседует с партнером-менеджером по инженерии в Microsoft Cloud and AI Ча Чжаном (Cha Zhang). Эксперт подробно рассказывает, как интеграция глубокого обучения, безанкерных подходов и пространственных языковых моделей позволила совершить качественный скачок от простого сканирования документов к интеллектуальному анализу сложных бизнес-форм.

👤 Путь в компьютерное зрение и смена парадигмы OCR 1:12

Ча Чжан посвятил работе в корпорации Microsoft 16 лет, из которых первые 12 лет он провел в качестве исследователя в подразделении Microsoft Research. Его ключевая научная деятельность была сосредоточена на применении алгоритмов машинного обучения к обработке изображений, аудио и видеоматериалов. В 2016 году он перешел на продуктовую сторону компании, где в настоящее время возглавляет команду инженеров, специализирующихся на OCR и глубоком понимании документов (document understanding).

По воспоминаниям эксперта, еще относительно недавно классическое распознавание символов ассоциировалось исключительно со сканированием бумажных документов, где текст располагался на идеальном белом фоне. В этой плоскости задача казалась индустрии практически решенной. Однако лавинообразное распространение мобильных телефонов сформировало совершенно новый рынок и новые требования: пользователям потребовалось распознавать надписи на фотографиях, сделанных в реальном мире. Этот вызов Ча Чжан называет сценарием «изображений в дикой природе» (images in the wild). Именно интеграция глубокого обучения в начале 2010-х годов позволила поднять точность систем OCR на принципиально новый уровень, сделав технологию повсеместно применимой и надежной.


🔍 Сложности распознавания «в дикой природе» и метрика IoU 4:12

Переход от сканов к мобильной съемке обнажил множество фундаментальных проблем компьютерного зрения. В отличие от стандартного контрастного листа бумаги, фотографии из реального мира содержат колоссальное количество искажений.

Ча Чжан выделяет следующие ключевые препятствия для алгоритмов:

Главное техническое отличие OCR от классического обнаружения объектов (object detection) заключается в требованиях к точности локализации. В компьютерном зрении стандартное качество измеряется метрикой Intersection over Union (IoU) — отношением площади пересечения ограничивающих рамок к площади их объединения. Для детекции лиц или предметов значение IoU выше 0.5 традиционно считается хорошим результатом.

Однако для распознавания текста, как подчеркивает гость, этого критически мало: алгоритмам требуется точность IoU на уровне 0.9–0.95. Если рамка сдвинется хотя бы наполовину (IoU = 0.5), система неизбежно потеряет крайние символы, например, букву «d» на конце фразы «hello world», что сделает итоговое распознавание ошибочным. На сегодняшний день OCR применяется не только в пользовательских приложениях вроде переводчиков меню, но и выступает неотъемлемым компонентом поисковых систем Google и Bing для точной индексации и выдачи изображений.


🚫 Безанкерная детекция: Отказ от классических подходов Faster R-CNN 12:13

Традиционные алгоритмы обнаружения объектов, такие как Fast R-CNN и Faster R-CNN, опираются на концепцию предустановленных опорных рамок — анкеров. Нейросеть строит сетку анкеров заданной плотности с фиксированным соотношением сторон (например, 1:1, 1:2 или 2:1) и затем регрессирует их границы до контуров объекта. Ча Чжан объясняет, что для задач OCR этот подход неприменим из-за колоссальных вычислительных затрат: пропорции текстовых строк могут достигать соотношения 20:1. Предустановка анкеров под такие параметры перегрузила бы систему.

По этой причине современные OCR-системы перешли на так называемую безанкерную детекцию (anchor-free detection). Используя сверточные нейросети (CNN), алгоритм принимает решения на попиксельном уровне, проводя классификацию «текст/не текст» для каждого региона. После этого в силу вступают механизмы группировки пикселей в полноценные текстовые строки.

В эволюции методов группировки Ча Чжан выделяет два этапа:

  1. Эвристический подход: на ранних этапах использовались жесткие алгоритмы на основе правил, такие как SegaLink, связывающие регионы по предопределенным признакам.
  2. Нейросетевой подход: современные системы задействуют специализированные сети отношений (Relation Networks), которые оценивают степень близости и сходства признаков различных областей (цвет, шрифт, текстура), гибко объединяя их даже в изогнутые линии.

🎙 Пайплайн распознавания: Модели символов и вызовы конфиденциальности 16:02

Архитектура современного OCR представляет собой многоступенчатый пайплайн, а не единую сквозную (end-to-end) нейросеть. После того как безанкерная детекция выделила строки текста, они подвергаются нормализации — выравниванию в прямую линию фиксированной высоты. Только после этого изображение передается в модель символов (character model) для непосредственного декодирования в текстовый формат.

Этот процесс Ча Чжан сравнивает с распознаванием речи (Speech-to-Text). Если в аудиозадачах происходит трансформация акустического сигнала в текст, то в OCR — перевод графических признаков в символы. При этом используются аналогичные математические подходы, включая рекуррентные архитектуры LSTM и языковое моделирование.

На вопрос ведущего о том, почему OCR до сих пор не перешел на полностью сквозное обучение от картинки к тексту, эксперт дает экономическое и юридическое обоснование. По его словам, в речевых технологиях гораздо проще собрать и разметить гигантские массивы данных. Сбор данных для OCR обходится индустрии чрезвычайно дорого.

Более того, ключевым барьером выступает политика конфиденциальности. Документы, представляющие наибольший коммерческий интерес — счета-фактуры (invoices), чеки (receipts), визитные карточки — содержат персональную информацию (PII). Microsoft строго соблюдает стандарты безопасности, что накладывает жесткие ограничения на методы сбора, хранения и ручной разметки подобных документов, делая создание универсальных end-to-end датасетов труднодостижимым. По мнению Ча Чжана, пошаговый пайплайн на данный момент остается наиболее экономически оправданным решением.


🧠 Обучение с нуля против трансферных моделей: Борьба за вычислительную эффективность 22:05

Всплеск инноваций в сфере обработки естественного языка (NLP), ознаменованный появлением моделей семейства BERT и GPT, во многом опирался на переход к полуавтоматическому обучению (semi-supervised learning) на гигантских текстовых массивах. Однако прямое внедрение таких тяжеловесных архитектур в OCR сталкивается с жесткими инфраструктурными ограничениями. В коммерческих продуктах OCR критически важна скорость работы и низкая стоимость вычислений, поэтому развертывание моделей с миллиардами параметров нецелесообразно.

Ча Чжан делится историей технологической эволюции инженерии в Microsoft:

Эксперт отмечает, что в отличие от классического компьютерного зрения, где трансферное обучение (transfer learning) на базе датасета ImageNet и сетей ResNet является стандартом для малых задач вроде детекции строительных касок, в OCR ситуация иная. Когда объем проприетарных данных компании достигает критической массы, необходимость в переносе знаний от сторонних предобученных моделей практически исчезает — обучение с нуля дает сопоставимые или превосходящие результаты.


📄 Форм-распознавание и LayoutLM: Анализ полуструктурированных документов 28:42

Конечным клиентам бизнеса зачастую нужен не просто плоский массив распознанного текста, а структурированные данные. Примером такой интеграции служит мобильная версия Microsoft Excel, способная по фотографии таблицы автоматически выстроить электронную сетку. Для решения более комплексных задач автоматизации Microsoft развивает продукт Form Recognizer (в настоящее время известный как Azure AI Document Intelligence).

Долгое время компании обрабатывали входящие чеки и счета вручную. Из-за колоссальной трудоемкости организации могли позволить себе лишь выборочную проверку около 5% документов, полностью упуская из виду потенциальные ошибки или мошенничество в остальных 95%. Продукты распознавания форм делятся на готовые коробочные решения (pre-built) для типовых документов (чеки, визитки) и кастомизированные системы (custom forms).

Главный вызов при анализе форм — потеря порядка чтения (read order). Текст, извлеченный OCR из помятого, повернутого или искаженного счета, теряет свою линейную структуру. Чтобы научить алгоритмы понимать контекст без жестких правил, исследователи из Microsoft Research Asia (MSRA) разработали архитектуру LayoutLM.

По сути, это модифицированная модель BERT, которая помимо семантики слов учитывает их двухмерные пространственные координаты (bounding boxes). Модель проходит этап несвязанного предобучения (unsupervised pre-training) методом маскирования текста. Это позволяет LayoutLM понимать взаимное расположение блоков: например, что название компании часто пишется крупным шрифтом вверху, а итоговая сумма — справа от слова «Total», даже если само поле названия поставщика не имеет явной текстовой метки.

Параллельно развиваются еще два перспективных архитектурных направления:

  1. Графовые сверточные сети (GCN): документ представляется в виде графа, где текстовые строки являются узлами, а ребра отражают пространственную близость. Свертка по графу позволяет агрегировать контекст со всех соседних блоков для принятия финального решения.
  2. Сети отношений на уровне полей: алгоритмы обучаются предсказывать логическую связь между ключевыми парами «ключ-значение» (key-value pairs), автоматически объединяя многострочные адреса или таблицы без привязки к жестким шаблонам.

🧪 Кастомизация на пяти примерах: Низкоресурсное обучение в действии 48:10

Одной из самых притягательных и технически сложных функций Form Recognizer является обучение кастомных моделей на экстремально малой выборке — от 5 документов (low-shot learning). Бизнес-клиенты категорически не хотят размечать сотни документов вручную, поэтому инженеры Microsoft реализовали два сценария работы:

Ча Чжан подчеркивает: весь этот процесс происходит в полностью автоматическом режиме на стороне API. В целях соблюдения конфиденциальности ни один сотрудник Microsoft не имеет доступа к загружаемым документам клиентов. Чтобы добиться столь высокой точности всего на 5 примерах без привлечения трансферного обучения, инженеры разработали продвинутый внутренний пайплайн генерации данных. Если пользователь указывает, что конкретное поле является датой, система начинает искусственно генерировать и подставлять синтетические вариации дат в макет, синтезируя масштабный датасет для обучения модели с нуля.

Тем не менее, в отношении критически важных финансовых процессов Ча Чжан сохраняет прагматизм. Эксперт не рекомендует использовать полностью сквозную автоматическую обработку (straight-through processing) без участия человека, если цена ошибки высока. Каждое извлеченное значение сопровождается индексом уверенности (confidence score), и компании могут гибко настраивать порог, при котором документ отправляется на верификацию оператору.

Для оптимизации процессов Microsoft предлагает архитектуру Model Compose. Она позволяет объединить до 10 специализированных кастомных моделей под единым API-эндпоинтом. Интеллектуальный каскад сначала направляет входящий документ на кастомные модели, оценивает их уверенность, и, если документ не соответствует ни одному из уникальных шаблонов, автоматически перенаправляет его на универсальную коробочную модель (pre-built). Такая гибридная схема обеспечивает максимальную гибкость и точность обработки корпоративного контента.

💬 Цитаты

«Для распознавания текста обычно требуется точность IoU на уровне 0.9–0.95, чтобы правильно распознать все символы.»

Ча Чжан 6:15

«Документы, которые нас интересуют, содержат персональные данные, поэтому мы ограничены строгими правилами конфиденциальности при сборе датасетов.»

«Мы не рекомендуем сквозную автоматическую обработку без оператора, если цена ошибки в числах слишком высока.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
OCR
Оптическое распознавание символов — технология перевода изображений с текстом в машиночитаемый текстовый формат.
Intersection over Union (IoU)
Метрика в компьютерном зрении, оценивающая точность совпадения предсказанной рамки объекта с эталонной.
Anchor-free детекция
Метод обнаружения объектов без использования фиксированных опорных рамок, работающий на попиксельном уровне.
LayoutLM
Пространственная языковая модель, объединяющая текстовую семантику и 2D-координаты блоков на странице.
Low-shot learning
Подход в машинном обучении, позволяющий модели эффективно настраиваться на задачу по крайне малому числу примеров.
📊 Цифры
🗓 Хронология
  1. 2010-е годы Начало активной интеграции глубокого обучения в алгоритмы оптического распознавания символов.
  2. 2016 год Переход Ча Чжана из Microsoft Research в продуктовое подразделение на позицию менеджера инженерии.
⚖️ Другая сторона
Искусственный интеллект Ча Чжан Microsoft OCR LayoutLM Глубокое обучение