1. Распознавание текста сцены с помощью пермутированных моделей авторегрессионной последовательности(arXiv)

Автор: Дарвин Баутиста, Роуэл Атиенса

Выдержка. Контекстно-зависимые методы STR обычно используют внутренние авторегрессионные (AR) языковые модели (LM). Врожденные ограничения моделей AR мотивировали двухэтапные методы, в которых используется внешний LM. Условная независимость внешнего LM от входного изображения может привести к тому, что он ошибочно исправит правильные прогнозы, что приведет к значительной неэффективности. Наш метод PARSeq изучает ансамбль внутренних AR LM с общими весами, используя моделирование языка перестановок. Он объединяет контекстно-независимый не-AR и контекстно-зависимый вывод AR, а также итеративное уточнение с использованием двунаправленного контекста. Используя синтетические обучающие данные, PARSeq достигает самых современных (SOTA) результатов в тестах STR (точность 91,9%) и более сложных наборах данных. Он устанавливает новые результаты SOTA (точность 96,0%) при обучении на реальных данных. PARSeq оптимален по соотношению точности и количества параметров, FLOPS и задержки благодаря своей простой, унифицированной структуре и параллельной обработке токенов. Из-за того, что он широко использует внимание, он устойчив к произвольно ориентированному тексту, который часто встречается в изображениях реального мира. Код, предварительно обученные веса и данные доступны по адресу: https://github.com/baudm/parseq.

2.SVTR: распознавание текста сцены с помощью единой визуальной модели(arXiv)

Автор: Юнкун Ду, Чжинэн Чен, Цайян Цзя, Сяотин Инь, Тяньлунь Чжэн, Чэнься Ли, Юнин Ду, Ю-Ган Цзян

Аннотация. Модели распознавания текста в основной сцене обычно содержат два строительных блока: визуальную модель для извлечения признаков и модель последовательности для транскрипции текста. Эта гибридная архитектура хоть и точна, но сложна и менее эффективна. В этом исследовании мы предлагаем единую визуальную модель для распознавания текста сцены в рамках схемы токенизации изображений на основе патчей, которая полностью исключает последовательное моделирование. Метод, называемый SVTR, сначала разбивает текст изображения на небольшие фрагменты, называемые символьными компонентами. После этого периодически выполняются иерархические этапы путем смешивания, слияния и/или комбинирования на уровне компонентов. Глобальные и локальные блоки микширования разработаны для восприятия межсимвольных и внутрисимвольных паттернов, что приводит к многозернистому восприятию компонентов персонажа. Таким образом, символы распознаются простым линейным предсказанием. Экспериментальные результаты по задачам распознавания текста сцены на английском и китайском языках демонстрируют эффективность SVTR. SVTR-L (большой) обеспечивает высокую точность на английском языке и значительно превосходит существующие методы на китайском языке, при этом работая быстрее. Кроме того, SVTR-T (Tiny) — это эффективная и гораздо более компактная модель, которая демонстрирует привлекательную скорость при выводе. Код общедоступен по адресу https://github.com/PaddlePaddle/PaddleOCR.

3.IterVM: модуль итеративного визуального моделирования для распознавания текста сцены(arXiv)

Автор:Сяоцзе Чу, Юнтао Ван

Аннотация: Распознавание текста сцены (STR) представляет собой сложную проблему из-за несовершенных условий изображения в естественных изображениях. Современные методы используют как визуальные подсказки, так и лингвистические знания для решения этой сложной проблемы. В частности, они предлагают модуль итеративного языкового моделирования (IterLM) для многократного уточнения выходной последовательности из модуля визуального моделирования (VM). Несмотря на достижение многообещающих результатов, модуль моделирования зрения стал узким местом этих методов. В этой статье мы предлагаем новый модуль моделирования итеративного зрения (IterVM) для дальнейшего повышения точности STR. В частности, первая виртуальная машина напрямую извлекает многоуровневые признаки из входного изображения, а следующие виртуальные машины повторно извлекают многоуровневые признаки из входного изображения и объединяют их с высокоуровневыми (т. е. наиболее семантическими) признаками, извлеченными с помощью предыдущая ВМ. Объединив предложенный IterVM с модулем итеративного языкового моделирования, мы также предлагаем мощный распознаватель текста сцены под названием IterNet. Обширные эксперименты показывают, что предлагаемая IterVM может значительно повысить точность распознавания текста сцены, особенно на изображениях текста сцены низкого качества. Кроме того, предлагаемый распознаватель текста сцены IterNet достигает новых передовых результатов в нескольких общедоступных тестах. Коды будут доступны на https://github.com/VDIGPKU/IterNet.