Назад в библиотеку

Распознавание текстовых изображений при помощи нейронных сетей.

Автор:Бершадская О.А., Семенова А.П.
Источник: Материалы XIII Международной научно-технической конференции «Информатика, управляющие системы, математическое и компьютерное моделирование» (ИУСМКМ-2022). – Донецк: ДОННТУ, 2022. – С.437-441.

 УДК 004.93'4

РАСПОЗНАВАНИЕ ТЕКСТОВЫХ ИЗОБРАЖЕНИЙ ПРИ ПОМОЩИ НЕЙРОННЫХ СЕТЕЙ

Бершадская О. А., Семенова А. П.

Донецкий национальный технический университет

кафедра

E-mail: olga.bershadskaya20@yandex.ru

Аннотация:

Бершадская О.А., Семенова А.П. Распознавание текстовых изображений при помощи нейронных сетей. Рассмотрено актуальное на сегодняшний день оптическое распознавание текстового изображения. Рассмотрены этапы обработки изображения для распознавания текста. Определены современные подходы к оптическому распознаванию символов. Рассмотрена рекуррентная нейронная сеть с обратной связью, которая позволяет выделять границы строк и распознавать символы.

Annotation:

Bershadskaya O.A., Semenova A.P. Recognition of text images using neural networks. The current optical recognition of a text image is considered. The stages of image processing for text recognition are considered. Modern approaches to optical character recognition are defined. A recurrent neural network with feedback is considered, which allows you to highlight the boundaries of strings and recognize characters.

Введение

В современном мире человек не может представить себя без цифровых технологий, особенно без фотографий. Фотографии, сделанные человеком, несут в себе огромный информационный поток. На них остаются названия улиц, магазинов, номера машин, чем непосредственно и занимается система распознавания текста. Проанализированные фотографии можно использовать для любых задач компьютерного зрения. Например, поиск по схожести, автоматическая навигация. Однако, самой популярной задачей на данный момент является моментальный перевод текста фотографии в редактор.

Такие варианты распознавания несут за собой некоторые недостатки в качестве изображения: фотография может быть с низким разращением, зашумлена и размыта. Также, необходимо автоматически определить язык текста на фотографии.

Актуальность задачи в автоматическом обнаружении и распознавании текста на фотографии. Нахождение контуров текста – один из самых важных этапов для дальнейшего распознавания текста.

Примеры использования распознавания текста

Данное направление необходимо при оцифровке изображений текста. Распознавание текста необходимо при сканировании документа, книги, статьи, журнала, чтобы продолжить работы с текстом в цифровом редакторе. Также это используется при обработке анкетных бланков, обработке системы тестирования знаний, распознавания номеров машин.

Этапы распознавания текста

Первый этап необходим для очистки исходного изображения от посторонних шумов, размытости фотографии. Очистка изображения помогает результативно выделить контуры символов и распознать их (рис. 1).

 

Преображение качества фотографии

Рис. 1. Преображение качества фотографии

 

На рисунке 1 показан процесс обработки качества фотографии, следом за этом происходит анализ фотографии. Для этого процесса применяются специальные фильтры реставрации испорченных фотографий, например, с помощью гипоэллиптической диффузии [1], фильтры, устраняющие размазанность [2].

На втором этапе распознавания текст разбивается на блоки, базируясь на расположении его к горизонтальной и вертикальной прямой, далее добавляется текст в колонки (рис.2).

Блок текста после второго этапа распознавания

Рис. 2. Блок текста после второго этапа распознавания

 

Именно второй этап отвечает за обнаружение текста на фотографии. Есть несколько способов: выделение границ текста (скелетизация [3], определение краев и углов [4], методы на основе инвариантных моментов[5]), выделение цвета, анализ текстуры фотографии.

На третьем этапе происходит преображение текстовой фотографии на изображение строк (рис.3), чтобы далее обработать каждый символ отдельно. Далее различные системы распознают текст по различным алгоритмам.

 

Б3. Текст после третьего этапа распознавания

Рис. 3. Текст после третьего этапа распознавания

 

Четвертый этап занимается обработкой целостного символа. Выбранный символ сравнивается с заданными в базе шаблонами, распознавание происходит при помощи нейронных сетей. Результат четвертого этапа – возможный вариант буквы. Далее система производит уточняющие действия, использую другие методы распознавания.

Современные подходы к оптическому распознаванию символов

Алгоритм оптического распознавания текста приведен на рис. 4. Прежде всего передний план объектов отделяется от фона. Затем определяется тип выделенных областей. Если определено, что данная область – текст, то можно начинать к его сегментации и распознаванию. В процессе своего развития подходы к OCR-системам корректировались, проходя через следующие этапы [6]:

  1. Пошаговая реализация основных блоков без возможности редактирования результатов работы на предыдущих этапах.
  2. Пошаговая реализация основного алгоритма с возможностью возвращения на некоторые предыдущие этапы (например, возвращение на этап сегментации при неудовлетворительных результатах распознавания).
  3. Подходы без предварительной сегментации. Документ сегментируется на строки, а строки подаются на вход алгоритму распознавания без сегментации на слова и символы. В подобных случаях классификатором могут быть иерархические скрытые модели Маркова, рекуррентные сети [7], свёрточные нейронные сети [8].
  4. Подходы без предварительной сегментации на слова и символы с возможностью пересмотра предыдущих решений по разделению документа на строки.
Б3. 4. Общий алгоритм работы OCR-системыя

Рис. 4. Общий алгоритм работы OCR-системы

 

 

Рекуррентная нейронная сеть для распознавания текстовых изображений

Рекуррентные нейронные сети (РНС), подвидом которых является LSTM (long short-term memory), – тип нейронных сетей, задействующих обратную связь. В отличие от нейросетей прямого распространения, в которых информация передается последовательно от слоя к слою, в рекуррентных нейронных сетях каждый слой нейронов, помимо входных данных, получает некоторую информацию о предыдущем состоянии сети, что делает возможным анализ последовательностей данных (рис. 5).

 

 

5. Схема работы одного слоя нейронов рекуррентной сети

Рис. 5. Схема работы одного слоя нейронов рекуррентной сети

 

Главной же особенностью и преимуществом LSTM-сетей является умение работать с долгосрочными зависимостями: проще говоря, они, в отличие от обычных рекуррентных нейронных сетей, умеют работать с информацией, обработанной много циклов назад. Сейчас внедрение нейронных сетей, задействующих обратную связь, очень популярно доля распознавания любого вида текста на изображении. 

Схема работы оптического распознавания текста и программная реализация

Программа определяет макет страницы и группирует очертания текста в объекты. Далее в объектах выделяются строки, а строки, в свою очередь, разбиваются на слова в зависимости от длины промежутков между ними. Для выделения макета страницы, а также выделения границ строк и отдельных слов используется рекуррентная нейронная сеть LSTM.

После этого анализируется, какой тип шрифта был использован для той или иной области текста: моноширинный или пропорциональный. В первом случае каждый символ имеет фиксированную ширину, а значит, есть возможность сразу разбить строку на символы. Во втором случае программа выделяет определенные и неопределенные промежутки между символами: решение по поводу неопределенных промежутков принимается в самом конце.

Распознавание проходит в два этапа. Сначала алгоритм старается распознать каждое слово по очереди и передает каждую успешную попытку классификатору в качестве обучающей выборки. Классификатор использует эти данные при дальнейшем продвижении по странице и на втором этапе распознавания, когда алгоритм повторно работает с теми словами, которые не получилось распознать в первый раз.

В самом конце принимается решение по поводу неопределенных промежутков и проверяет, не являются ли некоторые нераспознанные строчные буквы малыми заглавными.

Программная реализация распознавания текстовой картинки предоставлено на рис. 6.

6. Программная реализация распознавания текста на изображении

Рис. 6. Программная реализация распознавания текста на изображениии

 

Выводы

Был рассмотрен основное и актуальное на сегодняшний день оптическое распознавание текстового изображения. Рассмотрены этапы распознавания речи, способы очистки фотографии от смазанности, нечетких букв, а также лишних фильтров.

Общий алгоритм системы оптического распознавания текста состоит в отделении переднего объекта от фона, определением является ли этот объект текстом, сегментация текста, распознавание слова и сверка его со словарем.

Для выделения границ строк и распознавания текста используется рекуррентная нейронная сеть с обратной связью. Она разработаны специально, чтобы избежать проблемы долговременной зависимости.

 

Литература

  1. Lebourgeois F., Henry J. L. An Evolutive OCR System Based on Continuous Learning // Proceedings of the 3rd IEEE Workshop on Applications of Computer Vision (WACV '96), December 1996. P. 272-277
  2. Арлазаров В.Л., Куратов П.А., Славин О.А. Распознавание строк печатных текстов. - М.: Эдиториал УРСС, 2000.
  3. Арлазаров В. Л., Котович Н. В., Славин О. А. Адаптивное распознавание // Информационные технологии и вычислительные системы. 2002. № 4. С. 11–22.
  4. Технологии оптического распознавания текстов // WolfPromotion – волчий сайт рекламиста URL: http://travin.msk.ru/arc/OCR.html (дата обращения: 09.04.2022).
  5. Уоссермен Ф. Нейрокомпьютерная техника : Теория и практика. - М.: Мир, 1992.
  6. Заенцев И.В. Нейронные сети. Основные модели. - Воронеж: Изд-во Воронежского гос. ун-та, 1999.
  7. Широбоков В.А. Системы распознавания текстов. Автореферат работы магистра // Портал магистров Донецкого национального технического университета URL: http://masters.donntu.edu.ua/2005/fvti/shirobokov/diss.htm (дата обращения: 23.04.2012).
  8. Славин О. А., Титов Ю. В. Динамическое построение функций сравнения с идеальным образом в задаче адаптивного распознавания текстовых символов // Информационные технологии и вычислительные системы. 2007. № 1. С. 3–12.