Федяев О.И. Фёдоров А.В. Сравнительный анализ методов контурной сегментации в системах оптического распознавания символов.

Источник: Материалы пятой всеукраинской научно-технической конференции студентов, аспирантов и молодых ученых «Комп'ютерний моніторинг та інформаційні технології», ДонНТУ, Донецк, 12-15 мая 2009 г.

СРАВНИТЕЛЬНЫЙ АНАЛИЗ МЕТОДОВ КОНТУРНОЙ СЕГМЕНТАЦИИ В СИСТЕМАХ ОПТИЧЕСКОГО РАСПОЗНАВАНИЯ СИМВОЛОВ.

Федяев О.И., Фёдоров А.В.
Донецкий национальный технический университет

В последнее время проблема автоматического анализа формы и состояния пространственных объектов, информация о которых представлена в виде изображений, является актуальной во многих отраслях человеческой деятельности. Также большое значение имеет оперативный ввод графической информации, подлежащей дальнейшей обработке, в информационные управляющие системы с машиночитаемых бланков [1].

Оптическое распознавание символов (ОРС), заключающееся в конвертации изображений символов и букв в текст, является наиболее востребованной задачей. Перевод осуществляется программным путём после получения изображения со сканера или фото. Одним из самых распространенных методов решения задачи оптического распознавания символов является контурная сегментация [1].

В рамках проведенного исследования выполнено сравнение самых распространенных программ ОРС с точки зрения реализации методов контурной сегментации.

На рынке программных средств существует достаточно много хороших программ ОРС, использующих методы контурной сегментации. Наиболее известными программами класса ОРС в России являются разработки двух российских компаний — Cognitive Technologies и ABBYY Software House: OCR CuneiForm [2] и ABBYY FineReader [3] соответственно.

Система Fine-Reader является намного более легким в использовании, а также самым дешевым (цена $100). Он предлагает пользователю гибкие возможности и наибольшее количество распознаваемых языков.

Система ABBYY FineReader 5.0 включает контурный и структурно-дифференциальный классификаторы, поднимающие на новый уровень качество распознавания символов и передачу оформления исходного документа [4].

Контурный классификатор предназначен для определения общих очертаний символа в нестандартных (причудливых и декоративных) шрифтах. FineReader 5.0, в частности, распознает подстрочные индексы, простые химические формулы, вертикальный текст и картинки в ячейках таблиц. Контурный классификатор для извлечения признаков искомого объекта использует контуры, предварительно выделенные на изображении. Сравнение каждой пары векторов заключается в вычислении оценки, характеризующей расстояние между точками в N-мерном пространстве.

К достоинствам можно отнести: простоту реализации, хорошую обобщающую способность.

Среди недостатков выделяют: неустойчивость к различным дефектам изображения, необратимую потерю части информации об образе.

Также заслуживает внимания свободно распространяемая открытая система оптического распознавания текстов CuneiForm российской компании Cognitive Technologies. В ней применены алгоритмы адаптивного распознавания, технологии, основанные на нейронных сетях.

Адаптивное распознавание – это метод, основанный на комбинации двух видов алгоритмов распознавания печатных символов: шрифтового (multifont) и шрифтонезависимого (omnifont). Система генерирует внутренний шрифт для каждого вводимого документа, основываясь на хорошо пропечатанных символах, при этом используется динамическая настройка (адаптация) на конкретные входные символы. Таким образом, реализованный метод совмещает универсальность и технологичность шрифтонезависимого подхода и высокую точность распознавания шрифтового, что существенно повышает качество распознавания.

Алгоритмы системы используют нейронные сети для распознавания символов, которые строятся следующим образом. Поступающее на распознавание изображение символа (растр) приводится к некоторому стандартному размеру (нормализуется). Значения яркости в узлах нормализованного растра используются в качестве входных параметров нейронной сети. Число выходных параметров нейронной сети равняется числу распознаваемых символов. Результатом распознавания является символ, которому соответствует наибольшее из значений выходного вектора нейронной сети.

Эти методы позволяют производить ОРС без предварительного обучения, что дает право назвать эту систему «интеллектуальной» [4].

Преимущество такой системы выражается в способности точнее классифицировать распознаваемый объект, исключая из рассмотрения сразу множество гипотез, противоречащих хотя бы одному из следующих принципов.

1. Принцип целенаправленности: любая интерпретация данных преследует определённую цель. Следовательно, распознавание должно рассматриваться как процесс выдвижения гипотез о целом объекте и целенаправленной их проверки.

2. Принцип адаптивности подразумевает способность системы к самообучению. Полученная при распознавании информация упорядочивается, сохраняется и используется впоследствии при решении аналогичных задач.

В ходе анализа было установлено, что программно реализованные методы и принципы являются основными и используются и в самых популярных российских системах ОРС, и в других программных комплексах ОРС. Однако методы нуждаются в совершенствовании, а также в подключении к ним других методов (таких, как использование нейронных сетей), что и делают в настоящее время серьезные брэнды, добиваясь значительного повышения эффективности.

Литература

Антощук С., Крилов В., Бабілунга О. Ієрархічна модель контурної сегментації зображень // Праці 8-ї Міжнародн. конф. «Оброблення сигналів і зображень (УкрОБРАЗ’2006)».- Київ: НАН України – Інститут кібернетики. - 2006. - С.109
CuneiForm http://www.cuneiform.ru/
Fine-Reader http://www.finereader.com/
Рузайкин Г.И. Жемчужины российского ПО. - М.: Открытые системы, 2008.