Авторы:Бычкова Е.В., Шумский А.А.
Источник:Сборник материалов VIII Международной научно-технической конференции в рамках III Международного Научного форума ДНР, 2017. – С. 402.
Бычкова Е.В., Шумский А.А. Программное средство распознавания печатного текста. Выполнен анализ проблемы распознавания печатного текста. Проанализированы существующие популярные системы распознавания печатного текста. Приведены конкурирующие варианты реализации программного средства.
В наш век информационных технологий и электронных подписей обычные бумажные документы ничуть не утратили своей силы. Работникам различных сфер деятельности зачастую приходится вручную набирать объемные тексты из-за отсутствия или невозможности достать электронные исходники. Для автоматизации данного процесса существуют системы распознавания печатного текста. Данные системы бывают в виде сервисов и приложений под разные платформы (Windows, Android и другие).
На текущий момент большинство подобных приложений и сервисов платное, с закрытым исходным кодом и имеет ограничения по объему обрабатываемых данных. В связи с этим создание бесплатной системы для распознавания печатного текста с открытым исходным кодом является крайне востребованной задачей.
Исследование существующих проблем и способов распознавания печатного текста, анализ разрабатываемого программного средства и сравнение с конкурирующими продуктами на рынке программного обеспечения.
В теории распознавания образов [1] можно выделить два основных направления:
Распознавание текста принадлежит ко второму направлению. В качестве методов распознавания текста выделяют:
Последний из методов подразумевает использование нейронных сетей, что позволяет значительно повысить качество распознавания текста.
Работу программного средства распознавания печатного текста можно поделить на несколько этапов (см. рис. 1).
Рисунок 1 – Этапы работы программного средства распознавания печатного текста
Входными данными являются фотографии исходного текста. Для повышения точности распознавания необходимо провести обработку изображения, что позволяет избавиться от шумов. Обычно применяется медианный фильтр с последующим восстановлением изображения, а затем монохромный. Далее обработанное изображение поступает на модуль сегментации, где выделяются сгустки пикселей в потенциальные буквы, а сами сгустки объединяются в потенциальные слова. Данные буквы классифицируются с помощью нейронной сети, а затем идет поиск и сравнение итоговых слов со словарем.
Монохромный фильтр преобразует исходное цветное изображение в новое, содержащее свет одного цвета (длины волны), воспринимаемый как один оттенок.
Монохромный фильтр необходимо реализовать с применением метода препарирования [2], в котором граница перехода высчитывается путем нахождения среднего значения яркости всех пикселей изображения (см. рис. 2). Такой подход позволяет при сегментации выделить буквы даже при плохом освещении на цветной бумаге.
Рисунок 2 – Функция препарирования в монохромном фильтре
Медианный фильтр [3] позволяет избавиться от импульсного шума. Значения отсчётов внутри окна фильтра сортируются в порядке возрастания или убывания. Значение, находящееся в середине упорядоченного списка, поступает на выход фильтра. В случае чётного числа отсчётов в окне выходное значение фильтра равно среднему значению двух отсчётов в середине упорядоченного списка. Окно перемещается вдоль фильтруемого сигнала и вычисления повторяются. Последующее восстановление не позволяет тексту размыться, поскольку фильтр затрагивает лишь сильно измененные пиксели.
Сравнение наиболее распространенных мобильных программных средств по распознаванию печатного теста с фотографий представлено в табл. 1.
Таблица 1 – Описание распространенных графических форматов
название |
достоинства |
недостатки |
finescanner |
1. высокая точность распознавания текста. 2. поддержка различных расширений. 3. множество фильтров и настроек сканирования. 4. мультиязычность. |
1. функция распознавания текста платная. 2. распознавание длится дольше, чем у конкурентов. |
image to text |
приложение бесплатное. |
1. низкая точность распознавания. 2. отсутствие настроек. 3. поддержка только одного языка. 4. низкая стабильность. |
pdf scaner + ocr |
1. приложение бесплатное. 2. поддерживает большое количество языков. 3. большое количество настроек. |
1. низкая точность распознавания. 2. низкая скорость распознавания. 3. устаревший дизайн. |
Данная система предназначена для использования на мобильных устройствах. Главная задача системы - автоматическое распознавание печатного текста и сохранение его в файл для последующей обработки пользователем.
Графический интерфейс приложения будет предоставлять следующие возможности:
Проведено исследование существующих проблем и способов распознавания печатного текста. Осуществлен анализ разрабатываемого программного средства и сравнение с конкурирующими продуктами на рынке программного обеспечения.