РАЗРАБОТКА СИСТЕМЫ РАСПРЕДЕЛЕННОГО РАСПОЗНАНВАНИЯ ИЗОБРАЖЕНИЙ С ПРИМЕНЕНИЕМ ПОЧТОВОГО СЕРВЕРА
Авторы: Галиакберов Р.А., Ладыженский Ю.В.
Источник: Інформатика та комп'ютерні технології — 2010 / Матеріали VI науково-технічної конференції молодих учених та студентів — 23-25 листопада 2010 — Донецьк, ДонНТУ — 2010.
В настоящее время распознавание широко используется для конвертации книг и документов в электронный вид, для автоматизации систем учета в бизнесе или для публикации текста на веб-странице. Оптическое распознавание текста позволяет редактировать текст, осуществлять поиск слова или фразы, хранить его в более компактной форме, демонстрировать или распечатывать материал, не теряя качества, анализировать информацию, а также применять к тесту электронный перевод, форматирование или преобразование в речь.
Хорошим решением для автоматизации работы с большими объемами нераспознанных изображений может быть применение почтового сервера.
Система включает в себя:
- почтовый сервер (IceWarp Mail Server, Courier Mail Server, IBM Lotus Domino и др.);
- программу распознавания изображений (ABBYY FineReader, Autobahn DX и др.);
- программу-клиент почтового сервера;
- программу-клиент системы распознавания.
Система устанавливается в локальной сети, которая включает в себя почтовый сервер и один или несколько компьютеров с установленными программами распознавания.
Для работы системы необходима настройка почтового сервера, установка и настройка программы-клиента почтового сервера, а также установка программ-клиентов системы распознавания на все компьютеры с установленными программами распознавания.
Общая архитектура системы представлена на рисунке.
На почтовом сервере создается учетная запись для хранения писем с изображениями для распознавания. На созданную учетную запись настраивается фильтр, который будет перенаправлять письма с изображениями.
Программа-клиент почтового сервера имеет встроенный почтовый клиент, который способен принимать и отправлять письма по протоколам SMTP, POP3 и IMAP, а также TCP/IP клиент для взаимодействия с машинами распознавания.
Программа-клиент почтового сервера выполняет следующие функции:
1. Проверяет учетную запись на почтовом сервере на наличие новых писем с изображениями.
2. Скачивает письма с почтового сервера и сохраняет их на диске.
3. Загружает изображения из писем и отправляет их на свободную машину распознавания. Система может параллельно работать с несколькими машинами распознавания.
4. Принимает распознанные изображения с машин распознавания, прикрепляет их к письмам и отправляет адресату.
Задачей программы-клиента системы распознавания является прием изображений от клиента почтового сервера, отправка изображений на распознавание с помощью API-интерфейса программы OCR и передача распознанных файлов программе-клиенту почтового сервера.
Разработанная система может применятся для обработки большого количества изображений и может автоматически контролировать интенсивный поток почты. Система позволит полностью автоматизировать и таким образом значительно ускорить процесс распознавания.