Назад в библиотеку

Автор: Владимир Баталий

Название: Обзор доступных онлайн-сервисов для распознавания текста

Источник: MatrixBlog



С развитием современных технологий в последние десятилетия 20 века произошла и модернизация доступа к печатному и рукописному тексту. Написанный текст был постепенно заменен печатным, который имеет по сравнению с текстом "на бумаге' ряд неоспоримых преимуществ (простое редактирование и форматирование). С распознаванием сканированного текста связано такое понятие, как OCR. OCR является аббревиатурой от английского "Optical Character Recognition" - оптическое распознавание символов. Речь может идти как о механическом, так и об электронном действии. В большинстве случаев, происходит сканирование документа, который затем анализируется компьютерной программой, которая производит распознавание сканированного текста, отдельных его символов и слов.

Цель и смысл распознавания с помощью OCR сканированного текста заключается в быстрой и дешевой передаче печатного или рукописного содержимого в электронный файл. Важно отметить, что машинное распознавание текста в 20-25 раз быстрее, чем ручное переписывание. OCR можно также использовать для переноса таблиц с номерами в компьютер, что может стать очень эффективным инструментом в любой профессии. OCR-приложение не может сканировать, однако, может распознавать символы и изображения сканированного текста, создавать обычный текст, который можно в дальнейшем обрабатывать. Оригинал документа на бумаге загружается с помощью сканера. Программа для оптического распознавания сканированного текста позволяет определить отдельные блоки (графики, текст, абзацы и так далее), с последующим распознаванием слов и букв. Довольно часто случается так, что не все символы получается определить. Система OCR для распознавания сканированного текста использует языковые базы данных для сравнивания сканируемых слов. В случае сходства со словом в словаре, программа может исправить или добавить недостающие символы. В случае, если OCR не в состоянии распознать один символ в слове, это не значит, что слово будет помечено как неопознанное. Если это просто неизвестное слово, то оно вносится в словарь с дополнительной корректировкой.

Новые OCR-программы для распознавания сканированного текста оснащены дополнительными функциями для проверки орфографии (как в MS Word), что позволяет улучшить процесс распознавания. Технология распознавания OCR, как процесс оцифровки, используется как для обычных задач (проверка паспортов), так и при проверке регистрационных знаков транспортных средств. В основном, используется при оцифровке книг и текстов, например, для обеспечения возможности поиска или редактирования. Цифровой контент можно впоследствии редактировать, или же озвучить с помощью преобразования текста в голос. OCR часто используется для распознавания капчи (CAPCHA). CAPTCHA, как правило, тип цифровой защиты форм, чтобы через них не передавались автоматически генерируемые данные. CAPTCHA представляет собой в основном рисунок, который отображает множество алфавитно-цифровых символов, которые пользователь должен ввести вручную. Многие CAPTCHA требуют от пользователя не только простого ввода данных с картинки, но и выполнения математических операция или манипуляций с объектами. Современные OCR приложения распознавания сканированного текста могут распознавать даже рукописный текст – это актуально для сенсорных устройств, которые позволяют писать текст с помощью специального пера, а не клавиатуры. Сам процесс распознавания сканированного текста проходит в три стадии: pre-processing (предварительная), само OCR распознавание, post-processing (последующая обработка). При предварительной обработке целью является подготовить сканированный документ до наилучшего состояния – поворот, очистка от нежелательных точек и др. – так, чтобы последующий процесс распознавания текста был как можно более точным. В ходе последующей обработки (post-processingu) текст проверяется согласно словарю для данного языка; автоматически, или при помощи пользователя, исправляются ошибки и неправильно распознанные символы.

Для OCR распознавания сканированного текста можно использовать несколько различных инструментов. Вы можете воспользоваться как интернет приложениями, так и полноценными программами. За качество надо платить. Попробовать trial-версии платных OCR программ для распознавания текста уже не так просто, как когда-то - их производители уже дали свой ответ на высокий уровень пиратства своего программного обеспечения выходом модели 30-дневных версий своего продукта, которые выполняют свою работу с ограниченными возможностями. К ним относятся два из лидеров на OCR рынке: OmniPage с поддержкой 123 языков, и Readiris с поддержкой ста двадцати языковых наборов. Одним из немногих приложений, которые в последней версии вы можете попробовать на собственной шкуре, ABBYY Fine Reader.