Обзор исследований по проблемам распознавания рукописных текстов

Авторы: Елена Бучкина, Сергей Соловьёв

Название: Обзор исследований по проблемам распознавания рукописных текстов

Актуальность задачи создания информационных ресурсов на основе рукописей очевидна. Это подтверждается тем вниманием к различным сторонам ее решения специалистами в области гуманитарной информатики, историками, лингвистами, филологами, работниками музеев и архивов.

Однако на данный момент не существует универсальных алгоритмов распознавания, которые могли бы применяться к рукописям разных эпох и написанных на разных языках. Основной круг проблем распознавания рукописных текстов обрисован в обзорной статье профессора Джона Эдвардса (John Alexander Edwards, Easily Adaptable Handwriting Recognition in Historical Manuscripts) из Калифорнийского университета в Беркли. Он отмечает, что сделаны существенные шаги в области каталогизации, документирования, сохранения и визуализации исторических источников на основе информационных технологий. В Интернете растет количество проектов, содержащих электронные версии различных рукописей. В то же время, в большинстве случаев такие ресурсы представляют собой только коллекции цифровых изображений памятников, что позволяет решать задачи их сохранения, визуализации, расширения доступа к ним исследователей, но не дает возможности содержательного информационного поиска и анализа с помощью современных компьютерных технологий. Ограничения исследовательских возможностей связаны, прежде всего, с трудностями представления электронных версий рукописных и старопечатных книг в формате электронного текста, ввиду отсутствия эффективных систем распознавания.

Невозможность использования для создания электронных версий рукописных книг в формате электронного текста с помощью существующих программ распознавания обусловила развитие такого направления в решении этой задачи, как создание специальных текстовых редакторов для ручного набора с клавиатуры. Как и ручной набор вообще, такая технология создания электронных текстов на основе рукописных и старопечатных изданий достаточно трудоемка. К тому же она требует от пользователя овладения специальными навыками. В конечном итоге, она не позволяет проводить перевод исторических памятников в формат электронного текста в нужном объеме и темпе, однако, за неимением лучшего, продолжаются разработки подобных проектов. Российские исследователи из Петрозаводстка подчеркивают, что в каждом конкретном случае требуется свой собственный алгоритм решения исследовательской задачи, что, с их точки зрения, делает создание автоматической системы дешифровки невозможной и неэффективно й. В качестве альтернативы они предлагают создать автоматизированную систему, упрощающую расшифровку рукописного текста (переведенного в электронный вид) путем коррекции шрифтов, формирования виртуальной клавиатуры и последующим набором текста (А.А. Рогов, А.Н. Талбонен, А.Г. Варфоломеев ««Автоматизированная система распознавания рукописных исторических документов». Эти же авторы применили предлагаемые методы в дешифровке исторических стенограмм. Предлагаемая ими информационная система обладает следующими отличительными свойствами: учет особенностей исторической орфографии XIX и начала XX веков, учет индивидуальных знаков разных стенографистов, возможность критического анализа, использование словаря для подсказки при дешифровке текста и т.д.

Учёные из Центра передового опыта анализа и распознавания документов (Center of Excellence for Document Analysis and Recognition, CEDAR) Университета штата Нью-Йорк в Буффало, одного из ведущих научных центров по интересующей нас проблеме, опубликовали в последнее время информацию о нескольких интересных разработках, направленных на улучшение распознавания рукописного текста. Профессор Вену Говиндараджу очертил круг проблем, связанных с распознаванием рукописей, в обзорной статье «Парадигмы распознавания рукописного текста: интерпретация, транскрипция, поиск приложений» (Govindaraju, V, Handwriting Recognition Paradigms in Interpretation, Transcription, and Search Applications). Он указывает на то, что распознавание рукописных документов достигло больших успехов в определённых областях, прежде всего прикладных, таких как автоматическое распознавание почтовых адресов или проверка сумм на банковских чеках. Однако проблема распознавания рукописей по-прежнему остаётся для науки сложной задачей, особенно если лексикон текста велик или необычен, что является проблемой для сегментации его отрезков и отдельных слов. Таким образом, многие рукописи и исторические материалы до сих пор остаются недоступны для поисковых систем. В статье описаны текущие исследования Центра передового опыта анализа и распознавания документов по прочтению исторических рукописей, представлены образцы распознанного текста, графики и диаграммы, а также анализируется то, как улучшение распознавания рукописного текста может помочь интернет-безопасности.

Коллектив греческих авторов: Базилиос Гатос, Костас Нтзиос, Иоаннис Пратикакис, Сергиос Петридис, Т. Конидарис, Ставрос Перантонис (Basilios Gatos, Kostas Ntzios, Ioannis Pratikakis, Sergios Petridis, T. Konidaris, Stavros J. Perantonis) – представили результаты своих исследований в статье «Техника бессегментационного распознавания древнегреческих рукописей» (A Segmentation-Free Recognition Technique to Assist Old Greek Handwritten Manuscript OCR). Учёные ставили перед собой задачу распознавания ранних христианских рукописей. Они предлагают новый, быстрый и высокопроизводительный способ распознавания текста без сегментации каждого символа, основанный на отслеживании и распознавании наиболее часто встречающихся символов и лигатур. Сначала распознаётся пустое фоновое пространство, затем – выступы за наружный контур буквы; разработанная учёными программа сама предлагает свои варианты для распознавания целых слов и отрезков текста.

Исследователь Шахар Армон (Shahar Armon) из Еврейского университета в Иерусалиме описывает в статье «Распознавание рукописного текста и быстрая загрузка древнееврейских рукописей» (Handwriting Recognition and Fast Retrieval for Hebrew Historical Manuscripts) новую методику распознавания рукописей на иврите и быстрого поиска в них. Чтобы распознать букву или изображение, предполагаемый знак генерируется на основании выделения в нём ряда признаков. Эксперименты с архивом рукописей Каирская гениза показали, что эта система хорошо распознаёт повреждённые рукописи, содержащие большое количество аномальных букв (смазанных, утраченных или нечитаемых).

В 2012 году учёные из Гамбургского университета Бернд Нойман, Райнер Герцог, Арвед Золд, Оливер Бестманн и Юлиан Шиль (Neumann, Bernd; Herzog, Rainer; Solth, Arved; Bestmann, Oliver; Scheel, Julian) опубликовали исследование под названием «Восстановление текста исторических рукописей с использованием локальных дескрипторов» (Retrieving Writing Patterns From Historical Manuscripts Using Local Descriptors). Компьютерная поддержка поиска рукописей на основании визуальных особенностей запрашиваемого текста – весьма актуальная, но зачастую неосуществимая процедура. Её можно было бы применить, например, чтобы узнать, есть ли в музейной коллекции рукопись, соответствующая имеющейся у исследователя копии. Самое главное, что сервис поможет найти рукописи, содержащие запрашиваемое изображение. Более того, благодаря ему можно найти расположение образцов письменного текста, состоящего из произвольных графических элементов. Похожие графические элементы, извлечённые из различных рукописей, могут дать исследователю ценную информацию о возможной личности писца или общем происхождении рукописей. Гамбургские учёные описывают новый подход к графическому поиску, опирающийся на локальные дескрипторы в «интересующих точках» (Interest points, IPs). Специфическое расположение этих точек в строго определённых местах изображения может интенсифицироваться и тем самым стать достаточно стабильным ориентиром для локальных дескрипторов. Каждый дескриптор представляет собой структуру тензоров, которые дают достаточно точный расчёт в локальном распределении градиента. Для высоко детализированного изображения, например, иероглифа, «интересующие точки» могут содержать несколько сотен значений. «Интересующие точки» хорошо зарекомендовали себя применительно ко многим изображениям, прежде всего китайским иероглифам и арабской вязи.

Продолжаются также коммерческие разработки по распознаванию рукописного текста. История создания систем по оптическому распознаванию символов (англ. Optical character recognition, OCR) уходит корнями в 1950-е годы, однако история исследования распознавания рукописных текстов значительно короче. В целом исследования по оптическому распознаванию символов и созданные на их основе коммерческие программные продукты были направлены на улучшения точности и скорости распознавания небольшого количества широко распространённых современных шрифтов

Единственный серьёзным производителем на этом рынке остаётся корпорация ABBYY с программой FineReader. Однако необходимо учитывать, что её программы распознавания разрабатываются с уклоном на стандартную документацию компаний, которые являются основными потребителями. Поэтому продукты ABBYY не дают высокой точности в нестандартных форматах, и уровень достоверности распознавания рукописей бывает невысок. У ABBYY FineReader есть версии программы, в которых после обучения она приобретает свойство распознавания рукописного текста. Но если пользователь пытается распознать в одной версии программы несколько различных образцов почерка, полученных от разных людей, программа не сможет выдать результат. Новая версия программы по автоматическому распознаванию символов FineReaderEngine 11 OCRSDK была представлена 24 октября 2013 г. Движок, на котором работает программа, позволяет использовать функции оптического распознавания текста (OCR), оптического распознавания меток (OMR) и распознавания рукопечатных символов (ICR). Однако для работы собственно с рукописями художественных произведений, исторических документов, в которых почерки достаточно сложны, эта программа не может. Аналогична в целом и ситуация с проектами GoogleDocs и GoogleBooks.

Таким образом, основные зарубежные разработки в сфере распознавания рукописного текста направлены в основном на решение проблем сегментации текста, ускорения обработки информации и избавления от мешающих работе с текстом шумов, таких как утраченные или неясные фрагменты, пятна на бумаге, а также на увеличение числа языков, для которых можно применить сам алгоритм распознавания. Однако на данный момент нерешенных прикладных и теоретических проблем куда больше, чем достижений.