Статья

Назад

АВТОМАТИЗИРОВАННАЯ СИСТЕМА ОБРАБОТКИ И РЕСТАВРАЦИИ ИЗОБРАЖЕНИЙ СТАРОПЕЧАТНЫХ ТЕКСТОВ И РУКОПИСЕЙ

© 2006 г. В.Д. Соловьев, докт. физ.-мат. наук, В.С. Южиков, студент

Казанский государственный университет. Институт языка РАН, Казань

Представлено описание автоматизированной системы для обработки н реставрации изображений старопечатных текстов н рукописей. Процесс обработки включает в себя устранение пятен на изображении, а также визуальное улучшение фона. Описаны основные возможности системы н приведены примеры, иллюстрирующие работу алгоритмов.

Введение

Во многих библиотеках и музеях мира создаются электронные коллекции старопечатных книг и рукописей XV-XIX веков, представляющих немалую историческую ценность. Первыми этапами создания такой коллекции являются оцифровка книг и подготовка изображений к размещению. Основной трудностью при этом является плохое качество многих страниц оригинала.

Встречающиеся дефекты можно условно разделить на два типа. К первому отнесем дефекты самих страниц книги, появившиеся в результате долгого хранения, действия влажности, температуры, поражения грибком отдельных страниц, а также выцветание букв, неравномерный цвет бумаги, крупные и мелкие пятна и т.д. Ко второму типу можно отнеcти дефекты, возникшие при оцифровке: неравномерная яркость и контрастность изображения (часто проявляется при съемке цифровым фотоаппаратом), просвечивание надписей с обратной стороны листа, цифровой шум.

Все эти дефекты весьма сильно мешают при дальнейшем использовании полученных изображений, поэтому их необходимо устранить. Это требуется как для улучшения визуального восприятия изображений человеком, так и для возможной последующей автоматической обработки (например, анализ структуры страницы и распознавание).

Предшествующие работы

Обзор доступных печатных публикаций, а также материалов сети Интернет показал, что сейчас практически отсутствуют программные системы, предназначенные для избавления от перечисленных дефектов.

В основном, в публикациях встречаются описания работ, начатых в этом направлении, а также возможные подходы для решения отдельных задач реставрации [1 - системы для реставрации изображений старопечатных текстов [4, 5], но ее алгоритмы ориентированы на специфичную модель изображения (более-менее равномерная яркость и контрастность, присутствие пятен только красно-коричневого цвета), что существенно сужает применение данной системы на реальных изображениях. Кроме того, отсутствуют некоторые важные функции - устранение перекоса при сканировании, удаление проступающих надписей с обратной стороны листа (рис. 1).

Рис. 1

Поэтому была поставлена задача - создать специализированную систему, в которой были бы реализованы все необходимые функции с возможностью как полностью автоматической работы, так и с поддержкой ручной коррекции процесса обработки.

Исходные данные и постановка задачи

На вход системы поступает изображение старопечатного текста одного из стандартных графических форматов. На этом изображении предполагаются следующие классы дефектов, которые необходимо исправить:

- перекос листа при сканировании;

- смещение баланса белого;

- неравномерная яркость, контрастность в разных участках (рис. 2);

- пятна с размерами, превышающими размеры букв на изображении (рис. 3);

- проступание надписей с обратной стороны листа.

Рис. 2

Рис. 3

Описание системы

При разработке алгоритмов системы большое внимание было уделено как можно большей автоматизации процесса обработки (рис. 4). Например, на этапе анализа изображения определяется толщина линий букв в разных участках изображения, далее эта информация используется для адаптивного выбора параметров фильтрации на последующих этапах обработки.

Рис. 4

В качестве инструмента разработки была выбрана среда Delphi 7. Основное окно системы вертикально разделено на две части, в которых располагаются соответственно исходное и обработанное изображение. Также наверху находятся меню и основная панель инструментов, а внизу - увеличенные фрагменты обоих изображений. Максимальный размер обрабатываемого изображения ограничивается объемом оперативной памяти компьютера и разрядностью представления цвета (24, 16, 8, 4 или 2 бита на пиксель). Например, при объеме оперативной памяти 512 мегабайт максимальный размер загружаемого полноцветного (24 бита на пиксель) изображения составляет примерно 50 мегапикселей.

Основные возможности системы:

- (tiff, jpg, bmp, png, gif,...);

- просмотр исходного и обработанного изображения, а также их фрагментов в произвольном масштабе;

- возможность одновременной работы с несколькими изображениями;

- исправление неправильной ориентации страницы во время сканирования;

- адаптивное восстановление локального и глобального контраста, яркости - применяется для устранения пятен и выравнивания яркости фона;

- адаптивная бинаризация (эквализация) изображения;

- очистка изображения от шумов и помех;

- устранение проступания надписей с обратной стороны листа;

- режим комплексного восстановления изображения, при котором исправляются дефекты, вызванные старением бумаги, выцветанием чернил, появлением пятен (автоматический режим, при котором выполняются все этапы очистки и улучшения).

Для всех описанных функций обработки изображения существует два режима: полностью автоматический, при котором не требуется никакого вмешательства оператора, и полуавтоматический с возможностью ручной коррекции всех параметров. Процесс обработки включает:

- загрузку изображения;

- выбор типа обработки;

- автоматический анализ изображения и вывод рекомендуемых параметров обработки;

- ручную коррекцию параметров (при необходимости);

- обработку изображения;

- просмотр и сохранение результатов.

В настоящее время эта система используется в библиотеке Казанского государственного университета при создании электронной коллекции газет XIX века.

Описываемая система предназначена для работы на платформе Win9x и Win2k. Время автоматической обработки изображения 2000 х 1500 пикселей - 15 с на компьютере со следующей конфигурацией: Pentium IV-2400, 512 RAM', GeForce-4 МХ440 64Mb, Windows XP.

На основе разработанной системы была создана on-line версия, в которой пользователь может загружать свои изображения и просматривать результаты обработки различными методами (адрес этой версии: http://old-book.ksu.ru/restoration

Заключение

Разработанная система практически полностью устраняет дефекты, перечисленные в разделе "Исходные данные и постановка задачи”. По сравнению с системой, описанной в [4, 5], алгоритмы данной системы показывают лучшие результаты. Так, при обработке изображений с пятнами системой [4, 5] в местах, где были удалены пятна, искажаются края букв и вокруг последних появляются светлые контуры. Также некорректно обрабатываются плавные перепады яркости на изображении - в местах затемнения или осветления буквы размываются. Апробация проводилась на изображениях книг XV - XVIII веков, газет XIX века, взятых из Интернета и электронной библиотеки КГУ, которые содержали дефекты всех перечисленных типов.

Работа поддержана грантами АНТ № 05-5.2-234/2005 и РФФИ 04-07-97501-р_офи.

СПИСОК ЛИТЕРАТУРЫ

1. Баженов СР„ Алексеев В.Н., Бородихин А.Ю., Дергачева- Скоп Е.И., Шабанов А.В. Создание цифровых коллекций редких книг и рукописей из сибирских хранилищ // Тр. конф. "Новые технологии в информационном обеспечении науки". М.: Биоинформсервис, 2001. С. 146 - 148.

2. Масевич А.Ц., Савельев Е.А., Багажное А.К. К созданию электронных коллекций старопечатных книг в библиотеке Российской академии наук: на примере работы над двумя проектами // Тр. конф. "Новые технологии в информационном обеспечении науки". М.: Биоинформсервис, 2001. С. 132- 140.

3. Соловьев В.Д. Электронная коллекция древних книг и рукописей: Исследования по информатике. Казань: ИЛИ АН РТ, 2003. Вып. 4. С. 21 - 26.

4. Antique Books Restoration: http://www.units.it/~ipl/research/ restoration/antiquebooks/index.htm, 2006.

5. Ramponi G., Stance F., Dello Russo W., Pelusi S., Mauro P. Digital Automated Restoration of Manuscripts and Antique Printed Books // Proceedings “EVA 2005 - Electronic Imaging and the Visual Arts”, 14-18 March 2005, Florence, Italy.

COMPUTER-ASSISTED SYSTEM FOR TREATMENT AND RESTORATION OF BLACKLETTER TEXTS AND MANUSCRIPTS

V.D. Solov’yov and V.S. Yuzhikov

In this paper, we present the computer-assisted system for treatment and restoration of blackletter texts and manuscripts. The processing makes it possible to eliminate spots on images and improve the quality of image background. We describe also the basic capabilities of the system and give some examples illustrating the procedures of algorithms used.