|
|||
ЭЛЕКТРОНИКА И ИНФОРМАЦИОННО-ИЗМЕРИТЕЛЬНЫЕ ПРИБОРЫ ВЕСТНИК ТОГУ. 2009. К» 4 (15)
|
I*
|
||
|
|||
УДК 004.932
© И. С. Сай, 2009
|
|||
|
|||
ЭФФЕКТИВНОСТЬ АЛГОРИТМОВ ПОИСКА ОТТИСКА ПЕЧАТИ В ИЗОБРАЖЕНИИ ДОКУМЕНТА
|
|||
|
|||
Сай И. С. – асп. кафедры «Автоматика и системотехника», e-mail: sai@evm.khstu.ru (ТОГУ)
Рассматриваются особенности алгоритмов поиска оттиска печати в изображении документа на основе преобразования Хафа. Приводятся результаты программного моделирования и анализа эффективности базового алгоритма поиска и модифицированного алгоритма с использование градиента яркости.
The article deals with peculiarities in the search algorithm, which uses the Hough transformation, of the impression of a seal in the document image. The results of the program simulation and those of the analysis of effectiveness for the basic search algorithm and the modified one with the use of the brightness gradient are given.
Ключевые слова: преобразования Хафа, алгоритмы поиска, обработка изображений, градиент яркости, программное моделирование.
Введение
Процесс документооборота в современных учреждениях, например в банках, является довольно сложным и трудоемким. Он подразумевает, помимо электронного документооборота, который в последнее время выходит на высокий уровень, также бумажный документооборот. Важной задачей в процессе обработки бумажных документов является проверка (верификация) подлинности документа. Для проверки подлинности документов существует два вида контроля: подпись уполномоченного представителя и оттиск печати, являющийся уникальным «идентификатором» юридического лица.
Печати и штампы изготовляются специализированными предприятиями с соблюдением определенных требований. Строки текста набираются шрифтом одного размера и рисунка, с одинаковыми интервалами, с симметричным расположением по отношению к разделительным знакам, тексту или рисунку во внутренней рамке. По отношению к центру все буквы текста располагаются строго радиально.
В случаях примитивной подделки могут наблюдаться отклонения от этих правил. Оттиски печатей и штампов подделываются путем рисовки, изготов-
|
|||
|
|||
53
|
|||
|
|||
|
||
Т\
|
||
|
||
ления клише на резине и других материалах, влажной копировки с подлинного оттиска, перекопировки через промежуточное клише.
Проверка подлинности оттисков печатей заключается в сравнении оттиска печати на документе (например, платежном поручении) с печатью оригиналом (находится в карточке образцов печатей). Сравнение основывается на принятии решения о том, принадлежит ли печать клиенту, который предоставляет платежное поручение, и является ли данная печать подлинной.
В процессе ежедневного документооборота оператору, принимающему документ от клиента, необходимо обрабатывать большое количество документов и обязательно проверять на подлинность и достоверность каждый принимаемый документ. Для этого операционному работнику необходимо сверять каждый оттиск печати в документе с оттиском образцовой печати. Например, сделаем небольшие расчеты и увидим, что при потоке в 100 документов в день на одного оператора с учетом того, что проверка одной подписи и печати занимает от 30 секунд до нескольких минут, делаем вывод – в день один оператор тратит от 50 до 120 минут только на проверку документов. Даже при такой проверке оператор не может точно выявить подделки документа, т. к. не является экспертом-криминалистом в данной области. Оператор может выявить только явные несоответствия и вполне вероятно, что не сможет выявить подделку документа.
Учитывая вышеуказанные факторы, можно сделать вывод об актуальности исследований в области синтеза автоматизированных экспертных систем проверки подлинности документов.
Выделим основные этапы проверки подлинности печати в документе:
1. Сканирование и ввод изображения документа в ЭВМ.
2. Поиск оттиска печати в изображении.
3. Цифровая обработка изображения печати.
4. Сравнение с образцом и проверка на подлинность. В данной работе будут рассмотрены особенности алгоритмов поиска оттиска печати в изображении документа на основе преобразования Хафа.
Базовый алгоритм поиска оттиска печати
Рассмотрим базовый алгоритм поиска оттиска печати в изображении документа, который можно разбить на следующие этапы:
1. Выделение окрестности содержащей оттиск печати.
2. Уменьшение масштаба изображения.
3. Преобразование Хафа.
4. Поиск максимума в фазовом пространстве.
5. Вывод изображения печати на экран. При сканировании и загрузки изображения документа выбираем высокое
разрешение сканирования, например в 2496×3507 пикселей.
Полагаем, что в документе, например, в платежном поручении, месторасположение искомой печати является установленным, поэтому проводим поиск не по всему изображению, а внутри предполагаемой окрестности на-54
|
||
|
||
|
|||
ЭФФЕКТИВНОСТЬ АЛГОРИТМОВ ПОИСКА
ОТТИСКА ПЕЧАТИ В ИЗОБРАЖЕНИИ ВЕСТНИК ТОГУ. 2009. № 4(15)
ДОКУМЕНТА
|
I*
|
||
|
|||
хождения печати. Данная окрестность составляет около 40 % от исходного изображения, что позволяет снизить время обработки изображения. В результате этой операции из исходного изображения размером 2496x3507 выделяется окрестность поиска с размером 1248x1169.
На следующем этапе выполняем масштабирование фрагмента поиска, например с помощью операции усреднения и прореживания пикселей в три раза. В результате этой операции изображение фрагмента с размером 1248x1169 заменяется изображением с размером 416x389.
Основную вычислительную сложность в алгоритме поиска изображения печати представляет преобразование Хафа [1].
Преобразование Хафа позволяет находить на монохромном изображении плоские кривые, заданные параметрически, например: прямые, окружности, эллипсы. Монохромным изображением считается изображение, состоящее из точек двух типов: фоновых точек и точек интереса. Задача преобразования Хафа состоит в выделении кривых, образованных точками интереса.
Идея преобразования Хафа состоит в поиске кривых, которые проходят через достаточное количество точек интереса. Рассмотрим семейство кривых на плоскости, заданное параметрическим уравнением
F(a1,a2...an,x,y) = 0, (1)
где F - некоторая функция, аи а2 ... ап- параметры семейства кривых, х, у -координаты на плоскости. Параметры семейства кривых образуют фазовое пространство, каждая точка которого (конкретные значения параметров аь а2,...ап) соответствует некоторой кривой.
Полагаем, что печать имеет круглую форму и в этом случае геометрическое место точек окружности круга можно представить в виде формулы
(х-a)2 +(y-b)2 =R2, (2)
где (а, Ь) - координаты центра окружности, а R - ее радиус, т. е. формула (1), задающая семейство окружностей, имеет вид
F(a,b,R,x,y) = (х-а)2 +(у-Ъ)2 -R2 = 0. (3)
Если ставится задача найти окружность заранее известного радиуса, фазовым пространством будет плоскость параметров центра окружности (а, Ь).
Если радиус окружности заранее неизвестен, то пространство параметров будет трехмерным - (a, b, R), что существенно увеличивает вычислительную сложность решения задачи. Для сведения задачи обратно к двумерному фазовому пространству в некоторых случаях можно применить метод, описанный в [2].
|
|||
|
|||
55
|
|||
|
|||
|
||
Т\
|
||
|
||
Ввиду дискретности машинного представления входных данных изображения требуется перевести непрерывное фазовое пространство в дискретное. Для этого в фазовом пространстве вводится сетка, разбивающая его на ячейки, каждая из которых соответствует набору кривых с близкими значениями параметров. Каждой ячейке фазового пространства можно поставить в соответствие число (счетчик), указывающее количество точек интереса на изображении, принадлежащих хотя бы одной из кривых, соответствующих данной ячейке.
Набор всех счетчиков называется аккумулятором. Любая ячейка задаёт множество кривых, а значение счетчика ячейки определяется количеством точек из пространства (x, y), лежащих хотя бы на одной из этих кривых. Если все точки из (x, y) лежат на одной кривой с фиксированными параметрами, то в соответствующей ячейке значение счетчика будет максимально. Анализ счетчиков ячеек позволяет найти на изображении кривые, на которых лежит наибольшее количество точек интереса.
Заполнение аккумулятора является самой трудоёмкой частью алгоритма, сложность которой зависит от: размерности фазового пространства и сетки дискретизации. Чем больше размерность фазового пространства и меньше сетка, тем больше ячеек в аккумуляторе и, следовательно, больше требуется памяти и времени для его хранения и заполнения.
С целью исследования быстродействия и эффективности базового алгоритма разработана программа поиска печати в среде Borland C++ Builder 6.0, интерфейс которой показан на рисунке. Отметим основные функции программы: загрузку изображения документа в формате BMP или TIFF; поиск печати на изображении с заданными параметрами поиска; сохранение изображения найденной печати. Программа позволяет выполнять следующие настройки алгоритма поиска: устанавливать следующие коэффициенты масштабирования изображения документа 6:1, 4:1, 3:1; обрабатывать несколько файлов с изображением документов; задавать режим фильтрации найденной печати от помех.
Из описания базового алгоритма поиска печати следует, что на время вычисления преобразования Хафа в большой степени влияет коэффициент масштабирования, который задает размер ячейки сетки дискретизации фазового пространства.
В таблице приведены экспериментальные результаты анализа быстродействия и эффективности алгоритма поиска оттиска печати на основе преобразования Хафа для разных значений коэффициента масштабирования. Время поиска оценивалось на ПК с процессором Intel Pentium 4 CPU 3.4 GHz. В результате исследований получено, что для обнаружения печатей с вероятностью ≈ 90 % достаточно использовать коэффициент масштабирования (6:1), при этом время поиска составляет не более 2 с. Для более точного поиска с вероятностью ≈ 99 % коэффициент масштабирования должен быть не более (3:1), однако при этом время поиска увеличивается до 35 с.
|
||
|
||
56
|
||
|
||
|
||||||||||||||||||||||||||||||||||
ЭФФЕКТИВНОСТЬ АЛГОРИТМОВ ПОИСКА ОТТИСКА ПЕЧАТИ В ИЗОБРАЖЕНИИ ДОКУМЕНТА
|
ВЕСТНИК ТОГУ. 2009. № 4 (15)
|
\$
|
||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||
![]() |
||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||
Интерфейсное окно программы поиска печати.
|
||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||
Эффективность базового алгоритма поиска печати.
|
||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||
Модифицированный алгоритм поиска оттиска печати
Из экспериментальных данных, приведенных в таблице, следует, что время поиска оттиска печати при вероятности обнаружения ≈ 99 % является значительной величиной и накладывает временные ограничения на работу автоматизированной системы проверки подлинности документов.
Часто преобразование Хафа применяется к изображениям, полученным операторами выделения краев (края – точки резкого изменения яркости соседних пикселей) [3]. В таких случаях обычно известно направление градиента яркости изображения для каждой точки края [4]. Можно существенно снизить количество кривых, потенциально проходящих через заданную точку изображения, если рассматривать только кривые, касательная которой пер-
|
||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||
57
|
||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||
|
|||||||||||||
9
|
ВЕСТНИК ТОГУ. 2009. № 4 (15]
|
Сай И. С.
|
|||||||||||
|
|||||||||||||
пендикулярна градиенту яркости изображения в рассматриваемой точке. Таким образом, можно свести задачу выделения окружностей с неизвестным радиусом к двумерному фазовому пространству.
Величину градиента в точке интереса с координатами (x,y) можно вычислить по следующей формуле:
|
|||||||||||||
|
|||||||||||||
\АI(x,y)\
|
|
(dI
|
2
|
||||||||||
|
(4)
|
||||||||||||
_
|
dI , ч , ^ , — (x,y) + —(x,y)
dx ) \dy
|
||||||||||||
|
|||||||||||||
где dI / dx – величина градиента в направлении x и dI / dy – величина градиента в направлении y.
Направление градиента задается следующим выражением:
|
|||||||||||||
|
|||||||||||||
|
dI dI
, dy dx
|
|
|||||||||||
в = arctan
|
(5)
|
||||||||||||
|
|||||||||||||
Для реализации алгоритма воспользуемся приближенным вычислением градиента (4):
|
|||||||||||||
|
|||||||||||||
AI(x, y)\ = yj(I(x, y) Ф MX f + (I(x, y) Ф MY )2 ,
|
(6)
|
||||||||||||
|
|||||||||||||
где Ф - операция свертки; MX и MY - матрицы оператора Собеля [5]:
|
|||||||||||||
|
|||||||||||||
MX =
|
[-1-2-1]
0 0 0
1 2 1
|
Г-1 0 1
|
|||||||||||
MY =
|
2 0 1 0
|
||||||||||||
|
|||||||||||||
Алгоритм поиска оттиска печати с использованием градиента яркости можно разбить на следующие этапы:
1. Выделение окрестности, содержащей оттиск печати.
2. Уменьшение масштаба изображения.
3. Вычисление градиента и его направления.
4. Преобразование Хафа.
5. Поиск максимума в фазовом пространстве.
6. Вывод изображения печати на экран. Оценим вычислительную сложность модифицированного алгоритма по
сравнению с базовым алгоритмом. С этой целью выберем простой пример
|
|||||||||||||
|
|||||||||||||
58
|
|||||||||||||
|
|||||||||||||
|
|||
ЭФФЕКТИВНОСТЬ АЛГОРИТМОВ ПОИСКА
ОТТИСКА ПЕЧАТИ В ИЗОБРАЖЕНИИ ВЕСТНИК ТОГУ. 2009. № 4(15)
ДОКУМЕНТА
|
I*
|
||
|
|||
изображения с размером N х N, в котором точки интереса представляют собой окружность заданного радиуса R.
Выполним расчет количества вычислительных операций для базового алгоритма. Для монохромного изображения процесс поиска точек интереса выполняется с помощью операции сравнения всех точек со значением «0» или «1», и этот процесс аналогичен в модифицированном алгоритме.
Так как положение координат центра (а, Ь) окружности заранее неизвестно, задаем диапазон изменения координат:
R < а,Ъ < (N - R) . (7)
Для каждой точки интереса с координатами (х, у) при заданных параметрах (а, Ь) вычисляем уравнение (3) и, если оно истинно, считаем, что точка принадлежит окружности. Оценим количество вычислительных операций базового алгоритма для каждой точки окружности по следующей формуле:
Мо ={4С± +3Cpow )-(N-2R)2, (8)
где С+ - операция суммирования (вычитания); С - операция возведения в
степень.
Для модифицированного алгоритма учитываем операции вычисления градиента (6) и его направления (5), а также изменение диапазона координат центра только в направлении градиента. В результате получим количество вычислительных операций для модифицированного алгоритма:
М1 = (18С+ + Csqrt + Catm) + (4С+ + 3Cpow) • л/2 • (N - 2R), (9)
где С t - операция вычисления корня; С t - операция вычисления арктангенса.
Сравнение (8) и (9) показывает, что количество вычислительных операций для модифицированного алгоритма уменьшается пропорционально величине (N - 2R) и зависит от размера окружности.
Следует отметить, что при обработке реальных изображений оттиска печати с целью повышения вероятности обнаружения, зона поиска координат центра печати может быть расширена. В этом случае задается небольшая окрестность в направлении градиента и при этом количество вычислительных операций увеличивается.
Алгоритм реализован в виде программы поиска печати в среде Borland C++ Builder 6.0, интерфейс которой аналогичен рисунку. Дополнительно в опции настройки введен выбор алгоритма поиска с использование градиента яркости.
|
|||
|
|||
59
|
|||
|
|||
|
||
Т\
|
||
|
||
В результате экспериментов получено, что при коэффициенте масштабирования (3:1) среднее время поиска составляет не более 1 с. При этом вероятности обнаружения ≈ 95 %.
Таким образом, по сравнению с базовым методом использование градиента яркости позволяет увеличить быстродействие алгоритма поиска печати примерно в 30 раз. К недостатку алгоритма следует отнести незначительное снижение вероятности обнаружения печати.
В заключение следует отметить, что кроме рассмотренных алгоритмов на основе преобразования Хафа при решении задачи поиска объектов заданной геометрической формы можно использовать и другие алгоритмы. Например, фрактальные алгоритмы [6] и другие.
Библиографические ссылки
1. Мариничев К., Вежневец В. Алгоритмы выделения параметрических кривых на основе преобразование Хафа // Компьютерная графика и мультимедиа. 2006. № 1(11).
2. Ecabert O., Thiran J-P. Adaptive Hough transform for the detection of natural shapes under weak affine transformations // Pattern Recognition Letters. 2004. № 12(25).
3. Дуда З., Харт П. Распознавание образов и анализ сцен. М., 1976.
4. Сойфера В .А. Методы компьютерной обработки изображений. М., 2003.
5. Гонсалес Р. Цифровая обработка изображений. М., 2005.
6. Перегуда Е. С., Сай С. В. Методы сокращения объема вычислений в алгоритмах фрактального сжатия изображений // Вестник ТОГУ. 2006. № 1.
|
||
|
||
60
|
||
|
||