:: Основная идея работы ::
Объектом исследования данного научного проекта является интерактивная программная система распознавания символов на основе искусственных нейронных сетей, её внутренняя структура.
Анализ существующих систем и методов распознавания показывает, что задача распознавания графических образов не решена в полной мере. Все существующие системы распознавания показывают хорошие результаты только при строго ограниченных параметрах входных образов и наличии дополнительной информации об их содержании. Тем не менее, известно, что проблема распознавания образов очень актуальна и вполне решаема. Например, человек без труда решает эту задачу даже при предъявлении ему зашумленных и/или искажённых образов.
Задача распознавания паттернов или графических образцов относится к классу NP- задач. Это требует поиска новых методов решения. При обработке изображения документа можно выделить несколько этапов – выделение полей, содержащих предполагаемые графические образы, распознавание графических образов, проверка результатов распознавания. На каждом этапе используются свои методы обработки. При этом эффективность решения задачи распознавания зависит от выбранной комбинации методов обработки изображения [1].
В работе рассматривается применение нейронных сетей для распознавания конечного числа паттернов, произвольно расположенных на анализируемом участке изображения. Мы предполагаем, что возможный «подозрительный» участок выделен и бинаризован и в таком виде поступает на вход нейронной сети. Таким образом, мы выясняем присутствует ли искомый образец на этом участке или нет. Задачу поиска этого участка на всем изображении целесообразнее решать с помощью других методов, например, с помощью морфологии.
Внимание привлекла возможность использования нейронных сетей в силу их «инвариантности» к расположению, ориентации распознаваемого графического образца.
Актуальность использования распознавания образов (идентификации) на основании нейронных сетей обусловлена широкой областью применения. Это: системы идентификации номеров, системы контроля доступа, электронной коммерции, банковские системы и т.п. Уже имеются примеры конкретных реализаций систем ограничения доступа к мобильным персональным телекоммуникационным и вычислительным устройствам, системы пропускного контроля на пограничных постах и аэропортах. Сегодня существует более чем 10,000 компьютеризированных мест, хранилищ, исследовательских лабораторий, банков крови, банкоматов, военных сооружений, доступ к которым контролируется устройствами, которые сканируют уникальные физиологические или поведенческие характеристики индивидуума [2].
В качестве первоисточников номерного знака используются, как правило, видео- и фото изображения. При этом на них могут присутствовать объекты произвольного вида [7]. Поэтому перед непосредственным анализом изображенных предметов необходимо выполнить ряд предварительных операций, позволяющих получить изображение самих объектов без посторонних изображений [9].
В большинстве автоматизированных систем обработки изображений выполняется распознавание отдельных объектов (их фрагментов) по заданным объектно-геометрическим параметрам. При этом обрабатываемое изображение локально неоднородно и распознаваемый объект может делиться на подобъекты и элементарные объекты [13].
Для эффективного использования таких изображений используются разные подходы к декомпозиции модели данных, позволяющие представить общую модель как совокупность иерархически взаимосвязанных более простых моделей разного уровня иерархии [5].
Одним из самых распространенных методов решения этих задач является контурная сегментация.
Методы контрастной сегментации используются во многих областях, где объекты на анализируемых изображениях обладают большой сложностью и многофакторностью, что обусловливает высокие требования к надёжности, точности и достоверности результатов исследований. Использование вычислительной техники и математических методов в этой области позволяет не только ускорить процесс обработки материала, но и повысить точность результатов исследования [5].
Быстрое развитие цифровой техники в последнее время открывает новые возможности в реализации этих методов. Увеличение быстродействия вычислительной техники позволяет использовать сложные, критичные ко времени алгоритмы, а благодаря появлению цветных телевизионных датчиков высокого разрешения можно получать и обрабатывать цветные изображения. Именно новые технические возможности позволяют значительно расширить круг исследований, открывают новые пути решения задач, касающихся анализа изображений [2].
Наиболее типичные методы контрастной сегментации: метод определенного окна и метод цепных кодов.
Граница – контрастная область изображения, содержащая резкое различие яркости между двумя соседними пикселями. Такие перепады яркости, как правило, являются границами объекта, где фон и яркость самого объекта значительно отличаются. Существует множество различных методов выделения границ. Они могут сочетаться с коррекцией по гистограммам и бинаризацией изображения. Самые распространенные методы выделения границ: алгоритмы Собеля, Кенни, Робинсона [13].
На подготовительном этапе метода определенного окна находят области, содержащие необходимую контрастность (высокую или, наоборот, низкую). Далее создается окно, исходя из примерных размеров и формы искомого объекта, и считается количество граней в «подозрительных» областях. Если оно находится в заданном диапазоне – объект выделен. Диапазон количества граней выбирается экспериментально [16].
Недостаток использования данного метода заключается в том, что выбранный порог бинаризации не может работать хорошо на всех изображениях. Освещение, цвета могут влиять на качество бинаризации изображения. Ещё один недостаток метода – низкая скорость работы, так как значения всех пикселей в выделенном окне должны быть неоднократно суммированы. Третий существенный недостаток – низкое качество распознавания. Поэтому необходимо дополнительно использовать другие методы. Метод контурной сегментации способен определить местонахождение объекта с вероятностью около 73%.
Метод цепного кодирования был предложен Фриманом [2]. Он заключается в том, чтобы границу объекта, расположенного на дискретной сетке, представить в виде набора элементарных отрезков. Тогда полной характеристикой границы объекта в каждой точке является направление требуемого отрезка (1 – вверх, 2 – вправо, 3 – вниз, 4 - влево). Предполагается, что точки на границе являются только 4-х связными (модификация метода использует 8-связную модель).
Несомненным достоинством представления границы изображаемого объекта цепным кодом является простота реализации алгоритма его описания, простота получения на основе этого описания геометрических характеристик объекта (периметр, площадь, линейные размеры по вертикали и горизонтали и др.), возможность достижения инвариантности к преобразованиям подобия – масштабированию изображения, его переносу и повороту [17].
Основным недостатком данного метода является высокая неустойчивость получаемых описаний к искажениям в изображениях [2].
После выделения изображения номерного знака, которое представляет собой двумерный монохромный сигнал, оно разбивается на множество областей (паттернов) образов реальных символов контурными границами. Примеры паттернов, полученных после преобразования снимков с видеокамеры, показаны на рис. 1.
Рисунок 1 – Символы номерного знака
Проблема распознавания изображений изучается много лет. Разработано много различных методов и алгоритмов распознавания образов [7, 8], но эффективность каждого из них очень сильно зависит от решаемой задачи.
Свойства искусственных нейронных сетей позволяют продуктивно использовать их на этапе распознавания выделенных номерных знаков (рис. 2, 3).
Рисунок 2 – Визуализация выделения изображений номерных знаков. Анимация (Ulead GIF Animator 5), 720x288 px, 111 Кб, 4 кадров с задержкой 150 мс между кадрами; количество циклов воспроизведения ограничено 10-ю.
Рисунок 3 – Бинаризованный двоичный образ входного символа и желаемый результат распознавания – порядковый номер буквы
Однако требуется выбрать тип нейронной сети и её архитектуру для качественного решения задачи распознавания цифр и букв русского языка, обеспечивающей правильное считывание информации с изображения и её анализ с целью идентификации автомобильного номерного знака даже при наличии помех.
В рамках проведенного исследования выполнено сравнение самых распространенных видов нейронных сетей с точки зрения эффективности распознавания.
Анализ показал, что хороший результат дают нейросети обратного распространения ошибки и сети Кохонена.
Нейросети обратного распространения по структуре аналогичны сети Кохонена, но функционируют и обучаются иначе. Сигнал с выходных нейронов или нейронов скрытого слоя частично передается обратно на входы нейронов входного слоя (обратная связь) [4].
К недостаткам относят низкую скорость обучения [15].
Среди преимуществ можно выделить то, что обратное распространение - эффективный и популярный алгоритм обучения многослойных нейронных сетей, с его помощью решаются многочисленные практические задачи.
Модификации алгоритма обратного распространения связаны с использованием разных функций погрешности, разных процедур определения направления и величины шага.
Для оценки эффективности использовалось три фундаментальных понятия: емкость, сложность образцов и вычислительная сложность. Под емкостью понимают, сколько образцов может запомнить сеть, и какие границы принятия решений могут быть на ней сформированы. Сложность образцов определяет число обучающих примеров, необходимых для достижения способности сети к обобщению. Вычислительная сложность связана с мощностью процессора ЭВМ.
Исследования показали высокую эффективность нейронной сети обратного распространения. Поэтому был проведен ряд исследований, с целью оценки качества распознавания арабских цифр и букв на номерном знаке автомобиля с помощью нейронной сети обратного распространения.
В качестве объекта исследования была взята архитектура нейронной сети обратного распространения (рис. 4).
Рисунок 4 - Многослойный персептрон
Предметом исследования являются способы построения рациональной архитектуры нейронной сети, качественного обучающего множества и алгоритмов обучения искусственной нейронной сети обратного распространения.
Поставлены следующие задачи:
-
Выделение специфических особенностей букв и цифр русского языка;
-
Анализ основных подходов к построению систем распознавания символов русского языка и арабских цифр;
-
Разработка программы идентификации автомобильных номерных знаков с помощью нейронной сети обратного распространения и её экспериментальная апробация;
-
Исследование архитектуры нейронной сети с целью найти такое распределение нейронов по слоям и значения её весовых коэффициентов, которые позволят максимально повысить качество распознавания автомобильных номерных знаков.
Для исследования использовались методы цифровой обработки изображений, нейронные классификаторы, морфологические методы селекции элементов изображения.
Основные результаты работы:
Исследовано влияние начального приближения весовых коэффициентов на качество обучения и распознавания. Наилучшие результаты получались при случайном распределении начальных значений весовых коэффициентов. Самое эффективное распределение начальных значений весов – это распределенные по нормальному закону с нулевым математическим ожиданием и среднеквадратичным значением дисперсии, обратным количеству входов или нейронов на предыдущем слое.
-
Исследовано влияние типа функции активации на качество распознавания. Были рассмотрены функции гистерезис и сигмоид.
Гистерезис - несложная для реализации кусочно-линейная функция (рис. 5а). Она имеет два линейных участка, на которых функция активации тождественно равна минимально допустимому и максимально допустимому значению и есть участок, на котором функция строго монотонно возрастает [12].
а) б)
Рисунок 5 – Функции активации – а) гистерезис, б) логистическая функция активации
Однако, в качестве активационной функции в большинстве многослойных персептронов, как правило, используется непрерывная сигмоидальная функция (рис. 5б), в частности, логистическая:
где a – параметр наклона сигмоидальной функции. Изменяя этот параметр, можно построить функции с различной крутизной. Именно использование логистической функции дает лучший результат распознавания.
Сигмоид ограничивает диапазон изменения выходного сигнала между нулем и единицей, что повышает устойчивость нейросети. Благодаря нелинейности функции активации многослойный персептрон обладают хорошей представляющей способностью. Дополнительное преимущество сигмоида состоит в автоматическом контроле усиления сигнала.
-
Получены графики изменения погрешности при обучении трёхслойной нейросети (7x7x14) для разных размеров обучающего множества (рис. 6). Были взяты 10, 25 и 40 образов, используемых в номерах автомобиля.
Рисунок 6 – Графики изменения погрешности в процессе обучения нейросети
-
Получены графики изменения погрешности при обучении трёхслойной нейросети (7x7x14) для разного числа нейронов в первом и втором скрытых слоях (рис. 7). Были взяты 5, 10 и 15 нейронов.
Рисунок 7 – Графики изменения погрешности в процессе обучения нейросети для разного числа нейронов в первом скрытом слое
Графики зависимости погрешности для разного числа нейронов во втором скрытом слое аналогичны.
В результате исследований установлены параметры архитектуры нейронной сети, дающие лучшие результаты: распределение нейронов по слоям 15x15x41.
-
Получена зависимость качества распознавания от времени обучения нейросети с распределением нейронов по слоям 15x15x41 (табл. 1).
Из таблицы видно, что высокий процент распознавания достигается при сравнительно небольшом времени обучения нейронной сети.
Анализ полученных результатов показал, что наилучшей распознающей способностью для данного класса печатных символов обладает трёхслойная нейронная сеть обратного распространения (15x15x41) с сигмоидальной функцией активации.
Нейронные сети Кохонена [4] служат, в первую очередь, для визуализации и первоначального («разведывательного») анализа данных [14].
Сигнал в рассматриваемую сеть Кохонена поступает сразу на все нейроны входного слоя. Выходной сигнал этого слоя формируется по принципу «победитель забирает всё» - ненулевой выходной сигнал формируется на ближайшем к подаваемому на вход объекту нейроне [3].
Рисунок 8 – Структура нейросети Кохонена со слоем Гроссберга: а) слой Кохонена; б) слой Гроссберга
В процессе обучения веса синапсов настраиваются таким образом, чтобы узлы решетки «располагались» в местах локальных сгущений данных, то есть описывали кластерную структуру «облака данных», с другой стороны, связи между нейронами соответствуют отношениям соседства между соответствующими кластерами в пространстве признаков [6].
Недостатком данной нейросети является то, что в случае близкого расположения входных обучающих векторов обучение будет проводиться за более длительное время. При этом, некоторые нейроны не используются, а нагрузка на остальные – повышена [3, 11].
Преимущество сети Кохонена заключается в способности функционировать в условиях препятствий, весы модифицируются плавно и подстройка весов (обучение) заканчивается очень быстро.
Одна из модификаций нейросети состоит в том, что к сети Кохонена прибавляется сеть MAXNET, которая определяет нейрон с наименьшим расстоянием к входному сигналу [10].
В ходе анализа была использована другая модификация, в которой нейрон-победитель брался не один, а несколько – это позволило сократить время обучения и повысить качество распознавания.
|