Федяев О.И. Фёдоров А.В. Выбор архитектуры нейронной сети обратного распространения для распознавания печатных символов.

Источник: Будет опубликовано в материалах шестой всеукраинской научно-технической конференции студентов, аспирантов и молодых ученых «Информационные управляющие системы и компьютерный мониторинг», ДонНТУ, Донецк, 12-15 мая 2010 г.

ВЫБОР АРХИТЕКТУРЫ НЕЙРОННОЙ СЕТИ ОБРАТНОГО РАСПРОСТРАНЕНИЯ ДЛЯ РАСПОЗНАВАНИЯ ПЕЧАТНЫХ СИМВОЛОВ.

Федяев О.И., Фёдоров А.В.
Донецкий национальный технический университет

Аннотация

Фёдоров А.В., Федяев О.И. Выбор архитектуры нейронной сети обратного распространения для распознавания печатных символов. В статье оценивается возможность применения нейронной сети обратного распространения для распознавания печатных символов. С помощью разработанной программной модели анализируется эффективность нейронной сети, использующей разные функции активации, распределение числа нейронов по слоям, подходы к формированию начального приближения весовых коэффициентов. На основе исследований выбрана архитектура нейронной сети, которая минимизирует ошибку распознавания.

Постановка задачи исследования.

Современное состояние развития компьютерных технологий позволяет применять системы распознавания в широком диапазоне областей, в том числе и в области автоматического распознавания символов [1]. Задача распознавания символов по-прежнему является актуальной, т. к. её необходимо решать при идентификации номерных знаков автомобилей, вагонов, считывании текста и т.д. Уже созданы автоматизированные системы для распознавания символов английского, японского, китайского языков. Для других языков (например, русского) необходимы дополнительные исследования [2]. Простое применение существующих алгоритмов во многих случаях невозможно из-за наличия в каждом языке своих специфических символов, знаков и лингвистики построения текстов.

Проблема автоматизированного ввода в компьютер текстовой информации также не потеряла своей актуальности. Более того, она приобретает всё большую остроту в связи с интеллектуализацией диалога с компьютерными системами.

Благодаря доступности и невысокой стоимости мощных микропроцессоров в настоящее время появляется возможность практической реализации различных систем распознавания, например для видеоконтроля за автомобильным движением, где требуется распознавать номера автомобилей [1].

Решение задачи и результаты исследований.

Данная работа посвящена разработке автоматизированной системы распознавания печатных русских цифр и символов русского языка, что важно для многих предметных областей, в том числе и в области локализации и распознавания номерных знаков, состоящих из данных символов. Это связано с тем, что в последнее время возросла интенсивность автомобильного движения и количество автомобильных аварий. Разрабатываемая система автоматически отслеживает нарушителей дорожного движения и записывает автомобильные номера нарушителей в базу данных. Такой автоматический контроль будет способствовать снижению количества нарушений и аварийности на дорогах Украины.

Анализ подобных систем распознавания показал, что они, во-первых, дают неудовлетворительные результаты на изображениях низкого качества (которые, как правило, и получают с видеокамер), во-вторых, не распознают сложные (разноплановые) изображения, т. к. на них трудно локализовать требуемую область распознавания, и, в-третьих, все они ориентированы на строго определенные условия (освещенность, угол поворота камеры, яркость и т.д.).

Распознавание автомобильного номера включает следующие этапы: бинаризацию, сегментацию, локализацию номера, выделение отдельных номерных знаков и их распознавание.

В данной работе рассматривается задача распознавания изолированных номерных знаков, т.к. предыдущие этапы освещены в работах [3, 4].

Свойства искусственных нейронных сетей позволяют продуктивно использовать их на этапе распознавания выделенных номерных знаков (рис. 1, 2).

Рисунок 1 – Выделенные изображения номерных знаков

Рисунок 2 – Бинаризованный двоичный образ входного символа и желаемый результат распознавания – порядковый номер буквы

Однако требуется выбрать тип нейронной сети и её архитектуру для качественного решения задачи распознавания цифр и букв русского языка, обеспечивающей правильное считывание информации с изображения и её анализ с целью идентификации автомобильного номерного знака даже при наличии помех.

Объектом исследования является архитектура нейронной сети обратного распространения (рис. 3), которая является наиболее распространенной.

Рисунок 3 - Многослойный персептрон

Предметом исследования являются способы построения рациональной архитектуры нейронной сети, качественного обучающего множества и алгоритмов обучения искусственной нейронной сети обратного распространения.

Целью работы является оценка качества распознавания арабских цифр и букв на номерном знаке автомобиля с помощью нейронной сети обратного распространения.

Были поставлены следующие задачи:

Выделение специфических особенностей букв и цифр русского языка;
Анализ основных подходов к построению систем распознавания символов русского языка и арабских цифр;
Разработка программы идентификации автомобильных номерных знаков с помощью нейронной сети обратного распространения и её экспериментальная апробация;
Исследование архитектуры нейронной сети с целью найти такое распределение нейронов по слоям и значения её весовых коэффициентов, которые позволят максимально повысить качество распознавания автомобильных номерных знаков.

Для исследования использовались методы цифровой обработки изображений, нейронные классификаторы, морфологические методы селекции элементов изображения.

Основные результаты работы:

Исследовано влияние начального приближения весовых коэффициентов на качество обучения и распознавания. Наилучшие результаты получались при случайном распределении начальных значений весовых коэффициентов. Самое эффективное распределение начальных значений весов – это распределенные по нормальному закону с нулевым математическим ожиданием и среднеквадратичным значением дисперсии, обратным количеству входов или нейронов на предыдущем слое.
Исследовано влияние типа функции активации на качество распознавания. Были рассмотрены функции гистерезис и сигмоид.

Гистерезис - несложная для реализации кусочно-линейная функция (см. рис. 4). Она имеет два линейных участка, на которых функция активации тождественно равна минимально допустимому и максимально допустимому значению и есть участок, на котором функция строго монотонно возрастает.

Рисунок 4 – Функция активации гистерезис

Однако, в качестве активационной функции в большинстве многослойных персептронов, как правило, используется непрерывная сигмоидальная функция (рис. 5), в частности, логистическая:

где a – параметр наклона сигмоидальной функции. Изменяя этот параметр, можно построить функции с различной крутизной. Именно использование логистической функции дает лучший результат распознавания.

Рисунок 5 – Логистическая функция активации

Сигмоид ограничивает диапазон изменения выходного сигнала между нулем и единицей, что повышает устойчивость нейросети. Благодаря нелинейности функции активации многослойный персептрон обладают хорошей представляющей способностью. Дополнительное преимущество сигмоида состоит в автоматическом контроле усиления сигнала.
Получены графики изменения погрешности при обучении трёхслойной нейросети (7x7x14) для разных размеров обучающего множества (рис. 6). Были взяты 10, 25 и 40 образов, используемых в номерах автомобиля.

Рисунок 6 – Графики изменения погрешности в процессе обучения нейросети
Получены графики изменения погрешности при обучении трёхслойной нейросети (7x7x14) для разного числа нейронов в первом и втором скрытых слоях (рис. 7). Были взяты 5, 10 и 15 нейронов.

Рисунок 7 – Графики изменения погрешности в процессе обучения нейросети для разного числа нейронов в первом скрытом слое

Графики зависимости погрешности для разного числа нейронов во втором скрытом слое аналогичны.

В результате исследований установлены параметры архитектуры нейронной сети, дающие лучшие результаты: распределение нейронов по слоям 15x15x41.
Получена зависимость качества распознавания от времени обучения нейросети с распределением нейронов по слоям 15x15x41 (табл. 1).

Таблица 1.

Из таблицы видно, что высокий процент распознавания достигается при сравнительно небольшом времени обучения нейронной сети.

Анализ полученных результатов показал, что наилучшей распознающей способностью для данного класса печатных символов обладает трёхслойная нейронная сеть обратного распространения (15x15x41) с сигмоидальной функцией активации.

Выводы.

Была показана применимость нейронной сети обратного распространения при распознавании символов номерного знака автомобиля. На обучающем множестве из сорока одного образа и с заданной ошибкой в 0.01 выбранная архитектура нейронной сети обучается за 150 эпох.

Основываясь на результатах исследований можно сделать вывод о возможности применения нейронной сети обратного распространения в распознавании печатных символов.

Литература

Аль-Рашайда Хасан Хусейн. Исследование и разработка методов локализации, идентификациии и распознавания арабских символов (на примере номерного знака автомобиля). – СПб.: ЛЭТИ, 2008 – 18 с.
Методы компьютерной обработки изображений / под ред. Сойфера В.А. – 2-е изд., испр. – М.: ФИЗМАТЛИТ, 2003. – 784 с.
Федяев О.И., Фёдоров А.В. Анализ методов контурной сегментации изображения // Сборник материалов четвёртой международной научно-технической конференции студентов, аспирантов и молодых ученых «Інформатика та комп'ютерні технології».- Донецк – ДонНТУ - 2008. – 64-65 с.
Федяев О.И., Фёдоров А.В. Сравнительный анализ методов контурной сегментации в системах оптического распознавания символов» // Сборник материалов пятой всеукраинской научно-технической конференции студентов, аспирантов и молодых ученых «Комп'ютерний моніторинг та інформаційні технології».- Донецк – ДонНТУ, 2009. – 120-121 с.

Биография | Реферат | Библиотека | Ссылки | Отчет о поиске | Индивидуальный раздел