Биография | Реферат | Библиотека | Ссылки | Отчет о поиске | Индивидуальный раздел | ДонНТУ | Портал магистров ДонНТУ |
Источник: Будет опубликовано в материалах шестой всеукраинской научно-технической конференции студентов, аспирантов и молодых ученых «Информационные управляющие системы и компьютерный мониторинг», ДонНТУ, Донецк, 12-15 мая 2010 г.
Федяев О.И., Фёдоров А.В.
Донецкий национальный технический университет
Аннотация
Фёдоров А.В., Федяев О.И. Выбор архитектуры нейронной сети обратного распространения для распознавания печатных символов. В статье оценивается возможность применения нейронной сети обратного распространения для распознавания печатных символов. С помощью разработанной программной модели анализируется эффективность нейронной сети, использующей разные функции активации, распределение числа нейронов по слоям, подходы к формированию начального приближения весовых коэффициентов. На основе исследований выбрана архитектура нейронной сети, которая минимизирует ошибку распознавания.
Постановка задачи исследования.
Современное состояние развития компьютерных технологий позволяет применять системы распознавания в широком диапазоне областей, в том числе и в области автоматического распознавания символов [1]. Задача распознавания символов по-прежнему является актуальной, т. к. её необходимо решать при идентификации номерных знаков автомобилей, вагонов, считывании текста и т.д. Уже созданы автоматизированные системы для распознавания символов английского, японского, китайского языков. Для других языков (например, русского) необходимы дополнительные исследования [2]. Простое применение существующих алгоритмов во многих случаях невозможно из-за наличия в каждом языке своих специфических символов, знаков и лингвистики построения текстов.
Проблема автоматизированного ввода в компьютер текстовой информации также не потеряла своей актуальности. Более того, она приобретает всё большую остроту в связи с интеллектуализацией диалога с компьютерными системами.
Благодаря доступности и невысокой стоимости мощных микропроцессоров в настоящее время появляется возможность практической реализации различных систем распознавания, например для видеоконтроля за автомобильным движением, где требуется распознавать номера автомобилей [1].
Решение задачи и результаты исследований.
Данная работа посвящена разработке автоматизированной системы распознавания печатных русских цифр и символов русского языка, что важно для многих предметных областей, в том числе и в области локализации и распознавания номерных знаков, состоящих из данных символов. Это связано с тем, что в последнее время возросла интенсивность автомобильного движения и количество автомобильных аварий. Разрабатываемая система автоматически отслеживает нарушителей дорожного движения и записывает автомобильные номера нарушителей в базу данных. Такой автоматический контроль будет способствовать снижению количества нарушений и аварийности на дорогах Украины.
Анализ подобных систем распознавания показал, что они, во-первых, дают неудовлетворительные результаты на изображениях низкого качества (которые, как правило, и получают с видеокамер), во-вторых, не распознают сложные (разноплановые) изображения, т. к. на них трудно локализовать требуемую область распознавания, и, в-третьих, все они ориентированы на строго определенные условия (освещенность, угол поворота камеры, яркость и т.д.).
Распознавание автомобильного номера включает следующие этапы: бинаризацию, сегментацию, локализацию номера, выделение отдельных номерных знаков и их распознавание.
В данной работе рассматривается задача распознавания изолированных номерных знаков, т.к. предыдущие этапы освещены в работах [3, 4].
Свойства искусственных нейронных сетей позволяют продуктивно использовать их на этапе распознавания выделенных номерных знаков (рис. 1, 2).
Однако требуется выбрать тип нейронной сети и её архитектуру для качественного решения задачи распознавания цифр и букв русского языка, обеспечивающей правильное считывание информации с изображения и её анализ с целью идентификации автомобильного номерного знака даже при наличии помех.
Объектом исследования является архитектура нейронной сети обратного распространения (рис. 3), которая является наиболее распространенной.
Предметом исследования являются способы построения рациональной архитектуры нейронной сети, качественного обучающего множества и алгоритмов обучения искусственной нейронной сети обратного распространения.
Целью работы является оценка качества распознавания арабских цифр и букв на номерном знаке автомобиля с помощью нейронной сети обратного распространения.
Были поставлены следующие задачи:
Для исследования использовались методы цифровой обработки изображений, нейронные классификаторы, морфологические методы селекции элементов изображения.
Основные результаты работы:
Исследовано влияние начального приближения весовых коэффициентов на качество обучения и распознавания. Наилучшие результаты получались при случайном распределении начальных значений весовых коэффициентов. Самое эффективное распределение начальных значений весов – это распределенные по нормальному закону с нулевым математическим ожиданием и среднеквадратичным значением дисперсии, обратным количеству входов или нейронов на предыдущем слое.
Исследовано влияние типа функции активации на качество распознавания. Были рассмотрены функции гистерезис и сигмоид.
Гистерезис - несложная для реализации кусочно-линейная функция (см. рис. 4). Она имеет два линейных участка, на которых функция активации тождественно равна минимально допустимому и максимально допустимому значению и есть участок, на котором функция строго монотонно возрастает.
Однако, в качестве активационной функции в большинстве многослойных персептронов, как правило, используется непрерывная сигмоидальная функция (рис. 5), в частности, логистическая:
где a – параметр наклона сигмоидальной функции. Изменяя этот параметр, можно построить функции с различной крутизной. Именно использование логистической функции дает лучший результат распознавания.
Сигмоид ограничивает диапазон изменения выходного сигнала между нулем и единицей, что повышает устойчивость нейросети. Благодаря нелинейности функции активации многослойный персептрон обладают хорошей представляющей способностью. Дополнительное преимущество сигмоида состоит в автоматическом контроле усиления сигнала.
Получены графики изменения погрешности при обучении трёхслойной нейросети (7x7x14) для разных размеров обучающего множества (рис. 6). Были взяты 10, 25 и 40 образов, используемых в номерах автомобиля.
Получены графики изменения погрешности при обучении трёхслойной нейросети (7x7x14) для разного числа нейронов в первом и втором скрытых слоях (рис. 7). Были взяты 5, 10 и 15 нейронов.
Графики зависимости погрешности для разного числа нейронов во втором скрытом слое аналогичны.
В результате исследований установлены параметры архитектуры нейронной сети, дающие лучшие результаты: распределение нейронов по слоям 15x15x41.
Получена зависимость качества распознавания от времени обучения нейросети с распределением нейронов по слоям 15x15x41 (табл. 1).
Таблица 1.
Из таблицы видно, что высокий процент распознавания достигается при сравнительно небольшом времени обучения нейронной сети.
Анализ полученных результатов показал, что наилучшей распознающей способностью для данного класса печатных символов обладает трёхслойная нейронная сеть обратного распространения (15x15x41) с сигмоидальной функцией активации.
Выводы.
Была показана применимость нейронной сети обратного распространения при распознавании символов номерного знака автомобиля. На обучающем множестве из сорока одного образа и с заданной ошибкой в 0.01 выбранная архитектура нейронной сети обучается за 150 эпох.
Основываясь на результатах исследований можно сделать вывод о возможности применения нейронной сети обратного распространения в распознавании печатных символов.
Литература