:: Основна ідея роботи ::
Об'єктом дослідження даного наукового проекту є інтерактивна програмна система розпізнавання символів на основі штучних нейронних мереж, її внутрішня структура.
Аналіз існуючих систем і методів розпізнавання показує, що задача розпізнавання графічних образів не вирішена повною мірою. Всі існуючі системи розпізнавання показують добрі результати тільки при строго обмежених параметрах вхідних образів і наявності додаткової інформації про їх зміст. Проте, відомо, що проблема розпізнавання образів дуже актуальна і цілком вирішувана. Наприклад, людина без зусиль вирішує цю задачу навіть при пред'явленні йому зашумленних і/або спотворених образів.
Завдання розпізнавання патернів або графічних зразків відноситься до класу NP- завдань. Це вимагає пошуку нових методів рішення. При обробці зображення документа можна виділити декілька етапів – виділення полий, що містять передбачувані графічні образи, розпізнавання графічних образів, перевірка результатів розпізнавання. На кожному етапі використовуються свої методи обробки. При цьому ефективність рішення задачі розпізнавання
залежить від вибраної комбінації методів обробки зображення [1].
У роботі розглядається застосування нейронних мереж для розпізнавання кінцевого числа патернів, довільно розташованих на аналізованій ділянці зображення. Ми припускаємо, що можлива «підозріла» ділянка виділена і бінаризує і у такому вигляді поступає на вхід нейронної мережі. Таким чином, ми з'ясовуємо чи присутній шуканий зразок на цій ділянці чи ні. Завдання пошуку цієї ділянки на усьому зображенні доцільніше вирішувати за допомогою інших методів, наприклад, за допомогою морфології.
Увагу притягнула можливість використання нейронних мереж через їх «інваріантність» до розташування, орієнтації розпізнаваного графічного зразка.
Актуальність використання розпізнавання образів (ідентифікації) на підставі нейронних мереж обумовлена широкою сферою застосування. Це: системи ідентифікації номерів, системи контролю доступу, електронної комерції, банківські системи і тому подібне Вже є приклади конкретних реалізацій систем обмеження доступу до мобільних персональних телекомунікаційних і обчислювальних пристроїв, системи пропускного контролю на пограничних постах і аеропортах. Сьогодні існує більш ніж 10,000 комп'ютеризованих місць, сховищ, дослідницьких лабораторій, банків крові, банкоматів, військових споруд, доступ до яких контролюється пристроями, які сканують унікальні фізіологічні або поведінкові характеристики індивідуума [2].
Як першоджерела номерного знаку використовуються, як правило, видео- і фото зображення. При цьому на них можуть бути присутніми об'єкти довільного виду [7]. Тому перед безпосереднім аналізом зображених предметів необхідно виконати ряд попередніх операцій, що дозволяють отримати зображення самих об'єктів без сторонніх зображень [9].
У більшості автоматизованих систем обробки зображень виконується розпізнавання окремих об'єктів (їх фрагментів) по заданих об'єктно-геометричних параметрах. При цьому оброблюване зображення локальне неоднорідний і розпізнаваний об'єкт може ділитися на підоб'єкти і елементарні об'єкти [13].
Для ефективного використання таких зображень використовуються різні підходи до декомпозиції моделі даних, дозволяючих представити загальну модель як сукупність ієрархічно взаємозв'язаних простіших моделей різного рівня ієрархії [5].
Одним з найпоширеніших методів рішення цих завдань є контурна сегментація.
Методи контрастної сегментації використовуються в багатьох областях, де об'єкти на аналізованих зображеннях мають велику складність і многофакторностью що обумовлює високі вимоги до надійності, точності і достовірності результатів досліджень. Використання обчислювальної техніки і математичних методів в цій області дозволяє не лише прискорити процес обробки матеріалу, але і підвищити точність результатів дослідження [5].
Швидкий розвиток цифрової техніки останнім часом відкриває нові можливості в реалізації цих методів. Збільшення швидкодії обчислювальної техніки дозволяє використовувати складні, критичні до часу алгоритми, а завдяки появі кольорових телевізійних датчиків високого розділення можна отримувати і обробляти кольорові зображення. Саме нові технічні можливості дозволяють значно розширити круг досліджень, відкривають нові шляхи рішення завдань, що стосуються аналізу зображень [2].
Найбільш типові методи контрастної сегментації : метод певного вікна і метод ланцюгових кодів.
Межа - контрастна область зображення, що містить різку відмінність яскравості між двома сусідніми пікселями. Такі перепади яскравості, як правило, є межами об'єкту, де фон і яскравість самого об'єкту значно відрізняються. Існує безліч різних методів виділення меж. Вони можуть поєднуватися з корекцією по гістограмах і бінаризацією зображення. Найпоширеніші методи виділення меж : алгоритми Собеля, Кенні, Робінсона [13].
На підготовчому етапі методу певного вікна знаходять області, що містять необхідну контрастність (високу або, навпаки, низьку). Далі створюється вікно, виходячи із зразкових розмірів і форми шуканого об'єкту, і вважається кількість граней в «підозрілих» областях. Якщо воно знаходиться в заданому діапазоні - об'єкт виділений. Діапазон кількості граней вибирається експериментально.
Недолік використання цього методу полягає в тому, що вибраний поріг бінаризації не може працювати добре на усіх зображеннях. Освітлення, кольори можуть впливати на якість бінаризації зображення. Ще один недолік методу - низька швидкість роботи, оскільки значення усіх пікселів у виділеному вікні мають бути неодноразово підсумовувані. Третій істотний недолік - низька якість розпізнавання. Тому необхідно додатково використовувати інші методи. Метод контурної сегментації здатний визначити місцезнаходження об'єкту з вірогідністю близько 73%.
Метод ланцюгового кодування був запропонований Фріманом [2]. Він полягає в тому, щоб межу об'єкту, розташованого на дискретній сітці, представити у вигляді набору елементарних відрізків. Тоді повною характеристикою межі об'єкту в кожній точці є напрям необхідного відрізку (1 – вгору, 2 – управо, 3 – вниз, 4 – вліво). Передбачається, що точки на межі являються тільки 4-х зв'язковими (модифікація методу використовує 8-зв'язну модель).
Безперечною гідністю представлення межі зображуваного об'єкту ланцюговим кодом є простота реалізації алгоритму його опису, простота отримання на основі цього опису геометричних характеристик об'єкту (периметр, площа, лінійні розміри по вертикалі і горизонталі та ін.), можливість досягнення інваріантності до перетворень подібності - масштабування зображення, його перенесення і повороту.
Основним недоліком цього методу є висока нестійкість отримуваних описів до спотворень в зображеннях [2].
Після виділення зображення номерного знаку, яке є двовимірним монохромним сигналом, воно розбивається на безліч областей (патернів) образів реальних символів контурними межами. Приклади патернів, отриманих після перетворення знімків з відеокамери, показані на мал. 1.

Малюнок 1 – Символи номерного знаку
Проблема розпізнавання зображень вивчається багато років. Розроблено багато різних методів і алгоритмів розпізнавання образів [7, 8], але ефективність кожного з них дуже сильно залежить від задачі, що вирішується.
Властивості штучних нейронних мереж дозволяють продуктивно використовувати їх на етапі розпізнавання виділених номерних знаків (мал. 2, 3).

Малюнок 2 – Візуалізація виділення зображень номерних знаків. Анімація (Ulead GIF Animator 5), 720x288 px, 111 Кб, складається з 4 кадрів із затримкою 150 мс між кадрами; кількість циклів відтворення обмежена 10-ма.

Малюнок 3 - Бінаризований двійковий образ вхідного символу і бажаний результат розпізнавання - порядковий номер букви
Проте вимагається вибрати тип нейронної мережі і її архітектуру для якісного вирішення завдання розпізнавання цифр і букв російської мови, що забезпечує правильне прочитування інформації із зображення і її аналіз з метою ідентифікації автомобільного номерного знаку навіть за наявності перешкод.
У рамках проведеного дослідження виконано порівняння найпоширеніших видів нейронних мереж з точки зору ефективності розпізнавання.
Аналіз показав що добрий результат дають нейромережі зворотного поширення помилки і мережі Кохонена.
Нейромережі зворотного поширення по структурі аналогічні мережі Кохонена, але функціонують і навчаються інакше. Сигнал з вихідних нейронів або нейронів прихованого шару частково передається назад на входи нейронів вхідного шару (зворотний зв'язок) [4].
До недоліків відносять низьку швидкість навчання [15].
Серед переваг можна виділити те, що зворотне поширення - ефективний і популярний алгоритм навчання багатошарових нейронних мереж з його допомогою вирішуються численні практичні завдання.
Модифікації алгоритму зворотного поширення пов'язані з використанням різних функцій погрішності, різних процедур визначення напряму і величини кроку.
Для оцінки ефективності використовувалися три фундаментальні поняття:
місткість, складність зразків і обчислювальна складність. Під місткістю розуміють, скільки зразків може
запам'ятати мережу, і які межі ухвалення рішень можуть бути на ній сформовані. Складність зразків
визначає число повчальних прикладів, необхідних для досягнення здатності мережі до узагальнення.
Обчислювальна складність пов'язана з потужністю процесора ЕОМ.
Дослідження показали високу ефективність нейронної мережі зворотного поширення. Тому були проведені ряд досліджень, з метою оцінки якості розпізнавання арабських цифр і букв на номерному знаку автомобіля за допомогою нейронної мережі зворотного поширення.
За об'єкт дослідження була взята архітектура нейронної мережі зворотного поширення (мал. 4).

Малюнок 4 - Багатошаровий персептрон
Предметом дослідження є способи побудови раціональної архітектури нейронної мережі, якісної повчальної множини і алгоритмів навчання штучної нейронної мережі зворотного поширення.
Поставлені наступні завдання:
Виділення специфічних особливостей букв і цифр російської мови;
Аналіз основних підходів до побудови систем розпізнавання символів російської мови і арабських цифр;
Розробка програми ідентифікації автомобільних номерних знаків за допомогою нейронної мережі зворотного поширення і її експериментальна апробація;
Дослідження архітектури нейронної мережі з метою знайти такий розподіл нейронів по шарах і значення її вагових коефіцієнтів, які дозволять максимально підвищити якість розпізнавання автомобільних номерних знаків.
Для дослідження використовувалися методи цифрової обробки зображень, нейронні класифікатори, морфологічні методи селекції елементів зображення.
Аналіз отриманих результатів показав, що найкращу здатність, що розпізнає, для цього класу друкарських символів має тришарова нейронна мережа зворотного поширення (15x15x41) з сигмоїдальною функцією активації.
Нейронні мережі Кохонена [4] використовують, в першу чергу, для візуалізації і первинного («розвідувального») аналізу даних [14].
Сигнал в дану мережу Кохонена поступає відразу на усі нейрони вхідного шару. Вихідний сигнал цього шару формується за принципом «переможець забирає усе» - ненульовий вихідний сигнал формується на найближчому до об'єкту, що подається на вхід, нейроні [3].

Малюнок 8 - Структура нейромережі Кохонєна з шаром Гросберга: а) шар Кохонєна; б) шар Гросберга
В процесі навчання ваги синапсів настроюються так, щоб вузли грат «розташовувалися» в місцях локальних згущувань даних, тобто описували кластерну структуру «хмари даних», з іншого боку, зв'язки між нейронами відповідають стосункам сусідства між відповідними кластерами в просторі ознак [6].
Недоліком цієї нейромережі є те що у разі близького розташування вхідних повчальних векторів навчання проводитиметься за більш тривалий час. При цьому, деякі нейрони не використовуються, а навантаження на інші - підвищена [3, 11].
Перевага мережі Кохонена полягає в здатності функціонувати в умовах перешкод, ваги модифікуються плавно і підстроювання вагів (навчання) закінчується дуже швидко.
Одна з модифікацій нейромережі полягає в тому, що до мережі Кохонена додається мережа MAXNET, яка визначає нейрон з найменшою відстанню до вхідного сигналу [10].
В ході аналізу була використана інша модифікація, в якій нейрон-переможець брався не один а декілька - це дозволило скоротити час навчання і підвищити якість розпізнавання.
|