|
Федоров Антон Васильович
Факультет: Комп'ютерних наук і технологій
Спеціальність: Програмне забезпечення автоматизованих систем
Тема випускної роботи:«Дослідження методів контурної сегментації будування системи оптичного розпізнавання символів»
Керівник: к.т.н., доцент кафедри ПМіI Федяєв О.І.
|
Автореферат
|
Біографія
Реферат
|
:: Вступ ::
Сучасний стан розвитку комп'ютерних технологій дозволяє застосовувати системи розпізнавання в широкому діапазоні областей, у тому числі і в області автоматичного розпізнавання символів [1]. Завдання розпізнавання символів як і раніше є актуальним, оскільки його необхідно вирішувати при ідентифікації номерних знаків автомобілів і так далі Вже створені автоматизовані системи для розпізнавання символів англійської, японської, китайської мов. Для інших мов (наприклад, російської) необхідні додаткові дослідження [13]. Просте вживання існуючих алгоритмів у багатьох випадках неможливе із-за наявності в кожній мові своїх специфічних символів, знаків і лінгвістики побудови текстів.
|
:: Актуальність теми ::
Актуальність завдання розпізнавання автомобільних номерів полягає в тому, що останнім часом зросла інтенсивність автомобільного руху і кількість автомобільних аварій. Система, що розробляється, автоматично відстежує порушників дорожнього руху і записує автомобільні номери порушників в базу даних.
|
:: Цілі і завдання, які повинні вирішуватися ::
Метою роботи є дослідження і розробка методів, алгоритмів і програм розпізнавання знаків, символів, цифр і букв російської мови, аналіз, що забезпечують, і обробку інформації на зображенні з метою виявлення, локалізації і ідентифікації автомобільного номерного знаку.
Досягнення поставленої мети визначило необхідність рішення наступних завдань:
Аналіз методів і засобів сегментації.
Структура і функції системи оптичного розпізнавання символів.
Вибір методу бінаризації початкового зображення.
Розробка і дослідження алгоритмів контурної сегментації.
Вибір методу розпізнавання та оцінка його ефективності.
Розробка програмного забезпечення системи оптичного розпізнавання номерів автомобіля.
|
:: Плановані практичні результати ::
Після закінчення роботи по розробці програмної системи планується отримати працездатний програмний проект, призначений для впровадження в систему контролю дорожнього руху.
|
:: Огляд досліджень і розробок за темою ::
У світі вже існують розробки, що стосуються подібних програмних систем. Найбільш успішні з них:
Система «Авто-Инспектор» - програмно-апаратний комплекс, що забезпечує розпізнавання номерів автомобілів, що рухаються; надійно працює в широкому діапазоні зовнішніх умов, легко інтегрується з охоронним устаткуванням та зовнішніми базами даних.
Ефективний для вирішення завдань реєстрації, ідентифікації і забезпечення безпеки автомобілів, контролю транспортних потоків.
Система оптичної ідентифікації номерів автомобілів «Штрих-М». Система призначена для автоматичного обліку руху автомобілів, розпізнавання автомобільних номерів, визначення маси автомобілів, візуального огляду вантажу, контролю дотримання маси автомобілів.
Система дозволяє:
здійснювати відеоспостереження за зоною зважування, записувати відеозображення, фіксуючи проходження автомобілів;
автоматично детектувати проходження автомобіля. Детекція проводиться апаратними засобами (промінь), що гарантує стовідсоткову достовірність;
автоматично розпізнавати номери автомобілів по відеозображенню. Розпізнавання ведеться в реальному часі, результати розпізнавання негайно відображуються на моніторі оператора. Для підвищення достовірності результату і в разі використання автопричіпів розпізнавання ведеться по двох телекамерах (спереду і ззаду);
здійснювати зважування автомобілів;
виконувати прив'язку маси автомобіля до його номера;
автоматично оцінювати рівень наливання рідини в автоцистернах (за наявності тепловізора);
записувати результати розпізнавання і зважування в спеціалізовану базу даних – протокол;
зіставляти інформацію в протоколі з натурним аркушем або іншим джерелом інформації, і виводити відповідну відмітку в разі виявлення невідповідностей;
здійснювати оперативний пошук автомобілів по протоколу з можливістю відтворення відповідного відеофрагменту;
формувати звіти за даними з протоколу, у тому числі звідні, з врахуванням зіставлення інформації з протоколу з натурним аркушем.
Відмінності від моєї роботи полягають в тому, що «Штрих-М» працює у вужчих умовах, нестійкий до перешкод різних видів [11].
На національному рівні розробляються зчитувачі автомобільних номерів Київською фірмою «Аллан». Вони забезпечують висококонтрастні зображення автомобільних номерів в межах всього спектру умов навколишнього освітлення, від повної темноти до сліпучого сонячного світла і світла автомобільних фар. Оптимальні для роботи з програмним забезпеченням для розпізнавання автомобільних номерів.
Представники локального рівня:
Полтава Сергій Олександрович, «Розпізнавання зображень» (джерело: газета «Компьютер-Інформ»). Розглядаються основні процедури і методи розпізнавання зображень, структура методів розпізнавання, особливості при проектуванні роботизованих систем. На відміну від моєї роботи, в системі не використовуються нейронні мережі, що підвищують швидкість розпізнавання.
Афанасенко Андрій Вікторович, «Розробка гібридної спеціалізованої системи розпізнавання образів на базі нечітких нейронних мереж» [15]. У роботі Андрія Вікторовича використовується нейромережа в завданні розпізнавання образів. Проте не розглядається потрібна для підвищення якості розпізнавання архітектура нейромережі.
|
:: Наукова новизна ::
Використання розроблених нейромережевих структур і алгоритмів навчання забезпечить високу швидкість розпізнавання заданих символів за рахунок розпаралелювання обчислень.
Дослідження та вибір найбільш відповідних до конкретного завдання методів контурної сегментації, бінаризації і т.д. дозволить знизити умови розпізнавання, що дуже важливо в завданні розпізнавання автомобільного номера.
|
:: Основна ідея роботи ::
Об'єктом дослідження даного наукового проекту є інтерактивна програмна система розпізнавання символів на основі штучних нейронних мереж, її внутрішня структура.
Аналіз існуючих систем і методів розпізнавання показує, що задача розпізнавання графічних образів не вирішена повною мірою. Всі існуючі системи розпізнавання показують добрі результати тільки при строго обмежених параметрах вхідних образів і наявності додаткової інформації про їх зміст. Проте, відомо, що проблема розпізнавання образів дуже актуальна і цілком вирішувана. Наприклад, людина без зусиль вирішує цю задачу навіть при пред'явленні йому зашумленних і/або спотворених образів.
Завдання розпізнавання патернів або графічних зразків відноситься до класу NP- завдань. Це вимагає пошуку нових методів рішення. При обробці зображення документа можна виділити декілька етапів – виділення полий, що містять передбачувані графічні образи, розпізнавання графічних образів, перевірка результатів розпізнавання. На кожному етапі використовуються свої методи обробки. При цьому ефективність рішення задачі розпізнавання
залежить від вибраної комбінації методів обробки зображення [1].
У роботі розглядається застосування нейронних мереж для розпізнавання кінцевого числа патернів, довільно розташованих на аналізованій ділянці зображення. Ми припускаємо, що можлива «підозріла» ділянка виділена і бінаризує і у такому вигляді поступає на вхід нейронної мережі. Таким чином, ми з'ясовуємо чи присутній шуканий зразок на цій ділянці чи ні. Завдання пошуку цієї ділянки на усьому зображенні доцільніше вирішувати за допомогою інших методів, наприклад, за допомогою морфології.
Увагу притягнула можливість використання нейронних мереж через їх «інваріантність» до розташування, орієнтації розпізнаваного графічного зразка.
Актуальність використання розпізнавання образів (ідентифікації) на підставі нейронних мереж обумовлена широкою сферою застосування. Це: системи ідентифікації номерів, системи контролю доступу, електронної комерції, банківські системи і тому подібне Вже є приклади конкретних реалізацій систем обмеження доступу до мобільних персональних телекомунікаційних і обчислювальних пристроїв, системи пропускного контролю на пограничних постах і аеропортах. Сьогодні існує більш ніж 10,000 комп'ютеризованих місць, сховищ, дослідницьких лабораторій, банків крові, банкоматів, військових споруд, доступ до яких контролюється пристроями, які сканують унікальні фізіологічні або поведінкові характеристики індивідуума [2].
Як першоджерела номерного знаку використовуються, як правило, видео- і фото зображення. При цьому на них можуть бути присутніми об'єкти довільного виду [7]. Тому перед безпосереднім аналізом зображених предметів необхідно виконати ряд попередніх операцій, що дозволяють отримати зображення самих об'єктів без сторонніх зображень [9].
У більшості автоматизованих систем обробки зображень виконується розпізнавання окремих об'єктів (їх фрагментів) по заданих об'єктно-геометричних параметрах. При цьому оброблюване зображення локальне неоднорідний і розпізнаваний об'єкт може ділитися на підоб'єкти і елементарні об'єкти [13].
Для ефективного використання таких зображень використовуються різні підходи до декомпозиції моделі даних, дозволяючих представити загальну модель як сукупність ієрархічно взаємозв'язаних простіших моделей різного рівня ієрархії [5].
Одним з найпоширеніших методів рішення цих завдань є контурна сегментація.
Методи контрастної сегментації використовуються в багатьох областях, де об'єкти на аналізованих зображеннях мають велику складність і многофакторностью що обумовлює високі вимоги до надійності, точності і достовірності результатів досліджень. Використання обчислювальної техніки і математичних методів в цій області дозволяє не лише прискорити процес обробки матеріалу, але і підвищити точність результатів дослідження [5].
Швидкий розвиток цифрової техніки останнім часом відкриває нові можливості в реалізації цих методів. Збільшення швидкодії обчислювальної техніки дозволяє використовувати складні, критичні до часу алгоритми, а завдяки появі кольорових телевізійних датчиків високого розділення можна отримувати і обробляти кольорові зображення. Саме нові технічні можливості дозволяють значно розширити круг досліджень, відкривають нові шляхи рішення завдань, що стосуються аналізу зображень [2].
Найбільш типові методи контрастної сегментації : метод певного вікна і метод ланцюгових кодів.
Межа - контрастна область зображення, що містить різку відмінність яскравості між двома сусідніми пікселями. Такі перепади яскравості, як правило, є межами об'єкту, де фон і яскравість самого об'єкту значно відрізняються. Існує безліч різних методів виділення меж. Вони можуть поєднуватися з корекцією по гістограмах і бінаризацією зображення. Найпоширеніші методи виділення меж : алгоритми Собеля, Кенні, Робінсона [13].
На підготовчому етапі методу певного вікна знаходять області, що містять необхідну контрастність (високу або, навпаки, низьку). Далі створюється вікно, виходячи із зразкових розмірів і форми шуканого об'єкту, і вважається кількість граней в «підозрілих» областях. Якщо воно знаходиться в заданому діапазоні - об'єкт виділений. Діапазон кількості граней вибирається експериментально.
Недолік використання цього методу полягає в тому, що вибраний поріг бінаризації не може працювати добре на усіх зображеннях. Освітлення, кольори можуть впливати на якість бінаризації зображення. Ще один недолік методу - низька швидкість роботи, оскільки значення усіх пікселів у виділеному вікні мають бути неодноразово підсумовувані. Третій істотний недолік - низька якість розпізнавання. Тому необхідно додатково використовувати інші методи. Метод контурної сегментації здатний визначити місцезнаходження об'єкту з вірогідністю близько 73%.
Метод ланцюгового кодування був запропонований Фріманом [2]. Він полягає в тому, щоб межу об'єкту, розташованого на дискретній сітці, представити у вигляді набору елементарних відрізків. Тоді повною характеристикою межі об'єкту в кожній точці є напрям необхідного відрізку (1 – вгору, 2 – управо, 3 – вниз, 4 – вліво). Передбачається, що точки на межі являються тільки 4-х зв'язковими (модифікація методу використовує 8-зв'язну модель).
Безперечною гідністю представлення межі зображуваного об'єкту ланцюговим кодом є простота реалізації алгоритму його опису, простота отримання на основі цього опису геометричних характеристик об'єкту (периметр, площа, лінійні розміри по вертикалі і горизонталі та ін.), можливість досягнення інваріантності до перетворень подібності - масштабування зображення, його перенесення і повороту.
Основним недоліком цього методу є висока нестійкість отримуваних описів до спотворень в зображеннях [2].
Після виділення зображення номерного знаку, яке є двовимірним монохромним сигналом, воно розбивається на безліч областей (патернів) образів реальних символів контурними межами. Приклади патернів, отриманих після перетворення знімків з відеокамери, показані на мал. 1.
Малюнок 1 – Символи номерного знаку
Проблема розпізнавання зображень вивчається багато років. Розроблено багато різних методів і алгоритмів розпізнавання образів [7, 8], але ефективність кожного з них дуже сильно залежить від задачі, що вирішується.
Властивості штучних нейронних мереж дозволяють продуктивно використовувати їх на етапі розпізнавання виділених номерних знаків (мал. 2, 3).
Малюнок 2 – Візуалізація виділення зображень номерних знаків. Анімація (Ulead GIF Animator 5), 720x288 px, 111 Кб, складається з 4 кадрів із затримкою 150 мс між кадрами; кількість циклів відтворення обмежена 10-ма.
Малюнок 3 - Бінаризований двійковий образ вхідного символу і бажаний результат розпізнавання - порядковий номер букви
Проте вимагається вибрати тип нейронної мережі і її архітектуру для якісного вирішення завдання розпізнавання цифр і букв російської мови, що забезпечує правильне прочитування інформації із зображення і її аналіз з метою ідентифікації автомобільного номерного знаку навіть за наявності перешкод.
У рамках проведеного дослідження виконано порівняння найпоширеніших видів нейронних мереж з точки зору ефективності розпізнавання.
Аналіз показав що добрий результат дають нейромережі зворотного поширення помилки і мережі Кохонена.
Нейромережі зворотного поширення по структурі аналогічні мережі Кохонена, але функціонують і навчаються інакше. Сигнал з вихідних нейронів або нейронів прихованого шару частково передається назад на входи нейронів вхідного шару (зворотний зв'язок) [4].
До недоліків відносять низьку швидкість навчання [15].
Серед переваг можна виділити те, що зворотне поширення - ефективний і популярний алгоритм навчання багатошарових нейронних мереж з його допомогою вирішуються численні практичні завдання.
Модифікації алгоритму зворотного поширення пов'язані з використанням різних функцій погрішності, різних процедур визначення напряму і величини кроку.
Для оцінки ефективності використовувалися три фундаментальні поняття:
місткість, складність зразків і обчислювальна складність. Під місткістю розуміють, скільки зразків може
запам'ятати мережу, і які межі ухвалення рішень можуть бути на ній сформовані. Складність зразків
визначає число повчальних прикладів, необхідних для досягнення здатності мережі до узагальнення.
Обчислювальна складність пов'язана з потужністю процесора ЕОМ.
Дослідження показали високу ефективність нейронної мережі зворотного поширення. Тому були проведені ряд досліджень, з метою оцінки якості розпізнавання арабських цифр і букв на номерному знаку автомобіля за допомогою нейронної мережі зворотного поширення.
За об'єкт дослідження була взята архітектура нейронної мережі зворотного поширення (мал. 4).
Малюнок 4 - Багатошаровий персептрон
Предметом дослідження є способи побудови раціональної архітектури нейронної мережі, якісної повчальної множини і алгоритмів навчання штучної нейронної мережі зворотного поширення.
Поставлені наступні завдання:
Виділення специфічних особливостей букв і цифр російської мови;
Аналіз основних підходів до побудови систем розпізнавання символів російської мови і арабських цифр;
Розробка програми ідентифікації автомобільних номерних знаків за допомогою нейронної мережі зворотного поширення і її експериментальна апробація;
Дослідження архітектури нейронної мережі з метою знайти такий розподіл нейронів по шарах і значення її вагових коефіцієнтів, які дозволять максимально підвищити якість розпізнавання автомобільних номерних знаків.
Для дослідження використовувалися методи цифрової обробки зображень, нейронні класифікатори, морфологічні методи селекції елементів зображення.
Аналіз отриманих результатів показав, що найкращу здатність, що розпізнає, для цього класу друкарських символів має тришарова нейронна мережа зворотного поширення (15x15x41) з сигмоїдальною функцією активації.
Нейронні мережі Кохонена [4] використовують, в першу чергу, для візуалізації і первинного («розвідувального») аналізу даних [14].
Сигнал в дану мережу Кохонена поступає відразу на усі нейрони вхідного шару. Вихідний сигнал цього шару формується за принципом «переможець забирає усе» - ненульовий вихідний сигнал формується на найближчому до об'єкту, що подається на вхід, нейроні [3].
Малюнок 8 - Структура нейромережі Кохонєна з шаром Гросберга: а) шар Кохонєна; б) шар Гросберга
В процесі навчання ваги синапсів настроюються так, щоб вузли грат «розташовувалися» в місцях локальних згущувань даних, тобто описували кластерну структуру «хмари даних», з іншого боку, зв'язки між нейронами відповідають стосункам сусідства між відповідними кластерами в просторі ознак [6].
Недоліком цієї нейромережі є те що у разі близького розташування вхідних повчальних векторів навчання проводитиметься за більш тривалий час. При цьому, деякі нейрони не використовуються, а навантаження на інші - підвищена [3, 11].
Перевага мережі Кохонена полягає в здатності функціонувати в умовах перешкод, ваги модифікуються плавно і підстроювання вагів (навчання) закінчується дуже швидко.
Одна з модифікацій нейромережі полягає в тому, що до мережі Кохонена додається мережа MAXNET, яка визначає нейрон з найменшою відстанню до вхідного сигналу [10].
В ході аналізу була використана інша модифікація, в якій нейрон-переможець брався не один а декілька - це дозволило скоротити час навчання і підвищити якість розпізнавання.
|
:: Результати роботи ::
На даний момент закінчений аналіз вибраної предметної області, сформовані технічні вимоги. Розроблена структура БД, що задовольняє предметній області. Вибрано програмне середовище, краще всього відповідне для цієї розробки. Почата розробка програмної системи на основі сформульованих вимог.
Погляд на систему розпізнавання автомобільних номерів як реалізацію потужного програмного комплексу - основа цієї роботи. Більшість систем РАН існуючих сьогодні в Україні, майже не розглядаються комплексно як складні програмні системи. Тому цілком природним є виникнення потреби створення саме такої моделі, яка давала б цілісний погляд на процес побудови ефективних систем комп'ютерної підтримки розпізнавання автомобільних номерів.
Ця спроба реалізована в роботі за допомогою нейромережевої архітектури, яка є новою, дуже перспективною технологією завдяки здатності до розпаралелювання. Для процесу розпізнавання автомобільних номерів в реальному часі дуже важливим є той факт, що нейронна мережа мінімізує час розпізнавання.
У перспективі планується додатковий аналіз методів розпізнавання з метою максимізації якості розпізнавання. Передбачається вирішити завдання і для нічного видео- фотографування.
Також планується додавання функціональності.
|
:: Література ::
- Аль-Рашайда Хасан Хусейн. Исследование и разработка методов локализации, идентификациии и распознавания арабских символов (на примере номерного знака автомобиля). – СПб.: ЛЭТИ, 2008 – 18 с.
- Антощук С., Крилов В., Бабілунга О. Ієрархічна модель контурної сегментації зображень // Праці 8-ї Міжнародн. конф. «Оброблення сигналів і зображень (УкрОБРАЗ’2006)».- Київ: НАН України – Інститут кібернетики. - 2006. - С.109
- Вороновский Г.К., Махотило К.В., Петрашев С.Н., Сергеев С.А. Генетические алгоритмы, искусственные нейронные сети и проблемы виртуальной реальности. — Харьков: Основа, 1997. — 112 с.
- Головко В.А. Нейронные сети: обучение и применение. — М.: ИПРЖР, 2001.
- Гонсалес Р., Вудс Р. Цифровая обработка изображений. – М.: Техносфера, 2005. – 1072 с.
- Горбань А.Н., Дунин-Барковский В.Л., Кирдин А.Н. и др. Нейроинформатика. — Новосибирск: Наука: Сибирское предприятие РАН, 1998. — 296 с.
- Дуда Р., Харт П. «Распознавание образов и анализ сцен» - М.: Мир, 1976.
- Комарцова Л.Г. Нейрокомпьютеры. — М.: Изд-во МГТУ им. Баумана, 2002. — 576 с.
- Копитчук М.Б., Олещук О.В. Попередня обробка зображень // Праці 6-ї Міжнародн. конф. «Оброблення сигналів і зображень (УкрОБРАЗ’2002)».- Київ: НАН України – Інститут кібернетики. - 2002. - С.127-130.
- Тархов Д.А. Нейронные сети. Модели и алгоритмы. — М.: Радиотехника, 2005. — 243 с.
- Уоссерман Д. Нейрокомпьютерная техника: Теория и практика. — М.: Мир, 1992.
- Уидроу Б., Стирнз С. Адаптивная обработка сигналов. — М.: "Радио и связь", 1989.
- Методы компьютерной обработки изображений / под ред. Сойфера В.А. – 2-е изд., испр. – М.: ФИЗМАТЛИТ, 2003. – 784 с.
- Распознавание изображений (источник: газета «Компьютер-Информ») / Портал магистров ДонНТУ, — http://www.masters.donntu.ru/2006/fvti/poltava/library/article5.htm
- Афанасенко А.В., «Разработка гибридной специализированной системы распознавания образов на базе нечетких нейронных сетей». [Электронный ресурс] / Портал магистров ДонНТУ, — http://www.masters.donntu.ru/2003/kita/afanasenko/diss/index.htm
|
:: Примітка ::
Автореферат носить оглядовий характер і не є повною версією дисертаційної праці, оскільки планується продовження роботи над дисертацією протягом осіннього семестру 2010 р.. Остаточне завершення - 1 грудня 2010 р.. Повний текст роботи і матеріали по темі можуть бути отримані у автора або його керівника після вказаної дати.
|