Реферат - Дослідження методів класифікації колекцій цифрових зображень

Реферат за темою випускної роботи

Зміст

Вступ
1. Актуальність теми
2. Мета і задачі дослідження та заплановані результати
3. Огляд досліджень та розробок
Висновки
Перелік посилань

Вступ

Комп'ютерний зір – теорія та наукова дисципліна, яка має на меті виявлення і розпізнавання предметів на зображеннях або в відео потоці, відноситься до теорії створення штучних систем. Незважаючи на актуальність розпізнавання образів, існує складність розпізнавання комп'ютером, адже на відміну від людини комп'ютер не володіє можливістю визначати відносність всіх видимих предметів або предметів, що він коли-небудь бачив, і мати в пам'яті базу всіх форм і варіацій для кожного об'єкта, які ймовірно будуть розпізнаватися.

1. Актуальність теми

Людина десь 90 % іформации про навколишній світ отримує завдяки зору. У сфері комп'ютерних технологій джерелом інформації може виступати текст аудіо-/відеофайл або зображення. Дуже часто, а в основному в мережі Інтернет, виникає необхідність знайти те або інше зображення. За останні роки фотографія стала популярним захопленням серед людей завдяки доступу до апаратного забезпечення, як мінімум, практично в кожен телефон вбудована камера. Фотографії мають властивість накопичуватися і з часом може ускладнитися пошук по каталогу знімків [4]. Пошук зображення також має пряме відношення до розпізнавання, адже йому упереджає класифікація зображення. Може знадобитися пошук по подібності зображення або фотографії, наприклад, лікарської рослини, отруйної комахи. Може виникнути потреба знаходження супутниками або зондами географічних або великих об'єктів на Землі або в космосі. А також класифікація зображень може бути застосована у сфері медицини для діагностування захворювань за допомогою зображення результатів УЗИ, рентгена, магнітно-резонансної томографії. Прикладів для застосування розпізнавання образів ще дуже багато. Можна згадати окрему категорію – розпізнавання осіб, вживану для ідентифікації особи при такій необхідності, як діставання доступу за біометричними даними у системах безпеки, виявлення злочинців і зниклих людей по знімках і так далі. Також розпізнавання образів має велике значення в робототехніці, якщо має місце просторова мінливість довкілля або розташування об'єктів. Ці приклади доводять необхідність вивчення і розвитку методів класифікації зображень.

2. Мета і задачі дослідження та заплановані результати

Метою цієї роботи є дослідження існуючих підходів до класифікації колекцій цифрових зображень. Декомпозиція мети може дати список передбачуваних завдань дослідження:

безпосередньо вивчення методів класифікації зображень;
створення тестової колекції зображень;
реалізація різних методів на базі тестової колекції;
анотування кожного зображення;
класифікація колекції в цілому;
констатація переваг і недоліків різних методів;
у реалізації можлива модифікація або комбінація різних методів.

Об'єкт дослідження - методи класифікація зображень. Предмет дослідження - достоїнства і недоліки методів класифікації зображень.

3. Огляд досліджень та розробок

Перш, ніж приступити к огляду методів, варто уточнити, що на зображенні яке піддаватиметься класифікації, буде знаходиться один або декілька образів а образ – деяка впорядкована сукупність дескрипторів [1], що однозначно характеризують цей образ. Що стосується дескрипторів, то їх тип може варіюватися залежно від самого методу.

Розпізнавання на основі методів теорії рішень

Його підхід грунтується на використанні вирішальних або дискримінантів функцій. Нехай є n-мірний вектор ознак об'єкту. Припустимо, що існує W класів образів. Вимагається знайти W дисриминантных функцій, таких, що якщо образ x належить деякому класу, то дискримінантна функція з індексом i має більше значення, ніж інші. У методах розпізнавання, грунтованих на зіставленні, кожен клас представляється вектором ознак образу, що є прототипом цього класу. Незнайомий образ приписується до того класу, прототип якого виявляється найближчим в сенсі заздалегідь заданої метрики. Простий підхід полягає у використанні класифікатора, заснованого на мінімальній відстані, що, як ясно з назви, обчислює эвклидовы відстані між вектором ознак невідомого об'єкту і кожним вектором прототипу. Рішення про приналежність об'єкту до певного класу приймається за найменшою з таких відстаней. Метод кореляційного зіставлення полягає в тому, що є еталон, що шукається на зображенні методом ковзаючого вікна [1].

Ще один підхід – статистично оптимальні класифікатори (баєсовский). Як і в більшості областей, пов'язаних з виміром і інтерпретацією фізичних явищ, імовірнісні підходи виявляються важливими в завданні розпізнавання образів через випадковості, що впливають на породження класів образів. Можна виробити такий метод класифікації, що буде оптимальним в тому сенсі, що при його використанні досягатиметься найменша (в середньому) вірогідність появи помилок класифікації. Байесовский підхід є класичним в теорії розпізнавання образів і є в основі багатьох методів. Він спирається на теорему про те, що якщо щільність розподілу класів відома, то алгоритм класифікації, що має мінімальну вірогідність помилок, можна виписати в явному виді. Одним з найуспішніших застосувань байесовского класифікатора є його використання в завданні классичикации даних дистанційного зондування, реєстрованих за допомогою мультиспектральних сканерів, встановлених на борту літака, супутника або орбітальної станції [1].

У розглянутих підходах суть навчання проста. Повчальні образи кожного класу використовуються для обчислення параметрів функції дискримінанта, що відповідає цьому класу. Після того, як оцінки необхідних параметрів отримані, структура класифікатора стає фіксованою, і його остаточна якість залежить лише від того, наскільки добре реальні сукупності образів відповідають статистичним припущенням, спочатку зробленим при виведенні використовуваного методу класифікації [1].

У реальних завданнях статистичні властивості класів образів часто невідомі або их слкадно оцінити. На практиці для таких завдань теорії рішень ефективнішими виявляються методи, в яких необхідні функції дискримінантів будуються безпосередньо в ході навчання. Це усуває необхідність використати припущення про функції щільності розподілу вірогідності або про які-небудь інші імовірнісні параметри даних класів [1]. Для здійснення цієї задумки використовується математична модель побудована за принципом роботи нервових клітин живих організмів.

Одношарова нейронна мережа

Хоча один нейрон і здатний виконувати прості процедури розпізнавання, сила нейронних обчислень виникає від з'єднань нейронів в мережах. Проста мережа складається з групи нейронів, що утворюють шар як показано на рисинку 1. Відмітимо, що вершини-круги ліворуч служать лише для розподілу вхідних сигналів. Вони не виконують яких-небудь обчислень, і тому не вважатимуться шаром. Кожен елемент з множини входів Х окремою вагою сполучений з кожним штучним нейроном. А кожен нейрон видає зважену суму входів в мережу. У штучних і біологічних мережах багато з'єднань можуть бути відсутніми, усі з'єднання показані в цілях спільності. Можуть мати місце також з'єднання між виходами та входами елементів в слої [2].

Рисунок 1 – Одношарова нейронна мережа

Реалізація розпізнавання кола на одношаровій нейромережі

Звузимо завдання до розпізнавання кола. Нехай є колекція зображень кіл (монохромна для простоти), за допомогою якої робитиметься навчання нейромережі. Кожне зображення проходить попередню обробку: воно ділиться на сегменти, ніби на зображення накладається сітка.

В результаті виходить так звана матриця сегментів зображення, яку треба перетворити на матричну маску зображення, тобто якщо в поточному сегменті присутній пігмент кольору, це означає, що в матрицю заноситься одиниця, інакше 0. Є заздалегідь підготовлена і що ініціалізована будь-якими значеннями матриця вагів, бажано в межах від - 1 до 1. Але, як свідчить теорема про збіжність перцептрона, незалежно від того, які коефіцієнти вибрані, мережа за кінцеве число ітерацій знайде рішення. Матриця вагів такого ж розміру як і маска-матриця. Таким чином для здійснення навчання нам знадобляться дві ці матриці, порогове значення, про яке мова піде далі, і коефіцієнт швидкості навчання, який задає швидкість збіжності даних до бажаного результату.

Суть навчання полягатиме в тому, що елементи цих двох матриць перемножуватимуться поелементно і складатися в результат, що при навчанні повинен давати значення, яке перевищує заданий вами особисто поріг, наприклад 0.8. Якщо результат не перевищує поріг, означає необхідно перевчити мережу.

Рисунок 2 – Процес навчання мережі
(анімація: 7 кадрів, 10 циклів повторення, 142 кілобайта)

На анімації показаний процес навчання мережі, де F (X) – обчислення функції, необхідної для осуществеления завдання мережі, Y результат цієї функції, який порівнюватиме з еталонним значення gY. Результат порівняння вплине на подальший результат: або мережа продовжить навчатися (T (X) з результуючий правкою для X – ?X), або буде отриманий результат обчуения мережі Е.

Коли все ваги будуть налагоджені, тобто підходитимуть для кожного представлення кола у вигляді маски, то можна переходити на етап розпізнавання. Здійснюється в аналогічній формі, тільки без перенавчання, тобто якщо на першому етапі сумарне значення значень елементів матриці вагів і маски-матриці дає результат менше за потрібне, то відповідь готова – перед нами буде висновок про те, чи поступило на вхід коло.

Рисунок 3 – Результат роботы програми

Багатошарові нейронні мережі

Більші і складніші нейронні мережі володіють, як правило, і великими обчислювальними можливостями. Хоча створені мережі усіх конфігурацій, які тільки можна собі уявити, пошарова організація нейронів копіює шаруваті структури певних відділів мозку. Виявилось, що такі багатошарові мережі мають більші можливості, ніж одношарові, і останніми роками були розроблені алгоритми для їх навчання. Багатошарові мережі можуть утворюватися каскадами шарів. Вихід одного шару є входом для подальшого шару. Подібна мережа показана на рисунку 3 і знову зображена з усіма з'єднаннями [2].

Рисунок 3 – Багатошарова нейронна мережа

У роботі [12] описаний алгоритм розпізнавання особи на базі нейромережі із зворотним поширенням помилки з попередньою обробкою зображень методом головних компонент, що допомагає зробити безліч ознак зображення некорельованими. В работе [5] йдеться про распознавання людини по зображенню обличча нейромережевими методами. У роботі [10] йдеться про методи пошуку з урахуванням форми і розташування об'єктів в цифрових колекціях зображень, зокрема про те, що при пошуку графічних зображень за їх змістом застосовують такі ознаки, як колір, текстура, форма, просторові ознаки, характеристики, істотні для зорового сприйняття (зернистість, контрастність).

Неокогнітрон

Неокогнитрон є багатошаровою нейронною мережею, що самоорганизується. Незвичність неокогнитрона полягає в тому, що завдяки організації шарів динамічним чином мережа стає інваріантною відносно розташуваня, повороту розпізнаваного образу. В роботі [3] йдеться про неокогнитрон Фукушими. У роботі [6] описуються результати моделювання неокогнитрона з оптимізованими за часом виконання і простоті опису алгоритмами навчання і функціонування мережі, а також пропонується новий підхід до формування повчальних образів і зв'язків між шарами мережі. У роботах [9] [11] розглянутий випадок розпізнавання образів у разі наявності спотворень, описана модель і алгоритм навчання неокогнитрона. У роботі [8] описана структура і алгоритм навчання і роботи неокогнитрона для розпізнавання обличчя людини.

Нечітка логіка

Теорія нечітких великих множин оперує якісними поняттями, що характерно для людини, в той же час вона дає їм кількісну оцінку, що характерно для ЕОМ. Таким чином, об'єднуються гідності людського оперування знаннями і обчислювальна потужність ЕОМ. Нечітка логіка, яка служить основою для реалізації методів нечіткого управління, природніше описує характер людського мислення і хід його міркувань, чим традиційні формальнологічні системи. Саме тому використання математичних засобів для представлення нечіткої початкової інформації дозволяє будувати моделі, які найадекватніше відбивають різні аспекти невизначеності, постійно присутньої в тій середі, що оточує нас [14].

Нечітка логіка – розділ математики, що базується на основі поняття нечіткої множини. Ідея нечіткої множини полягає в тому, що елементи входять в неї по заданій функції приналежності, значення якої може варіюватися від 0 до 1, тобто з деякою мірою упевненості. Нечіткі логічні міркування можна представити у вигляді нейронної мережі і часто використовуються для вирішення завдання рапознавания образів.

У роботі [15] розглядається процес розпізнавання образів (на прикладі ідентифікації людини) з використанням математичного апарату нечіткої логіки. Для побудови системи розпізнавання об'єктів необхідно забезпечити як мінімум три основні етапи, а саме: поліпшення якості зображення шляхом фільтрації шумових складових, сегментації або кластеризації об'єктів, присутніх на зображенні, і, нарешті, класифікації образів. Слід зазначити, що результат розпізнавання однаковою мірою залежить від якості кожного з етапів, причому якщо на попередньому етапі був отриманий негативний результат, то подальші етапи тільки посилять цю помилку, що в цілому спричинить негативний результат для системи розпізнавання в цілому. Ще одним важливим моментом, який необхідно відмітити, є те, що на етапі класифікації образів величезну роль має набір вхідних даних для процесу класифікації. Якщо цей набір надмірний або, навпаки, недостатній, то це також може відбитися на якості розпізнавання. Як правило, безпосередньо перед процесом класифікації виконується процедура виділення характерних ознак вхідної інформації, тобто виділення найбільш значимої інформації та ігнорування малозначної [15].

Висновки

Найбільшою популярністю – по поширенню матеріалу в мережі Інтернет – користуються нейромережеві методи розпізнавання образів. Теорія нечітких множин також є потужним інструментом для побудови інтелектуальних апаратно-програмних систем розпізнавання образів. Також важливим чинником є те, наскільки добре зображення підготовлене для розпізнавання, тобто видалені шуми, і сама система розпізнавання повинна добре розуміти різницю між класами образів, тобто вони мають бути роздільними.
При написанні цього реферату магістерська робота ще не завершена. Остаточне завершення: січень 2015 року. Повний текст роботи і матеріали по темі можуть бути отримані у автора або керівника після вказаної дати.

Список источников

Р. Гонсалез, Р.Вудс Цифрова обробка зображень: Пер. з англ. – М.: Видавничий дом Техносфера, 2005. – С. 1073.
Основи штучних нейронних мереж [Електронний ресурс]. – Режим доступу: http://neuronets.chat.ru/foundations.html
С. А. Терехов Неокогнітрон Фукушими [Електронний ресурс]. – Режим доступу: http://www.masters.donntu.ru/2004/kita/stryukov/...
Д. Г. Мурадіна, Н. С. Костюкова Дослідження основних методів класифікації колекцій цифрових зображень. Інформаційні управляючі системи та комп’ютерний моніторинг (ІУС КМ – 2014) – 2014 / Матерiали V мiжнародної науково-технiчної конференцiї студентiв, аспiрантiв та молодих вчених. – Донецьк, ДонНТУ – 2014, Том 6, с. 262-265.
Д. В.Брилюк, В. В.Старовойтов Розпізнавання людини по зображенню обличчя нейромережевими методами [Електронний ресурс]. – Режим доступу: http://goo.gl/CHJzCn
Р. Х. Садихов, М. Е. Ваткин Алгоритм навчання нейронної мережі неокогнитрон для распознавания рукописных символов распознавания рукописных символов [Електронний ресурс]. – Режим доступу: http://neuroface.narod.ru/files/neocog_hand_writ.pdf
Олександра Вагис, Анатолий Гупал Ефективність баєсовських процедур розпізнавання [Електронний ресурс]. – Режим доступу: http://www.foibg.com/ibs_isc/ibs-15/ibs-15-p11.pdf
А. О. Сова Розпізнавання обличчя людини за допомогою нейронної мережі типу неокогнитрон [Електронний ресурс]. – Режим доступу: http://masters.donntu.ru/2011/fknt/sova/...
Ю. С. Махно Розпізнавання графічних образів за допомогою нейронної мережі типу неокогнитрон за наявності спотворень [Електронний ресурс]. – Режим доступу: http://masters.donntu.ru/2008/fvti/makhno/...
М. Ю. Похиль Методи пошуку з урахуванням форми і розташування об'єктів в цифрових колекціях зображень [Електронний ресурс]. – Режим доступу: http://masters.donntu.ru/2008/fvti/pohil/...
К. В. Дрига Розпізнавання зашумленных і спотворених образів за допомогою Неокогнитрону [Електронний ресурс]. – Режим доступу: http://masters.donntu.ru/2006/fvti/driga...
Hemant Singh Mittal, Harpreet Kaur Face Recognition Using PCA & Neural Network [Електронний ресурс]. – Режим доступу: http://www.ijese.org/attachments/File/v1i6/F0266041613.pdf
В. П. Полторак, Я. Ю. Дорогой Система розпізнавання образів на базі нечіткого нейронного класифікатора [Електронний ресурс]. – Режим доступу: http://aaecs.org/poltorak-vp-dorogoi-yayu-sistema...

Мурадіна Дарина Геннадіївна

Факультет комп'ютерних наук та технологій

Кафедра прикладної математики та інформатики

Спеціальність Інженерія програмного забезпечення

Дослідження методів класифікації колекцій цифрових зображень

Науковий керівник: к.т.н., доц. Костюкова Наталя Стефанівна