Реферат — Дослідження розробки динамічної мови жестів для управління мультимедійним контентом

Реферат за темою:

Дослідження розробки динамічної мови жестів для управління мультимедійним контентом

Зміст

Вступ
1. Огляд відомостей про розпізнавання образів
1.1 Типи задач в розпізнаванні
1.2 Попередня обробка зображень
1.3 Виділення ознак об'єкта
2. Фільтрація зображень
3. Виділення меж
Висновки
Зауваження
Список джерел

Вступ

За рахунок зростання складності розв'язуваних науково-технічних завдань, автоматична обробка і аналіз візуальної інформації стають все більш актуальними питаннями. Дані технології використовуються в дуже затребуваних областях науки і техніки, таких як автоматизація процесів, підвищення продуктивності, підвищення якості виробів, що випускаються, контроль виробничого обладнання, інтелектуальні робототехнічні комплекси, системи управління рухомими апаратами, біомедичні дослідження та безліч інших.

Комп'ютерний зір є динамічно розвиваються напрямком сучасної науки. Невід'ємною частиною комп'ютерного зору є розпізнавання образів, вирішальне завдання визначення приналежності вхідного зображення до одного зі збережених еталонних зображень об'єктів. При створенні інтелектуальних систем також часто потрібно відстежувати стан рухомих об'єктів в реальному часі на основі зорової інформації, отриманої від відеокамери. Маючи в своєму розпорядженні поруч послідовних за часом цифрових зображень, можна виділити спеціальну інформацію про об'єкт і потім використовувати її для виявлення поточного стану об'єкта і відстеження його переміщень.

Основна мета дослідження розпізнавання жестів полягає в створенні системи, яка може визначити конкретні людські жести і використовувати їх для передачі інформації або для управління пристроєм.

1. Огляд відомостей про розпізнавання образів

Розпізнавання – це здатність живих організмів виявляти в потоці інформації, що надходить від органів чуття, певні об'єкти, закономірності, явища. Воно може здійснюватися на основі зорової, слуховий, тактильної інформації. Так, людина без праці може дізнатися іншого знайомого йому людини, глянувши на нього або почувши його голос. Деякі тварини активно використовують нюх для пізнавання інших особин і пошуку їжі.

Можливість розпізнавання спирається на схожість однотипних об'єктів. Незважаючи на те, що всі предмети і ситуації унікальні в строгому сенсі, між деякими з них завжди можна знайти подібності з того чи іншою ознакою. Звідси виникає поняття класифікації – розбиття всієї множини об'єктів на підмножини – класи, елементи яких мають деякі схожі властивості, що відрізняють їх від елементів інших класів. І, таким чином, завданням розпізнавання є віднесення розглянутих об'єктів або явищ по їх опису до потрібних класів. Тобто поняття розпізнавання можна розширити, якщо говорити про виявлення об'єктів в потоці не тільки чуттєвої, а й будь-якої іншої інформації. Наприклад, можна говорити про розпізнаванні хвороби по її симптомів у хворого або про розпізнавання соціальних явищі по статистичної інформації.

1.1 Типи задач в розпізнаванні

Системи розпізнавання мають типову функціональну схему, де вхідні дані, що підлягають розпізнаванню, подаються на вхід системи і піддаються передобробці з метою їх перетворення в необхідний для наступного етапу вид або для виділення з них необхідних характерних ознак. Далі на етапі прийняття рішення над опрацьованим масивом даних проводиться ряд обчислень і на основі їх результатів формується відповідь, що містить очікувані від системи відомості про вхідних даних. Зміст вхідних і вихідних даних визначається призначенням системи.

Крім описаних етапів функціонування системи розпізнавання передбачають свою настройку на безліч можливих вхідних даних; цей етап називають етапом навчання системи. Метою навчання системи є формування в її пам'яті набору відомостей, необхідних для розпізнавання передбачуваного класу вхідних даних.

На етапі попередньої обробки вирішується завдання створення формалізованого опису об'єктів розпізнавання, придатного для використання алгоритмами власне розпізнавання. Як правило, вихідні дані про спостережувані об'єкти представлені у формі, непридатною безпосередньо для розпізнавання. Це можуть бути растрові зображення, звукові файли, статистичні дані (числові набори), відеозапису. Деякі алгоритми розпізнавання вимагають більш високорівневого подання. Це призводить до необхідності провести одне або більше перетворень вихідних даних, переходячи від коду 0 до коду 1, 2 і т.д. Як приклад можна розглянути процедуру сегментації зображення, тобто виділення на ньому одноколірних областей.

Етап прийняття рішення є найбільш значущим в циклі роботи системи розпізнавання з точки зору її характеристики в цілому. Тобто завдання, яке вирішується на даному етапі, багато в чому визначає призначення системи. Крім того, для забезпечення можливості системи виконувати якісне прийняття рішень висувається ряд вимог до етапу навчання. Нарешті, як уже зазначалося вище, алгоритми етапу прийняття рішень вимагають необхідної предобработки вхідних даних.

1.2 Попередня обробка зображень

Операції розпізнавання на зображеннях певних об'єктів, як правило, передує обробкою зображень для створення умов, що підвищують ефективність і якість виділення і розпізнавання шуканих або досліджуваних об'єктів. Методи попередньої обробки залежать від завдань досліджень, досить різноманітні і можуть включати, наприклад, виділення найбільш інформативних фрагментів, їх збільшення, отримання 3-мірних зображень, цветокартірованіе, реалізація високого просторового дозволу, підвищення контрастного дозволу, поліпшення якості зображень і т.п.

1.3 Виділення ознак об'єкта

Виділення ознак дозволяє спростити реалізацію розпізнавання або ідентифікації об'єктів. При виборі найбільш інформативних ознак необхідно враховувати як властивості самих об'єктів, так і можливості роздільної здатності первинних формирователей сигналу зображення. Виділення ознак проведемо на прикладі обробки монохромних (одношарових) зображень. У кольорових зображеннях розглянуті алгоритми можна застосовувати до кожного кольору окремо.

При обробці кращими є наступні ознаки об'єктів:

площа і периметр зображення об'єкта;
розміри вписаних найпростіших геометричних фігур (кіл, прямокутників, трикутників і ін.);
число і взаємне розташування кутів;
моменти інерції зображень об'єктів.

Важливою особливістю більшості геометричних ознак є інваріантність щодо розвороту зображення об'єкта, а шляхом нормування геометричних ознак один щодо одного досягається інваріантність щодо масштабу зображення об'єкта.

2. Фільтрація зображень

Зазвичай зображення, сформовані різними інформаційними системами, спотворюються впливом перешкод. Це ускладнює як їх візуальний аналіз людиною-оператором, так і автоматичну обробку в ЕОМ. При вирішенні деяких завдань обробки зображень в ролі перешкод можуть виступати і ті чи інші компоненти самого зображення. Наприклад, при аналізі космічного знімка земної поверхні може стояти завдання визначення меж між її окремими ділянками - лісом і полем, водою і сушею і т.п. З точки зору цього завдання окремі деталі зображення всередині поділюваних областей стоять на заваді.

Ослаблення дії перешкод досягається фільтрацією. При фільтрації яскравість (сигнал) кожної точки вихідного зображення, спотвореного перешкодою, замінюється деяким іншим значенням яскравості, яке визнається в найменшій мірі спотвореним перешкодою. Зображення часто нагадує двовимірну функцію просторових координат, яка змінюється по цих координатах повільніше (іноді значно повільніше), ніж перешкода, яка також є двовимірною функцією. Це дозволяє при оцінці корисного сигналу в кожній точці кадру взяти до уваги деяке безліч сусідніх точок, скориставшись певною схожістю сигналу в цих точках. В інших випадках, навпаки, ознакою корисного сигналу є різкі перепади яскравості. Однак, як правило, частота цих перепадів відносно невелика, так що на значних проміжках між ними сигнал або постійний, або змінюється повільно. І в цьому випадку властивості сигналу виявляються при спостереженні його не тільки в локальній точці, але і при аналізі її околиці. Зауважимо, що поняття околиці є досить умовним. Вона може бути утворена лише найближчими по кадру сусідами, але можуть бути околиці, містять досить багато і досить сильно віддалених точок кадру. В цьому останньому випадку, звичайно, ступінь впливу далеких і близьких точок на рішення, що приймаються фільтром в даній точці кадру, буде абсолютно різною.

Таким чином, ідеологія фільтрації ґрунтується на раціональному використанні даних як з робочої точки, так і з її околиці.

Завдання полягає в тому, щоб знайти таку раціональну обчислювальну процедуру, яка дозволяла б досягати найкращих результатів. Загальноприйнято при вирішенні цього завдання спиратися на використання імовірнісних моделей зображення і перешкоди, а також на застосування статистичних критеріїв оптимальності. Причини цього зрозумілі – це випадковий характер, як інформаційного сигналу, так і перешкоди і це прагнення отримати мінімальне в середньому відміну результату обробки від ідеального сигналу. Різноманіття методів і алгоритмів пов'язано з великою різноманітністю сюжетів, які доводиться описувати різними математичними моделями. Крім того, застосовуються різні критерії оптимальності, що також веде до різноманітності методів фільтрації. Нарешті, навіть при збігу моделей і критеріїв дуже часто через математичних труднощів не вдається знайти оптимальну процедуру. Складність знаходження точних рішень породжує різні варіанти наближених методів і процедур.

3. Виділення меж

Для успішного вирішення завдання розпізнавання, необхідно виділити потрібний об'єкт на зображенні, і привести його до нормалізовано вигляду, придатного для розпізнавання. Для виділення контурів об'єктів існує метод оптимального виділення кордонів.

Джон Кенні описав метод (і алгоритм) виявлення кордонів (контурів) зображень, виходячи з таких трьох критеріїв:

підвищення відносини сигнал / шум;
правильне визначення положення меж з мінімальною систематичною похибкою;
одне виявлення (єдиний відгук) на одну кордон.

Метод Кенні — метод, заснований на виборчій цифрової фільтрації просторової функції зображення об'єкта з використанням оптимального по Кенні оператора – гауссіана σ (див. рисунок 3.1).

Рисунок 3.1 — Формула оператору Гауссіана

де x - змінна; s - стандартне відхилення оператора Гаусса; * - «оптимальний» лінійний оператор для згортки із зображенням; k2 = 2.

Якщо оптимальний по Кенні оператор для виділення (детектування) кордону (в одновимірному випадку) має вигляд (1), то в двовимірному випадку похідна повинна братися в напрямку перпендикулярному до кордону зображення, яке повинно бути попередньо оцінений у напрямку градієнта згладженого зображення.

Метод Кенні не обмежується обчисленням градієнта згладженого зображення. У контурі кордону залишаються тільки точки максимуму градієнта зображення і видаляються точки, що лежать поруч з кордоном. В даному методі використовується також інформація про направлення кордону. Це необхідно для видалення точки, розташованої поруч з кордоном без розриву самого кордону поблизу локальних максимумів градієнта. Слабкі кордону видаляються шляхом використання двох порогів. Фрагмент кордону при цьому обробляється як ціле. Гістерезис використовує два близьких між собою порогових значення. Якщо значення модуля вектора градієнта в точці, простору нижче першого порогового значення, то воно встановлюється в нуль (точка робиться не крайової). При значенні модуля вектора більшому значення другого (високого) порога, то точка робиться крайової. У разі, коли значення модуля вектора градієнта знаходиться між значеннями цих двох порогів, то воно встановлюється в нуль в тому випадку, якщо немає шляху від цього пікселя до пікселя із значенням модуля вектора градієнта більше значення другого порога. Використання такого гистерезиса дозволяє знизити число розривів в вихідних межах. Отже, за допомогою двох порогів видаляються слабкі кордону. Метод Кенні є найбільш ефективним методом виділення кордонів. На відміну від інших методів в ньому при визначенні світових кордонів (контурів) використовуються два різних за значеннями порога (для слабких і сильних кордонів).

Масштаб гауссіана sigma визначає значення коефіцієнта придушення шуму: чим ширше Гауссіан, тим більше ефект згладжування. Недоліком є ??те, що збільшення масштабу знижує точність локалізації кордону.

Встановлено, що використання в методі оптимального виділення кордонів смуговий фільтрації і методу Кенні (алгоритмів LoG і Canny) для придушення шумів з одного боку підвищує стійкість отриманих результатів, а з іншого - збільшує обчислювальні витрати і призводить до спотворення і навіть втрати подробиць кордонів . Зокрема, наприклад, скругляются кути об'єктів і руйнуються кордону в точках з'єднань.

Пізніше були запропоновані наближені доповнення до методу Кенні, що дозволяють з'єднати незамкнений кінець контуру з прилеглими контурами. У деяких випадках це призводить до появи помилкових кордонів.

Нижче на рисунку 3.2 поетапно зображений процес виділення контурів об'єкта на зображенні за допомогою методу Кенні.

Рисунок 3.2 — Виділення контурів об'єкта на зображенні за допомогою методу Кенні (анімація: 6 кадрів, 10 циклів повторення, 236 кілобайт)

Висновки

В ході виконання наукової роботи були розглянута попередня обробка зображень, виділення ознак об'єкта, фільтрація зображень і метод виділення кордонів.

Попередня обробка зображень має на увазі під собою такі поняття:

корекція яскравості і контрастності зображень;
гістограми яскравості;
вирівнювання зображень;
поліпшення просторового дозволу.

При обробці кращими є наступні ознаки об'єктів:

площа і периметр зображення об'єкта;
розміри вписаних найпростіших геометричних фігур (кіл, прямокутників, трикутників і ін.);
число і взаємне розташування кутів;
моменти інерції зображень об'єктів.

Зауваження

На момент написання даного реферату магістерська робота ще не завершена. Передбачувана дата завершення: травень 2019 р Повний текст роботи, а також матеріали по темі можуть бути отримані у автора або його керівника після зазначеної дати.

Список джерел

Журавель И.М. Краткий курс теории обработки изображений / Журавель И.М. – М. : АHСССР,1987. –392 с.
Можейко В.И. Автоматическое сопровождение объектов в компьютерных системах обработки изображений / В.И. Можейко, В.Т. Фисенко, Т.Ю. Фисенко // Оптический журнал. – 2007 – №11. – С. 39-46.
Прэтт У. Цифровая обработка изображений / Прэтт У. – М. : Мир, 1982. – Т.1,2. – 791 c.
Марр Д. Зрение. Информационный подход к изучению представления и обработки зрительных образов / Марр Д. – М. : Радио и связь, 1987. – 637 с.
Гонсалес Р. Цифровая обработка изображений / Р. Гонсалес, Р. Вудс.; [пер. с англ.]. – M.: Техносфера, 2005. – 1072 c.
Горьян И.С Введение в цифровую обработку изображений / И.С. Горьян, Ф.Д. Межов, В.Т. Фисенко. – СПб. : ЭИС им. М. Бонч-Бруевича, 1992. – 60 c.
Красильников Н.Н. Графический интерфейс голоса и жестов / Красильников Н.Н. – М.: Вузовская книга,2001. – 320 с.
Шапиро Л. Визуальная интерпретация жестов для взаимодействия человека и машины / Л. Шапиро, Дж. Стокман. ; [пер. с англ.]. – М. : БИНОМ. Лаборатория знаний, 2006. – 752 с.
Павлидис Т. Алгоритмы машинной графики и обработки изображений / Павлидис Т. ; [пер. с англ.]. – М. : Радио и связь, 1986. – 400 с.
Дегтярев А.А. Элементы теории адаптивного расширенного фильтра Калмана / А.А. Дегтярев, Ш. Тайль. – М. : Радио и связь, 2003. – 35 с.

Гетманова Ганна Дмитрівна

Факультет комп'ютерних наук і технологій

Кафедра штучного інтелекту і системного аналізу

Спеціальність «Системи штучного інтелекту»

Дослідження розробки динамічної мови жестів для управління мультимедійним контентом

Науковий керівник: доц. Копитова Ольга Михайлівна

Реферат за темою:

Дослідження розробки динамічної мови жестів для управління мультимедійним контентом

Зміст

Вступ

1. Огляд відомостей про розпізнавання образів

1.1 Типи задач в розпізнаванні

1.2 Попередня обробка зображень

1.3 Виділення ознак об'єкта

2. Фільтрація зображень

3. Виділення меж

Висновки

Зауваження

Список джерел