ДонНТУ   Портал магістрів

Реферат за темою випускної роботи

Зміст

Вступ

Доповнена реальність (augmented reality) – це технології, що дозволяють доповнювати зображення реальних об'єктів різними об'єктами комп'ютерної графіки, а також поєднувати зображення, отримані від різних джерел: відеокамер, тепловізорів, спектрометрів і т.д. На відміну від "віртуальної реальності", яка передбачає повністю штучний синтезований світ (відеоряд), доповнена реальність передбачає впровадження синтезованих об'єктів в природні відеосцени [1].

Найчастіше, доповнена реальність – це візуальне додаток реального світу, шляхом проектування і введення будь-яких віртуальних, уявних об'єктів на даний простір (на екрані комп'ютера, телефону і подібних пристроїв). Основна технологія сьогодні – це отримувати зображення з камери, обробляти його алгоритмами розпізнання образів, з подальшим накладенням зображення.

1. Актуальність теми

Існує досить широкий спектр галузей науки і техніки, в яких може застосовуватися доповнена реальність. В першу чергу можна виділити наступні:

Існує також ряд методів реалізації рішень доповненої реальності, проте на сьогодні актуальною є проблема використання тривимірної розширеної реальності на мобільних платформах. Мобільні пристрої є малопродуктивними, а тому існуючі методи не можуть бути застосовані для них повною мірою, тому виникає необхідність дослідження даної області та розробка нових методологій побудови доповненої реальності для переносимих пристроїв.

2. Мета і задачі дослідження та заплановані результати

Метою дослідження є розробка підходу до побудови тривимірної доповненої реальності, спрямованого на зменшення апаратурних витрат на цільових мобільних платформах.

Основні завдання дослідження:

  1. Аналіз рішень задачі побудови доповненої реальності в реальному часі для мобільних пристроїв.
  2. Оцінка способів зменшення апаратних витрат шляхом відстеження знайдених маркерів розширеної реальності.
  3. Пошук і виявлення характеристик існуючих методів вбудовування тривимірних об'єктів у зображення в реальному часі та оцінка можливостей їх застосування на мобільних пристроях.
  4. Аналіз застосування різних методів предобработки кадрів відеоряду на архітектурі процесорів ARM і синтезування оптимального алгоритму попередньої обробки зображення.

Об'єкт дослідження: вбудовування тривимірних об'єктів у відеозображення в реальному часі.

Предмет дослідження: застосування методів розширеної реальності для мобільних платформ.

У рамках магістерської роботи планується отримання актуальних наукових результатів за наступними напрямками:

  1. Розробка алгоритму попередньої обробки зображень, орієнтованого на зменшення апаратурних витрат на мобільних платформах.
  2. Застосування останніх досягнень в області обробки маркерів розширеної реальності, а саме методів їх відстеження для поліпшення часових показників роботи мобільних систем доповненої реальності.

Для експериментальної оцінки отриманих теоретичних результатів і формування фундаменту наступних досліджень, в якості практичних результатів планується розробка системи розширеної реальності для мобільної платформи Android на базі процесорів ARM.

3. Огляд досліджень та розробок

На сьогоднішній день існує досить багато проектів доповненої реальності для мобільних платформ. Велика частина з них передбачає вирішення конкретної проблеми, використовую доповнену реальність як засіб, а значить, є для кінцевого користувача готовим продуктом доповненої реальності, а не засобом досягнення власних цілей.

Дані проекти можуть бути гарним прикладом способів використання доповненої реальності, а значить і обгрунтуванням актуальності вирішення даної задачі, у той час як використані в них алгоритми та способи реалізації залишаються комерційною таємницею, але необхідно розглядати рішення, що надають розробнику засоби реалізації доповненої реальності в власних проектах.

Велика частина подібних рішень була розроблена за кордоном. Найбільш значимі з них розглянуті нижче.

3.1 Огляд міжнародних джерел

3.1.1 Пакет розробника Vuforia від Qualcomm.

Найбільш поширеним SDK (пакет розробника) сторонніх розробників є Vuforia від Qualcomm [2].

Ця бібліотека надає найбільш потужні і швидкі на сьогоднішній день засобы для використання доповненої реальності у власних програмах. У ній немає заздалегідь зумовленого формату зображень маркерів (заздалегідь визначені опорні символи, на місце яких буде вбудовано додаткові віртуальні об'єкти), реалізовані в ній алгоритми перевершують за швидкістю будь-які інші, представлені на сьогоднішній день на ринку. Вони також є досить точними, визначають часткове перекриття маркерів, недостатньо якісне зображення камери компенсується програмними засобами до певної міри.

Донедавна програми Vuforia працювали з локальними базами даних, що складаються з не більше 80 зображень-маркерів. На сьогоднішній день вже йде закрите бета-тестування використання хмарних технологій для розпізнавання зображень. Це означає, що всі зображення-маркери будуть зберігатися на серверах Qualcomm, що дозволить серйозно розширити їх кількість, а також безпосередньо процес розпізнавання буде використовувати серверні ресурси, замість локальних мобільних, що значно підвищує продуктивність.

Слід також зазначити, що не дивлячись на вільне поширення даного SDK серед розробників всі внутрішні реалізації приховані і є комерційної таємницею.

3.1.2 Розробки Лабараторії технологій по взаємодії з користувачем Вашингтонського Університету ARToolKit.

Базові принципи:

ARToolKit надає можливості віртуальним тривимірним об'єктам бути накладеними на відеопотік в реальному часі. Даний пакет розробника заснований на використанні чорно-білих маркерів і працює наступним чином:

  1. Камера захоплює відеопотік зображень реального часу і відправляє їх пристрою обробки.
  2. ПО пристрою проізовдіт пошук будь-яких маркерів на кожному кадрі.
  3. Якщо маркер був знайдений, ПЗ використовує математичний апарат для обчислення позиції камери відносно даного маркера.
  4. Як тільки позиція камери визначена – графічна модель відображається безпосередньо в такій позиції.
  5. Дана модель відображається поверх відеоряду і закріплюється за маркером.
  6. Фінальне зображення подається на дисплей пристрою.

Зображення нижче демонструє послідовність даних дій. Всі обчислення можуть проводиться в реальному часі, тим самим гарантується, що віртуальні об'єкти завжди вбудовуються на позицію маркера.

Схема работы ARToolKit

Рисунок 1 – Схема роботи ARToolKit [16]

Обмеження:

Існують деякі обмеження в порівнянні з системами розширеної реальності, заснованими на дійсному комп'ютерному зорі. Віртуальні об'єкти можно побачити тільки тоді, коли маркери перебувають у полі зору. Це обмежує зону пересування віртуальних об'єктів. Це так само означає, що в разі перекриття частини зображення маркера віртуальний об'єкт не буде відображений.

Існують так само обмеження по дальності. Чим більше фізичний розмір маркера, тим далі він може бути розпізнаний. Таблиця 1 показує деякі максимальні відстані для маркерів різних розмірів. Дані результати були отримані шляхом створення фізичних маркерів зазначених розмірів (довжина сторони), розташування їх перпендикулярно камері і переміщення камери в далечінь до тих пір, поки віртуальний об'єкт не зникне.

Таблиця 1 – Максимальна відстань розпізнавання для різних розмірів маркерів.

Розмір маркера (дюймы) Максимальна відстань (дюймы)
2.75 16
3.5 25
4.25 35
7.37 50

Дані відстані також в деякій мірі змінюються в залежності від складності самого маркера. Чим простіше маркер, тим краще. Маркери з великими білими і чорними ділянками найбільш ефективні. Заміна маркера, розміром 4.25 дюйма на інший, складніший, знижує максимальну відстань розпізнавання з 34 до 15 дюймів.

Також відстань розпізнавання зміняться від орієнтації маркера щодо камери. Чим сильніше він відхилений від перпендикуляра камері, тим менш помітний стає його центр, а значить менш ефективним стає распознование.

І, нарешті, результати розпізнавання залежать від умов освітлення. Переосвещенность може створювати відображення і засвети на маркері, таким чином ускладнюючи його знаходження [3].

3.2 Огляд національних джерел

Сьогодні компанія Augmented Pixels (раніше відома як AR23D Studio) є передовою компанією в розробках, пов'язаних з доповненою реальністю в Україні [4].

Однак, як і в будь-якому іншому випадку комерційних розробок, використовувані ними алгоритми та методи не відомі.

Компанія МТС так само запускає свої сервіси доповненої реальності в Україні, що дозволяють побачити сучасні об'єкти в тому вигляді, в якому вони були представлені дестякі років тому [5].

17 березня 2012 р. У Києві пройшла перша конференція в Україні за технологією доповненої реальності – Augmented Reality Conference. Створення галузевого співтовариства взяла під своє крило корпорація Microsoft, в стінах офісу якої і пройшло цей захід [6].

Кілька доповідей конференції були присвячені проектам, так чи інакше пов'язаних з реабілітацією людей з обмеженими можливостями. Перший доповідач, студент 4-го курсу ХНУРЕ, Олексій Шваченко, розповів про свій проект: Kinect. Реабілітація дітей хворих на ДЦП.

Олексій створив програму, яка містить в собі кілька ігор, заснованих на лікувальній гімнастиці, яку застосовують при дитячому церебральному паралічі. Олексій розповів, що дітям буває нудно повторювати одні й ті ж вправи. Тому він створив програму, в якій потрібно виконувати ті ж рухи, але за рахунок ігрового процесу вони роблять це із задоволенням. Ще одне можливе застосування Kinect для реабілітації ДЦП – це можливість лікаря віддалено спостерігати за правильністю виконання вправ.

3.3 Огляд локальних джерел

У Донецькому національному технічному університеті вже проводилися дослідження з даної теми.

Магістр Акчурин Володимир Олександрович під керівництвом Ручкіна Костянтина Анатолійовича захистив магістерську роботу за темою "Розробка системи розширеної реальності для моделювання тривимірних сцен" [7].

У своїй роботі він описав основні нотації двомірних штрих-кодів а також платформи розширеної реальності. Визначив їх особливості, переваги і недоліки в рамках завдання створення системи розширеної реальності для моделювання тривимірних сцен. Досліджував основні існуючі нотації двомірних штрих-кодів. У результаті цього було отримано, що деякі нотації штрих-кодів мають більш високий захист від спотворень, проте містять менше інформації, деякі містять більше інформації, однак мають менший рівень захисту. Запропонував схему маркера, що описує тривимірну сцену.

Магістр Тодоракі Максим Іванович під керівництвом Анопрієнко Олександра Яковича захистив магістерську роботу за темою "Накладення тривимірних об'єктів на відеоряд в технології розширеної реальності" [8].

У своїй роботі він розглянув області застосування розширеної реальності поза мобільних платформ, а так само розглянув програмну частину систем розширеної реальності для стаціонарних комп'ютерів.

Магістр Дуденко Максим Вікторович під керівництвом Анопрієнко Олександра Яковича захистив магістерську роботу за темою "Позиціонування об'єкта в технології розширеної реальності" [9].

Дана магістерська робота безпосередньо пов'язана з роботою Тодоракі Максима Івановича і є частиною загальної програмної системи, ними розробленої. У даній роботі основну увагу уделаяется розпізнаванню маркера, а також визначенню його положення в просторі.

4. Аналіз рішень задачі побудови доповненої реальності в реальному часі для мобільних пристроїв.

Завданням є зробити так, щоб обчислювальний пристрій мав можливість вбудовувати тривимірне зображення в відеозображення в реальному часі. Один з найпростіших способів – розташувати на відеозображенні маркери, за якими ОП міг би призвести потрібні обчислення і видати нове зображення, доповнене необхідним об'єктом. Для цих цілей можна використовувати баркод – двомірний штрих-коди.

Баркоди будуть грунтуватися на шифруванні алгоритмом Ріда-Соломона (недвійкові циклічні коди, що дозволяють виправляти помилки в блоках даних, елементами кодового вектора не є біти, а групи бітів (блоки)).

Відеозображення буде розглядатися як набір статичних зображень, кожне з яких буде оброблятися окремо. Обробка зображення відбувається поетапно:

Поетапна обробка зображення

Рисунок 2 – Поетапна обробка зображення
(анімація: 8 кадрів, 7 циклів повторення, 160 кілобайт)

Переклад кольорового зображення проводиться за таким критерієм, як світність, визначається за формулою:

GS = 0.21 x R + 0.72 x G + 0.07 x B,

Де GS - це результуючий піксель у відтінках сірого, а R, G, B – колірні складові вихідного зображення.

Бінаризації може вироблятися або за методом локальної адаптації або за методом Оцу [10]. Враховуючи особливості обраних маркерів, а також те, що по продуктивності обидва підходи досить близькі, в даній випадку метод Оцу доцільніше.

Необхідно визначити замкнуті області на білому тлі. Як правило використовують комбінацію алгоритмів, алгоритми "заливання" білих областей і виділяють замкнуті області. Однак зміни порядку цих дій може працювати швидше.

Для виділення контурів зображення оптимальним є алгоритм Собеля [11], далі на отриманому зображенні проводиться виділення кутів маркера алгоритмом Дугласа-Пекера (алгоритм итеративной найближчої точки) [12].

Координати кутів маркера можуть бути розташовані не перпендикулярно. Сторони утвореного ними квадрата є осями координат. Таким чином можна визначити положення "камери" щодо маркера і, відповідно, вбудовуваного об'єкта, і точку відліку початку координат. [13]

Перетворення координат здійснимо перетворенням Хафа [14].

Обгрунтування вибору даних методів і алгоритмів можна докладніше вивчити у статті [15].

У даній роботі було проведено дослідження часових витрат кожного з етапів вирішення задачі доповненої реальності. Тестування проводилося на наступних пристроях:

Таблиця 2 - Стенд тестування

Milestone NexusOne
CPU (MHz) 550 998
RAM (MB) 256 512
Camera (MP) 5.02 4.92

Результати дослідження часових витрат на кожному етапі:

Таблиця 3 - Результати тестування

Отримання зображення Розпізнавання маркера Проектування об'єкта Загальний час
Milestone 249 289 30 684
NexusOne 40 78 13 162

Можна помітити, що найбільші витрати йдуть на безпосереднє розпізнавання маркера. Таким чином необхідно знизити кількість операцій розпізнавання до мінімуму. Для цього необхідно ввести додатковий етап рішення задачі розширеної реальності – відстеження розпізнаного маркера. Дане завдання потребує значно менших витрат часу, бо всі початкові етапи, аж до проекції, спрощуються.

Таке спрощення вимагає додаткової уваги до етапу проектування об'єкта та його суміщення з вихідним зображенням. На тих же пристроях було проведено дослідження часових витрат залежно від складності проецируемой сцени, результати нижче.

Витрати на проектування і вбудовування обєктів

Рисунок 3 – Витрати на проектування і вбудовування об'єктів

Можна помітити, що незважаючи на значне збільшення реально витрачається на обробку часу, кількість кадрів в секунду (FPS), що показує продуктивність програми, практично не змінюється.

Висновки

Магістерська робота присвячена актуальній науковій задачі вбудовування тривимірних об'єктів у відеозображення в реальному часі. У рамках проведених досліджень виконано:

  1. На основі аналізу існуючих рішень було встановлено, що область доповненої реальності знаходиться на стадії розробки і не має готових універсальних рішень.
  2. На основі проведеного аналізу методів рішення задачі розширеної реальності були обрані методи предобработки зображення.
  3. Проведена оцінка тимчасових витрат за рішенням різних етапів поставленого завдання. Результати показали, що витратами на проектування і вбудовування об'єктів можна знехтувати.
  4. Запропоновано можливі методи поліпшення обробки зображень.

Подальші дослідження спрямовані на наступні аспекти:

  1. Якісне вдосконалення запропонованого підходу до вбудовування тривимірних об'єктів у відеозображення в реальному часі.
  2. Пошук і виявлення характеристик існуючих методів вбудовування тривимірних об'єктів у зображення в реальному часі і оцінка можливостей їх застосування на мобільних пристроях.
  3. Аналіз застосування різних методів предобработки кадрів відеоряду на архітектурі процесорів ARM і синтезування оптимального алгоритму попередньої обробки зображення.
  4. Розробка алгоритму попередньої обробки зображень, орієнтованого на зменшення апаратурних витрат на мобільних платформах.
  5. Застосування останніх досягнень в області обробки маркерів розширеної реальності, а саме методів їх відстеження для поліпшення часових показників роботи мобільних систем доповненої реальності.
        

При написанні даного реферату магістерська робота ще не завершена. Остаточне завершення: грудень 2013 року. Повний текст роботи та матеріали по темі можуть бути отримані у автора або його керівника після зазначеної дати.

Перелік посилань

  1. Бойченко И.В., Лежанкин А.В. Дополненная реальность: состояние, проблемы и пути решения // Доклады ТУСУРа, № 1 (21) – 2010. – часть. 2. – с. 161-165.
  2. Raghav Sood Pro Android Augmented Reality // Apress. – 2012. – pp. 346.
  3. Kipper G. Augmented Reality: An Emerging Technologies Guide to AR // Syngress – 2012. – pp. 208
  4. Український стартап AR23D Studio [Электронный ресурс]. – Режим доступа: startupline.com.ua – Яз. рус.
  5. Дополненная реальность от МТС [Электронный ресурс]. – Режим доступа: http://today.mts.com.ua/ – Яз. рус.
  6. Дополненная реальность: настоящее и будущее (конференция от Microsoft) [Электронный ресурс]. – Режим доступа: http://www.optimization.com.ua/reports/augmented-reality-conference-2012.html – Яз. рус.
  7. Акчурин В.А. "Разработка системы расширенной реальности для моделирования трехмерных сцен" Руководитель: к.т.н., доц. К.А. Ручкин
  8. Тодораки М.И. "Наложение трёхмерных объектов на видеоряд в технологии расширенной реальности" Руководитель: доцент, декан факультета КНТ А.Я. Аноприенко
  9. Дуденко М.В. "Позиционирование объекта в технологии расширенной реальности" Руководитель: доцент, декан факультета КНТ А.Я. Аноприенко
  10. Otsu's method [Электронный ресурс]. – Режим доступа: http://en.wikipedia.org/... – Яз. англ.
  11. Fisher R., Perkins S., Walker A., Wolfart. E. Feature Detectors – Sobel Edge Detector // HIPP2 – Image Processing Learning Resources – 12 pp.
  12. Алгоритм Рамера-Дугласа-Пекера [Электронный ресурс]. – Режим доступа: http://en.wikipedia.org/... – Яз. рус.
  13. Kato H., Billinghurst M. Marker Tracking and HMD Calibration for a Video-based Augmented Reality Conferencing System // Faculty of Information Sciences, Hiroshima City University – 2002. – 10 pp.
  14. Преобразование Хафа [Электронный ресурс]. – Режим доступа: http://en.wikipedia.org/... – Яз. рус.
  15. Распознавание маркера дополненной реальности [Электронный ресурс]. – Режим доступа: http://habrahabr.ru – Яз. рус.
  16. How does ARToolKit work? [Электронный ресурс]. – Режим доступа: www.hitl.washington.edu – Яз. англ.