Реферат - Грищенко Сергей Вячеславович - Исследование методов интеграции трехмерных объектов в видеоизображения в реальном времени

Реферат по теме выпускной работы

Содержание

Введение
1. Актуальность темы
2. Цель и задачи исследования, планируемые результаты
3. Обзор исследований и разработок
3.1 Обзор международных источников
3.2 Обзор национальных источников
3.3 Обзор локальных источников
4. Анализ решений задачи построения дополненной реальности в реальном времени для мобильных устройств.
Выводы
Список источников

Введение

Аugmented reality – это технологии, позволяющие дополнять изображение реальных объектов различными объектами компьютерной графики, а также совмещать изображения, полученные от разных источников: видеокамер, тепловизоров, спектрометров и т.д. В отличие от «виртуальной реальности», которая предполагает полностью искусственный синтезированный мир (видеоряд), дополненная реальность предполагает внедрение синтезированных объектов в естественные видеосцены [1].

Чаще всего, дополненная реальность – это визуальное дополнение реального мира, путем проецирования и введения каких-либо виртуальных, мнимых объектов на настоящее пространство (на экране компьютера, телефона и подобных устройств). Основная технология сегодня – это получать изображение с камеры, обрабатывать его алгоритмами распознания образов, с дальнейшим наложением изображения.

1. Актуальность темы

Существует достаточно широкий спектр областей науки и техники, в которых может применяться дополненная реальность. В первую очередь можно выделить следующие:

медицина;
проектирование и дизайн;
картография и ГИС;

Существует так же ряд методов реализации решений дополненной реальности, однако на сегодня актуальной является проблема использования трехмерной расширенной реальности на мобильных платформах. Мобильные устройства являются малопроизводительными, а потому существующие методы не могут быть применены для них в полной мере, в следствии чего возникает необходимость исследования данной области и разработка новых методологий построения дополненной реальности для переносимых устройств.

2. Цель и задачи исследования, планируемые результаты

Целью исследования является разработка подхода к построению трехмерной дополненной реальности, направленного на уменьшение аппаратурных затрат на целевых мобильных платформах.

Основные задачи исследования:

Анализ решений задачи построения дополненной реальности в реальном времени для мобильных устройств.
Оценка способов уменьшения аппаратурных затрат путем отслеживания найденых маркеров расширенной реальности.
Поиск и выявление характеристик существующих методов встраивания трехмерных объектов в изображения в реальном времени и оценка возможностей их применения на мобильных устройствах.
Анализ применения различных методов предобработки кадров видеоряда на архитектуре процессоров ARM и синтезирование оптимального алгоритма предварительной обработки изображения.

Объект исследования: встраивание трехмерных объектов в видеоизображения в реальном времени.

Предмет исследования: применение методов расширенной реальности для мобильных платформ.

В рамках магистерской работы планируется получение актуальных научных результатов по следующим направлениям:

Разработка алгоритма предобработки изображений, ориентированного на уменьшение аппаратурных затрат на мобильных платформах.
Применение последних достижений в области обработки маркеров расширенной реальности, а именно методов их отслеживания для улучшения временных показателей работы мобильных систем дополненной реальности.

Для экспериментальной оценки полученных теоретических результатов и формирования фундамента последующих исследований, в качестве практических результатов планируется разработка системы расширенной реальности для мобильной платформы Android на базе процессоров ARM.

3. Обзор исследований и разработок

На сегодняшний день существует достаточно много проектов дополненной реальности для мобильных платформ. Большая часть из них предполагает решение конкретной проблемы, использую дополненную реальность как средство, а значит, является для конечного пользователя готовым продуктом дополненной реальности, а не средством достижения собственных целей.

Данные проекты могут являться хорошим примером способов использования дополненной реальности, а значит и обоснованием актуальности решения данной задачи, в то время как использованные в них алгоритмы и способы реализации остаются коммерческой тайной, но необходимо рассматривать решения, предоставляющие разработчику средства реализации дополненной реальности в собственных проектах.

Большая часть подобных решений была разработана за рубежом. Наиболее значимые из них рассмотрены ниже.

3.1 Обзор международных источников

3.1.1 Пакет разработчика Vuforia от Qualcomm.

Наиболее распространенным SDK (пакет разработчика) сторонних разработчиков является Vuforia от Qualcomm [2].

Эта библиотека предоставляет наиболее мощные и быстрые на сегодняшний день средства для использования дополненной реальности в собственных приложениях. В ней нет заранее предопределенного формата изображений маркеров (заранее предопределенные опорные символы, на место которых будет встроено дополнительные виртуальные объекты), реализованные в ней алгоритмы превосходят по скорости любые другие, представленные на сегодняшний день на рынке. Они также являются достаточно точными, определяющими частичное перекрытие маркеров, недостаточно качественное изображение камеры компенсируется программными средствами до определенной степени.

До недавнего времени приложения Vuforia работали с локальными базами данных, состоящими из не более 80 изображений-маркеров. На сегодняшний день уже идет закрытое бета-тестирование использования облачных средств для распознавания изображений. Это означает, что все изображения-маркеры будут храниться на серверах Qualcomm, что позволит серьезно расширить их количество, а также непосредственно процесс распознавания будет использовать серверные ресурсы, вместо локальных мобильных, что значительно повышает производительность.

Следует также отметить, что не смотря на свободное распространение данного SDK среди разработчиков все внутренние реализации скрыты и являются коммерчиской тайной.

3.1.2 Разработки Лабаратории Технологий по Взаимодействию с Пользователем Вашингтонского Университета ARToolKit.

Базовые принципы:

ARToolKit предоставляет возможности виртуальным трехмерным объектам быть наложенными на видеопоток в реальном времени. Данный пакет разработчика основан на использовании черно-белых маркеров и работает следующим образом:

Камера захватывает видеопоток изображений реального времени и отправляет их устройству обработки.
ПО устройства произовдит поиск любых маркеров на каждом кадре.
Если маркер был найден, ПО использует математический аппарат для вычисления позиции камеры относительно данного маркера.
Как только позиция камеры определна – графическая модель отображается непосредственно в такой позиции.
Данная модель отображается поверх видеоряда и закрепляется за маркером.
Финальное изображение подается на дисплей устройства.

Изображение ниже демонстрирует последовательность данных действий. Все вычисления могут производится в реальном времени, тем самым гарантируюя, что виртуальные объекты всегда встраиваются на позицию маркера.

Рисунок 1 – Схема работы ARToolKit [16]

Ограничения:

Существуют некоторые ограничения по сравнению с системами расширенной реальности, основанными на действительном компьютерном зрении. Виртуальные объекты видны только тогда, когда маркеры находятся в поле зрения. Это ограничивает зону передвижения виртуальных объектов. Это так же означает, что в случае перекрытия части изображения маркера виртуальный объект не будет отображен.

Существуют так же ограничения по дальности. Чем больше физический размер маркера, тем дальше он может быть распознан. Таблица 1 показывает некоторые максимальные расстояния для маркеров различных размеров. Данные результаты были получены путем создания физических маркеров указанных размеров (длинна стороны), расположения их перпендикулярно камере и перемещения камеры в даль до тех пор, пока виртуальный объект не исчезнет.

Таблица 1 – Максимальное расстояние распознования для различных размеров маркеров.

Размер маркера (дюймы)	Максимальное расстояние (дюймы)
2.75	16
3.5	25
4.25	35
7.37	50

Данные расстояния также в некоторой степени изменяются в зависимости от сложности самого маркера. Чем проще маркер, тем лучше. Маркеры с большими белыми и черными участками наиболее эффективны. Замены маркера, размером 4.25 дюйма на другой, более сложный, снижает максимальное расстояние распознования с 34 до 15 дюймов.

Также расстояние распознования изменятся от ориентации маркера относительно камеры. Чем сильнее он отклонен от перпендикуляра камере, тем менее различим становится его центр, а значит менее эффективным становится распознование.

И, наконец, результаты распознования зависят от условий освещения. Переосвещенность может создавать отражения и засветы на маркере, таким образом затрудняя его нахождение [3].

3.2 Обзор национальных источников

Сегодня компания Augmented Pixels (ранее называвшаяся AR23D Studio) является передовой компанией в разработках, связанных с дополненной реальностью в Украине [4].

Однако, как и в любом другом случае комерческих разработок, используемые ими алгоритмы и методы не известны.

Компания МТС так же запускает свои сервисы дополненной реальности в Украине, позволяющие увидеть современные объекты в том виде, в котором они были представлены дестяки лет назад [5].

17 марта 2012 г. в Киеве прошла первая конференция в Украине по технологии дополненной реальности — Augmented Reality Conference. Создание отраслевого сообщества взяла под своё крыло корпорация Microsoft, в стенах офиса которой и прошло это мероприятие [6].

Несколько докладов конференции были посвящены проектам, так или иначе связанным с реабилитацией людей с ограниченными возможностями. Первый докладчик, студент 4-го курса ХНУРЭ, Алексей Шваченко, рассказал о своём проекте: Kinect. Реабилитация детей больных ДЦП.

Алексей создал приложение, которое содержит в себе несколько игр, основанных на лечебной гимнастике, которую применяют при детском церебральном параличе. Алексей рассказал, что детям бывает нудно повторять одни и те же упражнения. Поэтому он создал программу, в которой нужно выполнять те же движения, но за счет игрового процесса они делают это с удовольствием. Еще одно возможное применение Kinect для реабилитации ДЦП – это возможность врача отдаленно наблюдать за правильностью выполнения упражнений.

3.3 Обзор локальных источников

В Донецком национальном техническом университете уже проводились исследования по данной теме.

Магистр Акчурин Владимир Александрович под руководством Ручкина Константина Анатольевича защитил магистрскую работу по теме «Разработка системы расширенной реальности для моделирования трехмерных сцен» [7].

В своей работе он описал основные нотации двухмерных штрих-кодов а также платформы расширенной реальности. Определил их особенности, достоинства и недостатки в рамках задачи создания системы расширенной реальности для моделирования трехмерных сцен. Исследовал основные существующие нотации двухмерных штрих-кодов. В результате этого было получено, что некоторые нотации штрих-кодов имеют более высокую защиту от искажений, однако содержат меньше информации, некоторые содержат больше информации, однако имеют меньший уровень защиты. Предложил схему маркера, описывающего трехмерную сцену.

Магистр Тодораки Максим Иванович под руководством Аноприенко Александра Яковлевича защитил магистрскую работу по теме «Наложение трёхмерных объектов на видеоряд в технологии расширенной реальности» [8].

В своей работе он рассмотрел области применения расширенной реальности вне мобильных платформ, а так же рассматрел программную часть систем расширенной реальности для стационарных компьютеров.

Магистр Дуденко Максим Викторович под руководством Аноприенко Александра Яковлевича защитил магистрскую работу по теме «Позиционирование объекта в технологии расширенной реальности» [9].

Данная магистерская работа непосредственно связана с работой Тодораки Максима Ивановича и является частью общей программной системы, ими разработанной. В данной работе основное внимание уделаяется распознаванию маркера, а также определению его положения в пространстве.

4. Анализ решений задачи построения дополненной реальности в реальном времени для мобильных устройств.

Задачей является сделать так, чтобы вычислительное устройство могло встраивать трехмерное изображение в видеоизображение в реальном времени. Один из самых простых способов – расположить на видеоизображении маркеры, по которым ВР могло бы произвести нужные вычисления и выдать новое изображение, дополненное требуемым объектом. Для этих целей можно использовать баркоды — двухмерные штрих-коды.

Баркоды будут основываться на шифровании алгоритмом Рида-Соломона (недвоичные циклические коды, позволяющие исправлять ошибки в блоках данных, элементами кодового вектора являются не биты, а группы битов (блоки)).

Видеоизображение будет рассматриваться как набор статических изображений, каждое из которых будет обрабатываться отдельно. Обработка изображения происходит поэтапно:

приведение изображения к градациям серого
бинаризация изображения
определение замкнутых областей
выделение контуров
выделение углов маркера
преобразование координат
проецирование объекта в нужном положении для получения его двумерного отображение
совмещение проекции объекта и исходного изображения

Рисунок 2 – Поэтапная обработка изображения
(анимация: 8 кадров, 7 циклов повторения, 160 килобайт)

Перевод цветного изображения производится по такому критерию, как светимость, определяемому по формуле:

GS = 0.21 x R + 0.72 x G + 0.07 x B,

Где GS – это результирующий пиксель в оттенках серого, а R,G,B – цветовые составляющие исходного изображения.

Бинаризация может производится либо по методу локальной адаптации либо по методу Оцу [10]. Учитывая особенности выбранных маркеров, а также то, что по производительности оба подхода достаточно близки, в данной случае метод Оцу целесообразнее.

Необходимо определить замкнутые области на белом фоне. Как правило здесь идет комбинация алгоритмов, но как правило применяют алгоритмы «заливки» белых областей и выделяют замкнутые области. Однако изменения порядка этих действий может работать быстрее.

Для выделения контуров изображения оптимальным является алгоритм Собеля [11], далее на полученном изображении производится выделение углов маркера алгоритмом Дугласа-Пекера (алгоритм итеративной ближайшей точки) [12].

Координаты углов маркера могут быть расположены не перпендикулярно. Стороны образуемого ими квадрата являются осями координат. Таким образом можно определить положение «камеры» относительно маркера и, соответственно, встраиваемого объекта, и точку отсчета начала координат [13].

Преобразование координат выполнимо преобразованием Хафа [14].

Обоснование выбора данных методов и алгоритмов можно подробнее изучить в статье [15].

В данной работе было проведено исследование временных затрат каждого из этапов решения задачи дополненной реальности. Тестирование проводилось на следующих устройствах:

Таблица 2 – Стенд тестирования

	Milestone	NexusOne
CPU (MHz)	550	998
RAM (MB)	256	512
Camera (MP)	5.02	4.92

Результаты исследования временных затрат на каждом этапе:

Таблица 3 – Результаты тестирования

	Получение изображения	Распознавание маркера	Проецирование объекта	Общее время
Milestone	249	289	30	684
NexusOne	40	78	13	162

Можно заметить, что наибольшие затраты уходят на непосредственное распознавание маркера. Таким образом необходимо снизить количество операций распознавания до минимума. Для этого необходимо ввести дополнительный этап решения задачи расширенной реальности – отслеживание распознанного маркера. Данная задача потребует значительно меньших временных затрат, так как все начальные этапы, вплоть до проецирования, упрощаются.

Такое упрощение требует дополнительного внимания к этапу проецирования объекта и его совмещения с исходным изображением. На тех же устройствах было проведено исследование временных затрат в зависимости от сложности проецируемой сцены, результаты ниже.

Рисунок 3 – Затраты на проецирование и встраивание объектов

Можно заметить, что несмотря на значительное увеличение реально затрачиваемого на обработку времени, количество кадров в секунду (FPS), показывающее производительность приложения, практически не изменяется.

Выводы

Магистерская работа посвящена актуальной научной задаче встраивания трехмерных объектов в видеоизображения в реальном времени. В рамках проведенных исследований выполнено:

На основе анализа существующих решений было установлено, что область дополненной реальности находится на стадии разработки и не имеет готовых универсальных решений.
На основе проведенного анализа методов решения задачи расширенной реальности были выбраны методы предобработки изображения.
Произведена оценка временных затрат по решению различных этапов поставленной задачи. Результаты показали, что затратами на проецирование и встраивание объектов можно пренебречь.
Предложены возможные методы улучшения обработки изображений.

Дальнейшие исследования направлены на следующие аспекты:

Качественное совершенствование предложенного подхода к встраиванию трехмерных объектов в видеоизображения в реальном времени.
Поиск и выявление характеристик существующих методов встраивания трехмерных объектов в изображения в реальном времени и оценка возможностей их применения на мобильных устройствах.
Анализ применения различных методов предобработки кадров видеоряда на архитектуре процессоров ARM и синтезирование оптимального алгоритма предварительной обработки изображения.
Разработка алгоритма предобработки изображений, ориентированного на уменьшение аппаратурных затрат на мобильных платформах.
Применение последних достижений в области обработки маркеров расширенной реальности, а именно методов их отслеживания для улучшения временных показателей работы мобильных систем дополненной реальности.

При написании данного реферата магистерская работа еще не завершена. Окончательное завершение: декабрь 2013 года. Полный текст работы и материалы по теме могут быть получены у автора или его руководителя после указанной даты.

Список источников

Бойченко И.В., Лежанкин А.В. Дополненная реальность: состояние, проблемы и пути решения // Доклады ТУСУРа, № 1 (21) – 2010. – часть. 2. – с. 161-165.
Raghav Sood Pro Android Augmented Reality // Apress. – 2012. – pp. 346.
Kipper G. Augmented Reality: An Emerging Technologies Guide to AR // Syngress – 2012. – pp. 208
Український стартап AR23D Studio [Электронный ресурс]. – Режим доступа: startupline.com.ua – Яз. рус.
Дополненная реальность от МТС [Электронный ресурс]. – Режим доступа: http://today.mts.com.ua/ – Яз. рус.
Дополненная реальность: настоящее и будущее (конференция от Microsoft) [Электронный ресурс]. – Режим доступа: http://www.optimization.com.ua/reports/augmented-reality-conference-2012.html – Яз. рус.
Акчурин В.А. Разработка системы расширенной реальности для моделирования трехмерных сцен, Портал магистров ДонНТУ, 2012 г., Руководитель: к.т.н., доц. К.А. Ручкин
Тодораки М.И. Наложение трёхмерных объектов на видеоряд в технологии расширенной реальности, Портал магистров ДонНТУ, 2008 г., Руководитель: доцент, декан факультета КНТ А.Я. Аноприенко
Дуденко М.В. Позиционирование объекта в технологии расширенной реальности, Портал магистров ДонНТУ, 2008 г., Руководитель: доцент, декан факультета КНТ А.Я. Аноприенко
Otsu's method [Электронный ресурс]. – Режим доступа: http://en.wikipedia.org/... – Яз. англ.
Fisher R., Perkins S., Walker A., Wolfart. E. Feature Detectors – Sobel Edge Detector // HIPP2 – Image Processing Learning Resources – 12 pp.
Алгоритм Рамера-Дугласа-Пекера [Электронный ресурс]. – Режим доступа: http://en.wikipedia.org/... – Яз. рус.
Kato H., Billinghurst M. Marker Tracking and HMD Calibration for a Video-based Augmented Reality Conferencing System // Faculty of Information Sciences, Hiroshima City University – 2002. – 10 pp.
Преобразование Хафа [Электронный ресурс]. – Режим доступа: http://en.wikipedia.org/... – Яз. рус.
Распознавание маркера дополненной реальности [Электронный ресурс]. – Режим доступа: http://habrahabr.ru – Яз. рус.
How does ARToolKit work? [Электронный ресурс]. – Режим доступа: www.hitl.washington.edu – Яз. англ.

Грищенко Сергей Вячеславович

Факультет компьютерных наук и технологий

Кафедра компьютерной инженерии

Специальность «Программная инженерия»

Исследование методов интеграции трехмерных объектов в видеоизображения в реальном времени

Научный руководитель: к.т.н., доц. Карабчевский В.В.