Na-Eun Yang, Ji Won Lee, Rae-Hong Park - Генерация карты глубины по одному изображению с использованием гипотезы локальной глубины

Авторы: Na-Eun Yang, Ji Won Lee, Rae-Hong Park
Источник: http://www.digdia.com/

Аннотация

В этой статье предлагается интерактивный метод генерации карты глубины из одного изображения для преобразования 2D в 3D. Сначала предлагаемый метод группирует входное изображение в аналогичные области для сохранения деталей, и сегментирует изображение в выделенные области при взаимодействии с пользователем. Затем предложенный метод генерирует гипотезу локальной глубины, используя структурную информацию входного изображения и выступающих областей. В итоге предложенный метод генерирует карту глубины с использованием локальной гипотезы глубины и сгруппированных областей. Экспериментальные результаты показывают, что предлагаемый способ дает более естественную карту глубины с точки зрения человеческого восприятия. Его можно применять для рендеринга на основе глубинного изображения, такого как рендеринг стереозвука.

I. ВВЕДЕНИЕ

В последнее время спрос на трехмерную (3D) продукцию сильно вырос. Однако из-за ограниченного количества доступного 3D-контента предлагается в качестве альтернативы преобразование 2D в 3D для удовлетворения спроса потребителей 3D-контента. Большинство методов преобразования 2D в 3D являются длительными процессами, требующими сильного вмешательства человека. Есть некоторые автоматические методы, но они все еще недостаточно совершенны. Следовательно, необходимо преобразование 2D в 3D с меньшим вмешательством человека.

Человек воспринимает глубину изображения по различным эвристическим, монокулярным признакам глубины: фокус / расфокусировка, относительная высота / размер, градиент текстуры, структурные особенности от окклюзии, геометрия и тому подобное. Эти монокулярные подсказки глубины заставляют людей воспринимать глубину из одного изображения. Основываясь на этих фактах, было проведено много исследований. В одном изображении, которое имеет различные монокулярные сигналы, в этих исследованиях трудно оценить карту глубины естественным путем только по монокулярным сигналам. Мы предлагаем метод генерации карты глубины из одного изображения для преобразования 2D в 3D с использованием локальной гипотезы глубины. Предложенный метод является полуавтоматическим и простым методом с небольшим вмешательством пользователя.

Оставшаяся часть теста организована следующим образом. Раздел II описывает предложенный метод генерации карты глубины. Экспериментальные результаты предложенного метода приведены и обсуждены в разделе III. И в разделе IV приведены выводы и дальнейшие направления исследований.

II. ПРЕДЛАГАЕМЫЙ МЕТОД ГЕНЕРАЦИИ ГЛУБИНЫ КАРТЫ

Мы предлагаем алгоритм генерации интерактивной карты глубины с использованием локальной гипотезы глубины. На рис. 1 приведена блок-схема предложенного способа генерации карты глубины. Он состоит из четырех частей: группировка сцен, генерация локальной гипотезы глубины, назначение глубины и уточнение карты глубины. Пусть I будет входным изображением, а M обозначает пользовательский ввод, который указывает, как сегментировать I на несколько значимых областей S. H local - это гипотеза локальной глубины, а G - сгруппированное изображение с использованием алгоритма сегментации на основе графов [4]. D init обозначает начальную карту глубины, а D final обозначает улучшенную окончательную карту глубины. Описание каждой части приведено ниже.

А. Группировка сцен

Гипотеза локальной глубины H local представляет собой резкий разрыв по глубине между выступающими областями. Однако недостаточно показать детали изменения глубины в каждой выступающей области, и разрывы глубины могут существовать между объектами в каждой выделенной области. Таким образом, нам нужна сегментация, чтобы представить подробные разрывы глубины в выступающей области. Предполагается, что области одинаковой интенсивности, вероятно, имеют одинаковую глубину. Мы используем алгоритм сегментации на основе графов [4] при группировании похожих областей, чтобы улучшить существенную сегментацию и назначить такое же значение глубины на следующем этапе. На Рис.2 (а) показан результат G сгруппированной сцены входного изображения с большим количеством областей детализации по сравнению с характерной сегментацией S на Рис.2 (с).

B. Генерация гипотезы глубины

Гипотеза глубины генерируется структурной информацией входного изображения и небольшим взаимодействием с пользователем. Сначала пользователь определяет значимые области входного изображения, как показано на Рис.2 (b). Входное изображение сегментируется на две или три значимых области с использованием алгоритма вырезания из графика [5]. Одна из сегментированных областей (серая область) представляет основной объект, тогда как другие (белая область и черная область) являются фоновыми, как показано на Рис. 2 (с). Затем, чтобы определить гипотезы локальной глубины каждой области, мы обнаруживаем линии на карте краев входного изображения. Линии, соответствующие каждой выступающей области, определяют множество точек схода V [6]. На Рис.2 (d) показан результат обнаружения точки исчезновения серой области на Рис.2 (с).

Рисунок 1 - Структурная схема предлагаемого способа

Рисунок 2 - Результаты группирования сцен и генерации гипотезы глубины (a) результат группировки сцен, (b) исходное изображение с пользовательским вводом, (c) сегментированное изображение выступающей области, (d) обнаруженная точка схода, (e) гипотеза локальной глубины.

На карте глубины глубина выражается в оттенках серого. Точка схода представляет собой самую дальнюю точку. Значения глубины областей постепенно увеличиваются от точки схода, чем ярче область, тем ближе она расположена к камере. Если точка схода находится внутри входного изображения, гипотеза о глубине будет определяться расстоянием шахматной доски [7] от точки схода. В противном случае гипотеза о глубине генерируется сочетанием четырех основных гипотез: снизу вверх (рис. 3 (а)), сверху вниз (рис. 3 (б)), справа налево (рис. 3 (в)) и слева направо (рис. 3 (г)). Если в некоторых выделенных областях нет обнаруженной линии, гипотеза глубины каждого региона будет определена по умолчанию снизу вверх (рис. 3 (а)). С сегментированным изображением выступающей области (Рис. 2 (c)) мы объединяем два типа гипотез глубины (Рис. 3 (a) и 3 (c)), чтобы отразить общую тенденцию разрыва глубины с сохранением существенных особенностей. Этот результат, то есть гипотеза локальной глубины H local, показана на рис. 2 (e).

C. Назначение и уточнение глубины

Мы присваиваем значение глубины каждой группе сцен, используя гипотезу локальной глубины. Значение глубины данной группы назначается локальной гипотезой глубины и средним значением глубины в локальной гипотезе глубины, как показано на рис. 2 (е). В исходной карте глубины D init каждая область может иметь значение глубины, отличное от значений соседних пикселей, хотя они имеют аналогичные значения глубины, которые принадлежат одному и тому же объекту в исходном изображении. Если одна область с одинаковой глубиной в реальной сцене разделена на несколько субрегионов с разными значениями глубины, это может привести к неестественным артефактам. Итак, предлагаемый метод уточняет исходную карту глубины, в которой для сглаживания глубины используется кросс-двусторонний фильтр [2]. Входное изображение используется в качестве опорного изображения для кросс-двусторонней фильтрации. Этот процесс может сохранять разрывы по глубине, одновременно сглаживая области одинаковой интенсивности. На рис. 4 (в) показан окончательный результат предложенного метода.

III. ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ И РАССУЖДЕНИЯ

На рис. 4 приведены результаты моделирования предложенного метода по сравнению с двумя существующими методами преобразования 2D в 3D [2], [3]. На рис. 4 (а) показана карта глубины по алгоритму Ченга и др. [2], в котором используется единственная (справа налево) гипотеза глубины. На рис. 4 (б) показана карта глубины по методу Хана и Хонга [3], в которой гипотеза глубины оценивается по гауссовскому распределению с точкой схода и сигналом глубины по высоте.

Поскольку оба метода являются глобальными подходами с одной гипотезой глубины, результаты не могут точно отражать локальный разрыв глубины. По результатам алгоритма Ченга и др. правая часть неба выглядит ближе, чем здание. И два существующих метода дают большую разницу в глубине между правой стороной внешней стены здания и левой стороной. Однако наш метод может эффективно отражать локальный переход глубины за счет явной сегментации. Поэтому небо кажется дальше, чем здание, и глубина внешней стены постепенно изменяется. С помощью простого взаимодействия с пользователем мы можем создать карту глубины, которая сохраняет как глобальные, так и локальные изменения глубины. Предложенный метод может быть применен к интерполяции ключевых кадров для преобразования 2D-3D-видео [8].

Рисунок 3 - Четыре основные гипотезы: (а) снизу вверх, (б) сверху вниз, (в) справа налево, (г) слева направо.

Рисунок 4 - Окончательная карта глубины. (a) метод Ченга и др. [2], (b) метод Хана и Хонга [3], (c) предложенный метод.

IV. ВЫВОДЫ

В статье был рассмотрен метод генерации карты глубины из одного изображения для преобразования из 2D в 3D с взаимодействием с пользователем. Предложенный метод объединяет гипотезы глубины с характерным сегментированным изображением и уточняет исходную карту глубины, используя перекрестный двусторонний фильтр. Предлагаемая карта глубины поддерживает значимые значения глубины и локальный переход глубины. Он может генерировать естественную карту глубины с точки зрения человеческого восприятия. Будущие исследования будут направлены на сокращение вмешательства человека, так что в конечном итоге предлагаемый метод генерации карты глубины может быть автоматизирован.