Назад в библиотеку

Робастное распознавание жестов рук с помощью Kinect

Авторы: Zhou Ren, Jingjing Meng, Junsong Yuan.
Автор перевода: М. В. Складчиков
Источник: Proceedings of the 19th International Conference on Multimedea 2011, Scottsdale, AZ, USA, November 28‑December 1, 2011

Аннотация

Взаимодействие человека и компьютера (HCI) на основе жестов руки – один из самых естественных и интуитивно понятных способов общения между людьми и машинами, поскольку он точно имитирует взаимодействие людей друг с другом. В этой демонстрации мы представляем систему распознавания жестов рук с использованием сенсора Kinect, который надежно работает в неконтролируемых средах и не чувствителен к вариациям и искажениям рук. Наша система состоит из двух основных модулей, а именно обнаружения рук и распознавание жеста. В отличие от традиционного, основанного на видении, методы распознавания жестов рук с использованием цветных маркеров для обнаружения рук наша система использует как глубину, так иинформация о цвете от сенсора Kinect для обнаружения формы руки, которая обеспечивает надежность в изменяющейся среде. Кроме того, чтобы гарантировать его устойчивость к входным вариациям или искажениям, вызванные низким разрешением датчика Kinect, мы применяем новую метрику расстояния формы, называемую расстояние между пальцем и землей (FEMD). Следовательно, наша система работает более качественно. В данной статье мы демонстрируем качество работы нашей системой в двух реальных приложениях: арифметические вычисления и игра камень‑ножницы‑бумага

Ключевые слова: Взаимодействие человека и компьютера, распознавание жестов рук, датчик Kinect, расстояние от пальца до земли.

Введение

Распознавание жестов рук является важным вопросом исследований в области человеко‑машинного взаимодействия, поскольку оно имеет широкое применение в виртуальной реальности, в сфере распознавания жетов и компьютерных играх [7]. Несмотря на множество предыдущих работ, построение надежной системы распознавания жестов рук, применимой для реальных приложений, остается сложной задачей. Существующие подходы, основанные на зрительном восприятии [1, 5, 6], сильно ограничены качеством входного изображения от оптических камер. Вариации в освещении и помехи на заднем плане только усугубляют проблему. Следовательно, эти системы не смогли обеспечить удовлетворительных результатов распознавания жестов руками.

Распознавание жестов рук связано с двумя сложными проблемами: обнаружением рук и распознаванием жестов, а именно, как надежно обнаружить руку и как эффективно и точно распознать жест руки.

Основная структура нашей системы распознавания жестов рук показан на рис.1. Что касается распознавания рук, то в отличие от традиционных методов, использующих цветные маркеры для распознавания рук, наша система использует как карту глубины, так и цветное изображение, полученное с помощью сенсора Kinect, которое необходимо для распознавания форм рук. Это обеспечивает устойчивость к замутнению фона. А сегментированные формы рук представлены в виде кривых временных рядов. [2].

pic1

Рисунок 1 – Основаная структура нашей системы надёжного распознавания жетов руки


Что касается распознавания жестов, даже с датчиком Kinect, это все еще очень сложная проблема. Потому что обычно разрешение датчика Kinect составляет всего 640x480. Несмотря на то, что он хорошо работает для отслеживания крупного объекта, например, человеческого тела, при таком разрешении трудно обнаружить и отсечь точно маленький объект от изображения, например, человеческую руку, занимающую очень малую часть изображения. Поэтому, мы используем новую метрику расстояния формы, называемую FEMD (Finger-Earth Mover's Distance – расстояние между пальцами и землей), для измерения несоизмеримостей между различными формами рук, которая предложена в [4]. Метрика FEMD специально разработана для подбора формы на руке, которая устойчива к вариациям и искажениям на руке. FEMD представляет собой форму руки, как подпись, которая рассматривает каждый палец, как кластер, и различия в расстоянии между двумя формами рук определяется как сумма работы, необходимой для перемещения груды земли и штраф на несопоставимых пальцев. Для точного обнаружения пальцев в [4] также представлены два новых алгоритма обнаружения пальцев, использующих пороговое разложение и схему разложения, близкую к выпуклой форме, представленную в [3]. Наконец, входная рука распознается по совпадению шаблонов.

Демонстрация

Цель этой демонстрации – продемонстрировать два реальных приложения, построенных на базе нашей новой и надежной системы распознавания жестов руками. Наша технология работает надежно, несмотря на различия в ориентации руки, масштабе или сочленении. Кроме того, она хорошо работает в неконтролируемых условиях с фоновыми помехами. Что касается эффективности и точности, то наша система работает эффективно со средней точностью 90,6% по набору данных [4].

Приложения

Мы демонстрируем нашу систему распознавания жестов рук, используя два реальных приложения: арифметические вычисления и игру камень‑ножницы‑бумага.

Арифметические вычисления

pic2

Рисунок 2 – 14 жестовых команд в нашей системе арифметических вычислений


Арифметические вычисления – это интересное приложение для HCI. Вместо того, чтобы взаимодействовать с компьютером с помощью клавиатуры или мыши, мы вводим арифметические команды на компьютер с помощью жестов рук. Как показано на рис.2, 14 ручных жестов используются для представления 14 команд, а именно числа 0‑9 и оператора +, -, ×, ÷, соответственно.

pic3

Рисунок 3 – Арифметические вычисления


Распознавая каждый входной жест как команду, компьютер может выполнять арифметические вычисления по указанию пользователя. Два примера приведены на рис.3. Также показаны ключевые кадры.

Игра камень‑ножницы‑бумага

Камень‑ножницы‑бумага – традиционная игра. Правило: камень ломает ножницы; ножницы режут бумагу; и бумага обертывает камень. В этой демонстрации, мы строим игровую систему камень‑ножницы‑бумага, мграющую между человеком и компьютером. Три жеста руки определяются в игре как 3 различных вида оружия, как показано на рис.4, которые могут быть распознаны нашей системой, и компьютер просто случайным образом выбирает оружие.

pic4

Рисунок 4 – Игра камень‑ножницы‑бумага


Затем, в соответствии с правилом игры, наша система может определить победителя между человеком и компьютером. На рис.5 приведены два примера.

pic5

Рисунок 5 – Игра камень‑ножницы‑бумага


Заключение

В этой демонстрации, мы представляем эффективную и точную система распознавания жестов руку, использующую датчик Kinect как устройство ввода. Как глубина, так и цветовая информация, получаемая от датчика Kinect, используются для обнаружения руки, что обеспечивает надежность нашей системы при работе в неблагоприятных условиях. Кроме того, метрика расстояния между пальцами и землей, используемая в нашем модуле распознавания жестов, обеспечивает эффективный механизм распознавания форм рук с вариациями и искажениями на входе. Такая система распознавания жестов обеспечивает надежное решение в двух реальных приложениях HCI, которые также могут быть применены ко многим другим HCI на основе жестов.

Благодарность

Доктору Junsong Yuan была оказана поддержка помощником профессора из Наньяна (SUG M58040015) при реализации данного проекта

Литературы

1. C. Chua, H. Guan, and Y. Ho. Model-based 3d hand posture estimation from a single 2d image. Image and Vision Computing, 20:191 – 202, 2002.
2. E. Keogh, L. Wei, X. Xi, S. Lee, and M. Vlachos. Lb_keogh supports exact indexing of shapes under rotation invariance with arbitrary representations and distance measures. In Proc. of 32th International Conf. on VLDB, 2006.
3. Z. Ren, J. Yuan, C. Li, and W. Liu. Minimum near‑convex decomposition for robust shape representation. In Proc. of ICCV, 2011.
4. Z. Ren, J. Yuan, and Z. Zhang. Robust hand gesture recognition based on finger‑earth mover’s distance with a commodity depth camera. In Proc. of ACM MM, 2011.
5. N. Shimada, Y. Shirai, Y. Kuno, and J. Miura. Hand gesture estimation and model refinement using monocular camera‑ambiguity limitation by inequality constraints. In Proc. of Third IEEE International Conf. on Face and Gesture Recognition, 1998.
6. B. Stenger, A. Thayananthan, P. Torr, and R. Cipolla. Filtering using a tree‑based estimator. In Proc. of IEEE ICCV, 2003.
7. J. P. Wachs, M. Kolsch, H. Stern, and Y. Edan. Vision‑based hand-gesture applications. Communications of the ACM, 54:60–71, 2011.