Авторы: Zhou Ren, Jingjing Meng, Junsong Yuan.
Автор перевода: М. В. Складчиков
Источник: Proceedings of the 19th International Conference on Multimedea 2011, Scottsdale, AZ, USA, November 28‑December 1, 2011
Взаимодействие человека и компьютера (HCI) на основе жестов руки – один из самых естественных и интуитивно понятных способов общения между людьми и машинами, поскольку он точно имитирует взаимодействие людей друг с другом. В этой демонстрации мы представляем систему распознавания жестов рук с использованием сенсора Kinect, который надежно работает в неконтролируемых средах и не чувствителен к вариациям и искажениям рук. Наша система состоит из двух основных модулей, а именно обнаружения рук и распознавание жеста. В отличие от традиционного, основанного на видении, методы распознавания жестов рук с использованием цветных маркеров для обнаружения рук наша система использует как глубину, так иинформация о цвете от сенсора Kinect для обнаружения формы руки, которая обеспечивает надежность в изменяющейся среде. Кроме того, чтобы гарантировать его устойчивость к входным вариациям или искажениям, вызванные низким разрешением датчика Kinect, мы применяем новую метрику расстояния формы, называемую расстояние между пальцем и землей (FEMD). Следовательно, наша система работает более качественно. В данной статье мы демонстрируем качество работы нашей системой в двух реальных приложениях: арифметические вычисления и игра камень‑ножницы‑бумага
Ключевые слова: Взаимодействие человека и компьютера, распознавание жестов рук, датчик Kinect, расстояние от пальца до земли.
Распознавание жестов рук является важным вопросом исследований в области человеко‑машинного взаимодействия, поскольку оно имеет широкое применение в виртуальной реальности, в сфере распознавания жетов и компьютерных играх [7]. Несмотря на множество предыдущих работ, построение надежной системы распознавания жестов рук, применимой для реальных приложений, остается сложной задачей. Существующие подходы, основанные на зрительном восприятии [1, 5, 6], сильно ограничены качеством входного изображения от оптических камер. Вариации в освещении и помехи на заднем плане только усугубляют проблему. Следовательно, эти системы не смогли обеспечить удовлетворительных результатов распознавания жестов руками.
Распознавание жестов рук связано с двумя сложными проблемами: обнаружением рук и распознаванием жестов, а именно, как надежно обнаружить руку и как эффективно и точно распознать жест руки.
Основная структура нашей системы распознавания жестов рук показан на рис.1. Что касается распознавания рук, то в отличие от традиционных методов, использующих цветные маркеры для распознавания рук, наша система использует как карту глубины, так и цветное изображение, полученное с помощью сенсора Kinect, которое необходимо для распознавания форм рук. Это обеспечивает устойчивость к замутнению фона. А сегментированные формы рук представлены в виде кривых временных рядов. [2].
Рисунок 1 – Основаная структура нашей системы надёжного распознавания жетов руки
Что касается распознавания жестов, даже с датчиком Kinect, это все еще очень сложная проблема. Потому что обычно разрешение датчика Kinect составляет всего 640x480. Несмотря на то, что он хорошо работает для отслеживания крупного объекта, например, человеческого тела, при таком разрешении трудно обнаружить и отсечь точно маленький объект от изображения, например, человеческую руку, занимающую очень малую часть изображения. Поэтому, мы используем новую метрику расстояния формы, называемую FEMD (Finger-Earth Mover's Distance – расстояние между пальцами и землей), для измерения несоизмеримостей между различными формами рук, которая предложена в [4]. Метрика FEMD специально разработана для подбора формы на руке, которая устойчива к вариациям и искажениям на руке. FEMD представляет собой форму руки, как подпись, которая рассматривает каждый палец, как кластер, и различия в расстоянии между двумя формами рук определяется как сумма работы, необходимой для перемещения груды земли и штраф на несопоставимых пальцев. Для точного обнаружения пальцев в [4] также представлены два новых алгоритма обнаружения пальцев, использующих пороговое разложение и схему разложения, близкую к выпуклой форме, представленную в [3]. Наконец, входная рука распознается по совпадению шаблонов.
Цель этой демонстрации – продемонстрировать два реальных приложения, построенных на базе нашей новой и надежной системы распознавания жестов руками. Наша технология работает надежно, несмотря на различия в ориентации руки, масштабе или сочленении. Кроме того, она хорошо работает в неконтролируемых условиях с фоновыми помехами. Что касается эффективности и точности, то наша система работает эффективно со средней точностью 90,6% по набору данных [4].
Мы демонстрируем нашу систему распознавания жестов рук, используя два реальных приложения: арифметические вычисления и игру камень‑ножницы‑бумага.
Рисунок 2 – 14 жестовых команд в нашей системе арифметических вычислений
Арифметические вычисления – это интересное приложение для HCI. Вместо того,
чтобы взаимодействовать с компьютером с помощью клавиатуры или мыши, мы вводим арифметические
команды на компьютер с помощью жестов рук. Как показано на рис.2, 14 ручных жестов используются
для представления 14 команд, а именно числа 0‑9 и оператора +
, -
, ×
, ÷
, соответственно.
Рисунок 3 – Арифметические вычисления
Распознавая каждый входной жест как команду, компьютер может выполнять арифметические вычисления по указанию пользователя. Два примера приведены на рис.3. Также показаны ключевые кадры.
Камень‑ножницы‑бумага – традиционная игра. Правило: камень ломает ножницы; ножницы режут бумагу; и бумага обертывает камень. В этой демонстрации, мы строим игровую систему камень‑ножницы‑бумага, мграющую между человеком и компьютером. Три жеста руки определяются в игре как 3 различных вида оружия, как показано на рис.4, которые могут быть распознаны нашей системой, и компьютер просто случайным образом выбирает оружие.
Рисунок 4 – Игра камень‑ножницы‑бумага
Затем, в соответствии с правилом игры, наша система может определить победителя между человеком и компьютером. На рис.5 приведены два примера.
Рисунок 5 – Игра камень‑ножницы‑бумага
В этой демонстрации, мы представляем эффективную и точную система распознавания жестов руку, использующую датчик Kinect как устройство ввода. Как глубина, так и цветовая информация, получаемая от датчика Kinect, используются для обнаружения руки, что обеспечивает надежность нашей системы при работе в неблагоприятных условиях. Кроме того, метрика расстояния между пальцами и землей, используемая в нашем модуле распознавания жестов, обеспечивает эффективный механизм распознавания форм рук с вариациями и искажениями на входе. Такая система распознавания жестов обеспечивает надежное решение в двух реальных приложениях HCI, которые также могут быть применены ко многим другим HCI на основе жестов.
Доктору Junsong Yuan была оказана поддержка помощником профессора из Наньяна (SUG M58040015) при реализации данного проекта
1. C. Chua, H. Guan, and Y. Ho. Model-based 3d hand posture
estimation from a single 2d image. Image and Vision
Computing, 20:191 – 202, 2002.
2. E. Keogh, L. Wei, X. Xi, S. Lee, and M. Vlachos. Lb_keogh
supports exact indexing of shapes under rotation invariance with
arbitrary representations and distance measures. In Proc. of
32th International Conf. on VLDB, 2006.
3. Z. Ren, J. Yuan, C. Li, and W. Liu. Minimum near‑convex
decomposition for robust shape representation. In Proc. of
ICCV, 2011.
4. Z. Ren, J. Yuan, and Z. Zhang. Robust hand gesture recognition
based on finger‑earth mover’s distance with a commodity depth
camera. In Proc. of ACM MM, 2011.
5. N. Shimada, Y. Shirai, Y. Kuno, and J. Miura. Hand gesture
estimation and model refinement using monocular
camera‑ambiguity limitation by inequality constraints. In Proc.
of Third IEEE International Conf. on Face and Gesture
Recognition, 1998.
6. B. Stenger, A. Thayananthan, P. Torr, and R. Cipolla. Filtering
using a tree‑based estimator. In Proc. of IEEE ICCV, 2003.
7. J. P. Wachs, M. Kolsch, H. Stern, and Y. Edan. Vision‑based
hand-gesture applications. Communications of the ACM,
54:60–71, 2011.