Zhou Ren, Jingjing Meng, Junsong Yuan, Zhengyou Zhang - Точное распознавание жестов руки с помощью сенсора Kinect

АННОТАЦИЯ

Жесты руки - основа человеко-машинного взаимодействия, они являются одним из самых естественных и интуитивно понятным способом общения человека с машинами, так как через жесты человеку проще взаимодействовать с машиной. В этой демонстрации мы представляем систему распознавания жеста руки с использованием датчика Kinect, который работает надежно в неконтролируемых условиях и нечувствителен изменению руки и искажениям. Наша система состоит из двух основных модулей, а именно обнаружения руки и распознавания жеста. В отличие от традиционных методов распознавания жестов руки, которые используют цветные маркеры для обнаружения руки, наша система использует как данные глубины, так и информацию о цвете, полученные с датчика Kinect, для обнаружения руки, что обеспечивает надёжность. Кроме того, чтобы гарантировать его устойчивость к входным вариациям или искажениям, вызванные низким разрешением датчика Kinect, мы применяем новую форму измерения расстония, называемая Finger-Earth Mover’s Distance (FEMD) для распознавания жеста руки. Следовательно, наша система работает точно и эффективно. В этой демонстрации мы продемонстрируем производительность нашей системы в двух реальных приложениях: арифметические вычисления и камень-ножницы-бумага

Категории и темы описания

H.1.2 [Пользователь/Машинная система]: Обработка информации человеком; I.4.8 [Анализ сцен]: Данные глубины, Форма

Общие условия

Экспериментирование

Ключевые слова

Человека-машинное взаимодействие, Распознавание жестов руки, Датчик Kinect, Finger-Earth Mover’s Distance

1. ВВЕДЕНИЕ

Распознавание жеста руки является важным вопросом исследования в области человеко-машинного взаимодействия, из-за его широкого применения в виртуальной реальности, распознании жестов языка и компьютерных играх [7]. Несмотря на большое количество предыдущих работ, создание системы точного распознавания жестов руки, которая применима для реальных приложений остаётся сложной проблемой. Существующие видения подходов [1, 5, 6] значительно ограничены в качестве входного изображения, полученного с оптической камеры. Различия в освещении, фоне и помех может только усугубить проблему. Следовательно, эти системы не были в состоянии обеспечить удовлетворительные результаты для распознавания жестов руки.

Задача распознавание жеста руки касается двух сложных проблем: обнаружение руки и распознавания жеста, а именно: как надежно обнаружить руку и, как эффективно и точно определить жест руки.

Схема нашей системы распознавания жеста руки показана на рис. 1. Как обнаружение руки отличается от традиционных методов, которые используют цветные маркеры для обнаружения руки. Наша система использует как карту глубины, так и цветное изображение, полученное с датчика Kinect для обнаружения руки. Она обеспечивает устойчивость к загромождённому фону. Сегментация формы руки представлена в виде кривых временных рядов [2].Что касается распознавания жестов, даже с датчиком Kinect, по-прежнему является очень сложной проблемой. Так как правило, разрешение датчика Kinect только 640х480. Хотя он хорошо работает для отслеживания больших объектов, например, человеческого тела, трудно обнаружить и точно сегментировать небольшой объект из изображения при таком разрешении, например, человеческая рука, которая занимает очень небольшую часть изображения. Таким образом, мы используем новую форму метрики расстояния, называемой Finger-Earth Mover’s Distance (FEMD) для измерения различий между различными формами руки, которая предложена в [4]. FEMD разработан специально для определенния соответствий формы руки, который является устойчивым к изменениями и искажениями руки. FEMD представляет форму руки в качестве сигнатуры, которая рассматривает каждый палец как кластер, и несходства расстояние между двумя формами руки определяется как сумма работ, необходимая для перемещения объёма земли и штраф на неодинаковые пальцы. Для того, чтобы точно определить палец, [4] также представлены два новых алгоритма для обнаружения пальцев с помощью порога разложения и близко-выпуклую форму разложения, приведенные в [3]. Наконец, входной руке признан шаблон соответствия.

Рисунок 1 – Схема нашей системы точного распознавания жестов руки

2. ПРОИЗВОДИТЕЛЬНОСТЬ

Цель этой демонстрации - продемонстрировать два реальных приложения, построенных на основе нашей новой и надежной системы распознавания жестов руки. Наша технология надежно работает, несмотря на изменения в ориентации, масштабе или артикуляции руки. Кроме того, она хорошо работает в средах с неконтролируемыми фоновыми помехами. Что касается эффективности и точности, наша система работает эффективно со средней точностью 90,6% на набор данных [4].

3. ПРИЛОЖЕНИЯ

Мы демонстрируем систему распознавания жестов руки с помощью двух приложений: арифметические выражения и камень-ножницы-бумага.

3.1 Арифметические выражения

Арифметические выражения - это интересное приложение человеко-машинного взаимодействия. Вместо того, чтобы взаимодействовать с компьютером с помощью клавиатуры или мыши, мы вводим арифметические команды к компьютеру с помощью жестов. Как показано на рис. 2, 14 жестов используются, чтобы представить 14 команд, а именно числа 0-9 и операторы +, -, *, /, соответственно.

Рисунок 1 - 14 жестов в нашей системе вычисления арифметических выражений

Рисунок 2 – 14 жестов в нашей системе вычисления арифметических выражений

Определив входной жест, как команду, компьютер может выполнять арифметические вычисления, которые показал пользователь. Два примера показаны на рис. 3. Также показаны ключевые кадры.

Рисунок 3 – Арифметические выражения

3.2 Камень-ножницы-бумага

Камень-ножницы-бумага - это традиционная игра. Как правило камень бьёт ножницы, ножницы режут бумагу, а также бумага обёртывает камень. В этой демонстрации, мы строим игровую систему камень-ножницы-бумага, игра между человеком и компьютером. Три жеста определяют 3 различных вида оружия в игре, как показано на рис. 4, которые могут быть распознаны нашей системой, а компьютер просто случайным образом выбирает оружие. Тогда, согласно правилам игры, наша система может определить победителя между человеком и компьютером. На Рис. 5 показаны два примера.

Рисунок 4 – Игра камень-ножницы-бумага

Рисунок 5 – Игра камень-ножницы-бумага

4 ЗАКЛЮЧЕНИЕ

В этой демонстрации мы представили эффективную и точную систему распознавания жестов руки с помощью датчика Kinect, используемого в качестве устройства ввода. Как данные о глубине, так и информация о цвете, полученные с датчика Kinect, используются для обнаружения руки, что обеспечивает надежность нашей системы и устойчивость к помехам. Кроме того, метрика Finger-Earth Mover’s Distance, в нашем модуле распознавания жестов, представляет собой эффективный механизм для распознавания жеста руки с входными вариациями и искажениями. Таким способом распознавания жестов руки, система обеспечивает надежное решение в двух реальных приложениях человеко-машинного взаимодействия, который также может быть применён ко многим другим задачам распознавания жестов на основе человеко-машинного взаимодействия.

5 БЛАГОДАРНОСТЬ

Эта работа была поддержана помощником профессора Nanyang (SUG M58040015) доктором Dr. Junsong Yuan.

6 ССЫЛКИ

1. C. Chua, H. Guan, and Y. Ho. Model-based 3d hand posture estimation from a single 2d image. Image and Vision Computing, 20:191 - 202, 2002.

2. E. Keogh, L. Wei, X. Xi, S. Lee, and M. Vlachos. Lb keogh supports exact indexing of shapes under rotation invariance with arbitrary representations and distance measures. In Proc. of 32th International Conf. on VLDB, 2006.

3. Z. Ren, J. Yuan, C. Li, and W. Liu. Minimum near-convex decomposition for robust shape representation. In Proc. of ICCV, 2011.

4. Z. Ren, J. Yuan, and Z. Zhang. Robust hand gesture recognition based on nger-earth mover's distance with a commodity depth camera. In Proc. of ACM MM, 2011.

5. N. Shimada, Y. Shirai, Y. Kuno, and J. Miura. Hand gesture estimation and model refinement using monocular camera-ambiguity limitation by inequality constraints. In Proc. of Third IEEE International Conf. on Face and Gesture Recognition, 1998.

6. B. Stenger, A. Thayananthan, P. Torr, and R. Cipolla. Filtering using a tree-based estimator. In Proc. of IEEE ICCV, 2003.

7. J. P. Wachs, M. Kolsch, H. Stern, and Y. Edan. Vision-based hand-gesture applications. Communications of the ACM, 54:60-71, 2011.