Авторы: Сурмашев М. Р., Штенников Д. Г.
Источник: Санкт‑Питербургский национальны исслдовательский университет информационных технологий, механики и оптики, г. Санкт‑Питербург.
В данной статье представлен метод распознавания статических жестов русской жестовой азбуки, основанный на теории нечетких множеств и использовании контроллера захвата движения. Автором приводится описание метода выявления характеристик жестов и нахождения их эталонных значений. О собое внимание уделено построению функций принадлежности. В заключении приведены результаты измерения надежности приведенного метода.
Распознавание жестов, нечеткие множества, человеко‑машинное взаимодействие.
Развитие техники и человеко‑машинных интерфейсов [8], построенных на распознавании образов и визуальной информации, позволяют разработчикам сделать возможным использование естественного способы общения человека: жестов, мимики, голоса – для взаимодействия с машинами. В последние годы наиболее широко распространившимся методом взаимодействия человека и машины, является взаимодействие, основанное на считывании жестов человека [6].
Несмотря на некоторые успехи, качество разработанных алгоритмов распознавания динамических и статических жестов кистей рук и пальцев, в которых используются видеокамеры, трехмерные сенсоры, цветные перчатки [4], все еще остается недостаточным для создания практических систем человеко‑машинного взаимодействия. К основным недостаткам используемых в настоящее время методов относятся: восприимчивость к изменениям осве щения, необходимость обучения приложения для каждого оператора, низкое качество распознавания жестов и низкая скорость распознавания [1, 4]. В тоже время, развитие техники дало толчок к появлению на рынке более точных контроллеров и специального программного обеспечения специализирующегося на захвате движения, позволяющего существенно упростить задачу распознавания жестов.
В данной работе рассмотрен метод распознавания статических жестов русской жестовой азбуки, основанный на использовании теории нечетких множеств и контроллера захвата движения LeapMotion [7]. Под задачей распознавания жеста будем понимать задачу распознавания статического жеста среди списка эталонных конфигураций.
Предлагаемый метод относится к группе методов, основанных на анализе трехмерной модели руки [9]. В основе работы лежит модель руки с 27 степенями свободы [3], ставшая неофициальным стандартом для решения задач с использованием данного подхода.
В отличие от камер и 3D сканеров [5], в качестве входных данных с контроллера LeapMotion [7] поступает объектная модель руки содержащая следующие данные: нормаль ладони, её положение, координаты каждого сустава, расстояния между парами смежных суставов, а также некоторые вспомогательные и служебные данные
Поскольку, в контексте задачи поставленной в данной работе, нам не важно геометрическое положение руки, мы исключаем 3 степени своды запястья, а именно, его координаты x, y, z. Для упрощения задачи введем одну дополнительную степень свободы, тем самым определив ориентацию ладони через вектор нормали и вектор её направления (вектор от запястья до пястно-фалангового сустава среднего пальца).
Для суставов, таких как: межфаланговый, дистальный, проксимальный – определим их степень свободы как угол между двумя смежными костями, заданных их начальными и конечными координатами.
Для пястно‑фаланговых суставов одну степень свободы определим, как и в предыдущем случае, углом между смежными костями. Для нахождения второй степени свободы, введем вспомогательный вектор, берущий свое начало в пястно‑фаланговом суставе указательного пальца и заканчивающийся в том же суставе мизинца. Соответственно, вторая степень свободы будет определяться углом между вспомогательным вектором и вектором, образованным пястно‑фаланговым и проксимальным суставом. Таким же способом определим степени свободы для запястно-пястного сустава.
Таким образом, мы получаем модель руки, состоящую из 23 степеней свободы, описывающую нормаль и направление ладони, а также все углы сгибов пальцев в каждом суставе.
Для построения эталонных значений, для каждого из распознаваемых жестов проведем от 30 до 50 измерений. В каждом из жестов, для каждой степени свободы, определим е? математическое ожидание и дисперсию. В результате мы получаем множества пар векторов:
где n – число распознаваемых жестов, k – число степеней свободы.
Для каждого из распознаваемых жестов введем нечеткое множество:
где n – число распознаваемых жестов.
Элементом нечеткого множества Ai является вектор
состоящий из полученных значений степеней свободы, где k – число степеней свободы.
Для каждого xj, j = 1, 2, 3, …, k элемента нечеткого множества введем функцию fij
где ci и δi – математическое ожидание и дисперсия i‑ого жеста.
Обозначим функцию принадлежности нечеткого множества Ai как:
Для апробации предложенного метода, был выбран алфавит, состоящий
из двух групп однородных жестов: А
, В
, С
, Е
и О
,
Р
, Н
, Ш
. Данные группы жестов
были выбраны в виду соображений того, что
на них можно определить надежность распознавания как при изменении
большого числа степеней свободы (жесты первой группы), так и при изменении
только отдельных параметров (жесты второй группы).
Под понятием надежность распознавания будем понимать процент успешно распознанных жестов из числа всех попыток.
Таблица 1
Надежность распознавания
Жест | А | В | С | Е | О | Р | Н | Ш |
---|---|---|---|---|---|---|---|---|
Надёжность, % | 98 | 98 | 92 | 92 | 98 | 94 | 94 | 96 |
Проведенные эксперименты показали высокую надежность распознавания, превышающую девяносто процентов. Это относится не только к выбранным в качестве эксперимента жестам, но и ко всем остальным.
Стоит отметь, что наихудшая надежность проявляется на жестах с
нечеткой
трактовкой, к примеру, на жестах С
, Е
, Ф
. Это связано
с высокими показателями дисперсий степеней свободы характеризующих конфигурацию
пальцев. Для остальных случаев, когда жест четко описывается,
А
, В
, Г
мы получаем небольшой разброс значений степеней свободы и
малую дисперсию, что отражается на высокой надежности распознавания.
Разработан метод распознавания статических жестов основанный на использовании контроллера захвата движения LeapMotion [7] и теории нечетких множеств.
Проведенные эксперименты показали высокую надежность распознавания. Также данный метод обладает рядом других преимуществ, к которым можно отнести: нечувствительность к внешнему освещению, отсутствие необходимости обучения системы под каждого пользователя, возможность обучения системы на небольшой выборке обучающих данных, а также, невысокие затраты вычислительных ресурсов.
Благодаря высокой надежности и простоте использования, данный метод может быть успешно использован в ряде прикладных приложений, будь то системы обучения, или системы жестового ввода текста.
1. Hand Gesture Recognition Using Neural Networks Klimis S. Master of Science in Multimedia Signal Processing communications School of Electronic and Electrical Engineering.
2. Iwai Y., Watanabe K., Yagi Y., Yachida M., Gesture recognition using colored gloves, Pattern Recognition, 1996, Proceedings of the 13th International Conference, vol. 1, no., pp. 662, 666 vol. 1, 25-29 Aug 1996.
3. Методы биомехатроники тренажёра руки человека / А. К. Платонов [и др.] // Препринты ИПМ им. М. В. Келдыша. – 2012. – № 82. – 40 с.
4. Darwiche A. A Differential Approach to Inference in Bayesian Networks // Journal of the ACM. – 2001. – Vol. 50, № 3. – P. 280-305.
5. Kinect для Xbox One [Электронный ресурс]. – Режим доступа: Xbox One (дата обращения: 14.04.2013).
6. Freeman W. Computer vision for television and games, Recognition, Analysis, and Tracking of Faces and Gestures in Real-Time Systems, 1999. Proceedings. International Workshop, vol., no., pp. 118, 118,1999.
7. Leap Motion Controller [Электронный ресурс]. – Режим доступа: Leap Motion (дата обращения: 14.04.2015).
8. Шестеркин А. Н. Человеко-машинное взаимодействие: системы «человек-машина»: учеб. пособие / А. Н. Шестеркин; Ряз. гос. радиотехн. акад. – Рязань: Изд‑во РГРТА, 2005. – 60 с
9. Pansare J. R., Gawande S. H., Ingle M. Real‑Time Static Hand Gesture Recognition for American Sign Language (ASL) in Complex Background // Journal of Signal and Information Processing, Vol. 3, N 3, 2012. – p. 364-367.