Распознавание жестов руки с использованием метода роя частиц (Фрагмент)

Аннотация

Мы представляем метод распознавания, полученный с использованием метода роя частиц для распознавания жестов руки в пространстве. В сети распознавание жестов остается сложной проблемой из-за неопределенности в методах обнаружения границ жестов на основе компьютерного зрения. Мы предлагаем автоматизированный процесс сегментации значимых траекторий жестов, основанных на методе движения роя частиц. Обнаружение дополнительного жеста и метод аргументации включен в предлагаемый распознаватель, чтобы избежать преждевременного определения жеста. Оценка предлагаемого метода показывает многообещающие результаты распознавания: 97,6% на заранее предустановленных жестах, 94,9% на потоковых жестах с использованием вспомагательных граничных индикаторов и 94,2% для слепого распознавания жестов цифрового словаря. Предлагаемый распознаватель требует меньше вычислительных ресурсов; таким образом, он является хорошим кандидатом для приложений реального времени.

1. Введение

Жесты – это мощный канал связи между людьми, который является основным для передачи информации в нашей повседневной жизни. Задействование жестов рук человека для управления компьютерным интерфейсом становится важной областью исследований. Часто предпочитается использовать жесты благодаря простому взаимодействию [1, 2]. Чтобы взаимодействовать с устройством используя руки, компьютеры должны иметь возможность визуально обнаружить руку и распознать жест с видеоустройства [3-5].

Современные технологии компьютерного зрения выполняют обнаружение рук в режиме реального времени и распознавание жестов выглядит многообещающе [6]. Предложено много различных подходов, которые используют руку в качестве интерфейса [1, 2]. Чтобы поддерживать взаимодействие жестов, распознаватель должен быть интегрирован в систему и обучен к конкретным жестам, которые система будет поддерживать. Однако, большинство распознавателей имеют присущие ограничения в типах жестов, которые они могут эффективно различать [7], что часто приводит к высокой корреляции между категориями жестов.

Кроме того, распознавание жестов создает много проблем, поскольку жесты часто характеризуются непредсказуемым граничным шумом (см. рис. 1 (а)) из-за отсутствия совершенных методов сегментации жестов на основе компьютерного зрения, между жестами (когда жесты коартикулируются) (см. рис. 1 (b)), приводя к неопределенному распознаванию [8].

Рисунок 1: Искаженные жесты: (а) граничный шум, который может привести к классификации 5 как 8 и (б) соединительный сегмент, который приведет к классификации 4 как 9

В существующих системах распознавания жестов, часто делаются два предположения: наличие граничных индикаторов жестов или слепое распознавание, последнее – более сложное. Каждый подход имеет разные последствия, и предпочтение одного над другим зависит от приложения. Несколько попыток было сделано в слепом распознавании [9, 10], что преобладает в реальных приложениях. Распознавние слепого жеста делает классификацию неоднозначной и более сложной, так как меньше информации предоставляется распознавателю.

Одной из проблем является то, что словари жестов часто содержат высококоррелированные жесты, которые приводят к неопределенному распознаванию [8, 11]. Например, в цифровом словаре жестов движение руки, выполняемое для жестикуляции цифры два, является частью той, которая была выполнена для цифры три. Чтобы избежать неопределенности часто требуются дополнительные действия. Alon et al. [10] предложил метод сопоставления шаблона с обнаружением дополнительного жеста и метод аргументации, которые избегают преждевременного обнаружение жеста. В [9] границы жестов обнаруживаются до распознавания жестов с помощью Скрытых Марковских Моделей (СММ). Эти методы дают многообещающие коэффициенты распознавания; однако вычислительные ресурсы все еще высокие.

В этой статье мы адаптируем оптимизацию роя частиц (ОРЧ) к проблеме распознавания жестов. ОРЧ – шаблон способа поиска [12]. В общем, алгоритм ОРЧ инициализируется с группой N частиц. Каждая частица характеризуется своей собственной лучшей позицией, которая обновляется согласно ее фитнес значению (вероятность). В контексте распознавания жестов, пространство поиска/решения состоит из шаблонов жестов, которым мы назначаем частицы, и позволяем им эволюционировать через детерминированный процесс сопоставления, руководствуясь наблюдаемыми данными. Распознанная категория жестов – это одна из частиц, которая имеет самую высокую оценку соответствия и находится ближе всего к концу шаблона. Распознавание жеста используя ОРЧ предлагает более эффективный способ сегментации, поскольку граница жеста может быть выведена непосредственно из процесса сопоставления, то есть лучшей позиции собственной частицы; таким образом, нет необходимости в возврате. Вклад этой статьи можно резюмировать следующим образом:

  1. Предлагается автоматизированный процесс сегментации значимой траектории жеста, основанный на методе движения роя частиц.
  2. Чтобы избежать преждевременного обнаружения жеста, заложено распознавание дополнительного жеста и аргументации в рамках предлагаемого распознавателя.
  3. Сокращено время обработки распознавания жестов, поскольку границы жестов могут быть выведены непосредственно из собственной наилучшей позиции частицы.

Мы оцениваем эффективность предлагаемого метода по трем определениям жестов и допускаемые распознавания, т.е. вручную обнаружены (с согласованными границами), предварительно согласованные с граничными индикаторами (с возможным граничным шумом) и слепого распознавания жестов [8]. Остальная часть этой статьи организована следующим образом; в разделе 2 обсуждаются последние работы связанные с динамическим распознаванием жестов. Раздел 3 дает подробную информацию о предлагаемом методе, а затем раздел 4 в котором обсуждается серия экспериментов для оценки предложенных методов. Наконец, раздел 5 завершает эту работу.

2. Распознавание жестов

Распознавание жестов – сложная проблема, которая рассматривается разными способами. Широко распространенный используемый подход – это Скрытая Модель Маркова (СММ) [9, 13-16]. Методы распознавания жеста на основе СММ представляют собой каждый жест множеством состояний, связанных с вероятностями (начальная, переходная и наблюдаемая), которые обучены по примерам. Распознаватели СММ выбирают модель с лучшим правдоподобием и классифицируют данный жест в соответствующюю категорию жестов. Хотя системы распознавания СММ выбирают модель с наилучшей вероятностью, она не гарантирует что шаблон действительно похож на эталонный жест, если только значение вероятности достаточно велико, выше некоторого порога. В случае простого порога не работает хорошо, сложная пороговая модель может быть выведена как сделано в [14] или применяются в другом механизме проверки, как это сделано в [4].

Для получения хороших результатов, СММ необходимо хорошо обучить чтобы получить хорошие репрезентативные модели [9]. Траектория, основанная на правилах сегментации для моделирования траектории движения руки, была предложена в [13], чтобы обеспечить надежную инициализацию. Авторы провели обширное исследование по хорошей инициализации СММ, которая часто является главной проблемой способа распознавания на основе СММ. Они получили автоматизированный процесс для определения количества состояний и надежной инициализации СММ. Предлагаемый способ может разделять каждое угловое состояние обучаемых данных на этапе инициализации, обеспечивая тем самым решение для смягчения неопределенностей при инициализации СММ и повысить распознаваемость СММ.

Автоматическая система, которая обрабатывает определение жеста и выполняет распознавание основанное на генеративной модели как СММ была предложена в [9]. Чтобы точно определить значимые (ключевые) жесты чисел (0-9), предлагается стохастический метод для разработки модели без жеста с использованием СMM без обучения. Модель без жеста обеспечивает меру доверия, которая используется в качестве адаптивного порога для нахождения начальной и конечной точки значимых жестов, которые встроены во входной видеопоток. Подход пороговой модели часто является ресурсоемким, поскольку создается модель без жеста большого размера [4]. Чтобы отфильтровывать мусорные данные жеста, в [4] авторы обращаются к использованию простой модели порога Гаусса, основанной на единственной вероятностной плотности Гаусса, которая выводится в процессе обучения. Основные недостатки методов распознавания на основе СMM заключаются в том, что они требуют большое количество образцов и требуют длительное время обучения для калибровки моделей [14]. Когда примеров обучения недостаточно, метод сопоставления шаблонов, токой как алгоритм динамической трансформации временной шкалы (DTW) является предпочтительным.

DTW – другой подход, часто используемый для задач распознавания динамических жестов [3, 17, 18]. Методы распознавания на основе DTW выравнивают заданную последовательность в шаблоны жестов. Для получения хороших результатов шаблоны могут потребоваться для учета вариаций заданной категории жестов, как это может быть в случае других методов сопоставления шаблонов. Кроме того, DTW хорошо показывает себя во временных рядах, чувствительных к шуму. Различные показатели расстояния были получены для улучшения результатов DTW. Основанный на вероятности DTW и набор визуальных и глубинных слов для человека распознавание жестов в RGB-D (красный зеленый синий-глубина) используется мягкое расстояние на основе вероятностной меры сходства [17]. Вышеупомянутая производная дистанционная мера улучшает скорость распознавания классического DTW, использующего Евклидово расстояние как функцию стоимости. В [19] выполнена сравнительная оценка из шести измерений траекторий. Мера наибольшей общей подпоследовательности (LCS) превосходит другие – на наборах данных с различными характеристиками. LCS представляет собой алгоритм сопоставления строк, который фокусируется на согласованной подпоследовательности. Это делает его устойчивым к шуму. LCS недавно получил много внимания и был успешно использован в динамических системах распознавания жестов.

Литература
  1. J. P. Wachs, M. Kolsch, H. Stern, and Y. Edan, Vision-based hand-gesture applications, Communications of the ACM, vol. 54, no. 2, pp. 60–71, 2011.
  2. S. Lian, W. Hu, and K. Wang, Automatic user state recognition for hand gesture based low-cost television control system, IEEE Transactions on Consumer Electronics, vol. 60, no. 1, pp. 107–115, 2014.
  3. P. Doliotis, A. Stefan, C. McMurrough, D. Eckhard, and V. Athitsos, Comparing gesture recognition accuracy using color and depth information, in Proceedings of the 4th ACM International Conference on PErvasive Technologies Related to Assistive Environments (PETRA ’11), May 2011.
  4. J. H. Lee, T. Delbruck, M. Pfeiffer et al., Real-time gesture interface based on event-driven processing from stereo silicon retinas, IEEE Transactions on Neural Networks and Learning Systems, vol. 25, no. 12, pp. 2250–2263, 2014.
  5. C. Nyirarugira and T. Kim, Adaptive differential evolution algorithm for real time object tracking, IEEE Transactions on Consumer Electronics, vol. 59, no. 4, pp. 833–838, 2013.
  6. M. B. Holte, T. B. Moeslund, and P. Fihl, View-invariant gesture recognition using 3D optical flow and harmonic motion context, Computer Vision and Image Understanding, vol. 114, no. 12, pp. 1353–1361, 2010.
  7. L. Anthony, R. D. Vatavu, and J. O. Wobbrock,Understanding the consistency of users’ pen and finger stroke gesture articulation, in Proceedings of the Graphics Interface (GI ’13), pp. 87–94, Regina, Canada, May 2013.
  8. C. Nyirarugira and T. Kim, Stratified gesture recognition using the normalized longest common subsequence with rough sets, Signal Processing: Image Communication, vol. 30, pp. 178–189, 2015.
  9. F. F. M. Ghaleb, E. A. Youness, M. Elmezain, and F. S. Dewdar, Hand gesture spotting and recognition in stereo color image sequences based on generative models, International Journal of Engineering Science and Innovative Technology, vol. 3, no. 1, pp. 78–88, 2014.
  10. J. Alon, V. Athitsos, Q. Yuan, and S. Sclaroff, A unified framework for gesture recognition and spatiotemporal gesture segmentation, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 31, no. 9, pp. 1685–1699, 2009.
  11. D. Frolova, H. Stern, and S. Berman, Most probable longest common subsequence for recognition of gesture character input, IEEE Transactions on Cybernetics, vol. 43, no. 3, pp. 871–880, 2013.
  12. L. Liu, S. Yang, andD.Wang, Particle swarmoptimization with composite particles in dynamic environments, IEEE Transactions on Systems, Man, andCybernetics, Part B:Cybernetics, vol. 40, no. 6, pp. 1634–1648, 2010.
  13. J. Beh, D. Han, andH.Ko, Rule-based trajectory segmentation for modeling hand motion trajectory, Pattern Recognition, vol. 47, no. 4, pp. 1586–1601, 2014.
  14. H.-K. Lee and J. H. Kim, An HMM-Based threshold model approach for gesture recognition, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 21, no. 10, pp. 961–973, 1999.
  15. A. D. Wilson and A. F. Bobick, Parametric hidden Markov models for gesture recognition, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 21, no. 9, pp. 884–900, 1999.
  16. A. Just and S. Marcel, A comparative study of two stateof-the-art sequence processing techniques for hand gesture recognition, Computer Vision and Image Understanding, vol. 113, no. 4, pp. 532–543, 2009.
  17. M. Angel Bautista, A. Hern´andez-Vela, V. Ponce et al., Probability-based dynamic time warping for gesture recognition on RGB-D data, in Advances in Depth Image Analysis and Applications, vol. 7854, pp. 126–135, Springer, 2013.
  18. S.Zhou, F. Fei, G. Zhang et al., 2D human gesture tracking and recognition by the fusion of MEMS inertial and vision sensors, IEEE Sensors Journal, vol. 14, no. 4, pp. 1160–1170, 2014.
  19. B. Morris and M. Trivedi, Learning trajectory patterns by clustering: experimental studies and comparative evaluation, in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR ’09), pp. 312–319, Miami, Fla, USA, June 2009.
  20. J. Kennedy and R. C. Eberhart, A discrete binary version of the particle swarm algorithm, in Proceedings of the IEEE International Conference on Systems,Man, and Cybernetics, vol. 5, pp. 4104–4108, Orlando, Fla, USA, October 1997.