Распознавание позы человека на изображении с помощью скрытых марковских моделей

Автор: Коротенко Д.Ю., Гультяева Т.А.
Источник: Коротенко, Д.Ю. Распознавание позы человека на изображении с помощью скрытых марковских моделей/ Д.Ю. Коротенко, Т.А. Гультяева. – Новосибирск, НГТУ.

Распознавание образов используется во многих областях человеческой деятельности: медицине, военном деле, геологии, и т.д. Одним из методов теории распознавания образов, основанном на параметрическом оценивании распределений и максимизации функции правдоподобия, является построение скрытых марковских моделей (СММ).

Распознавание – это отнесение конкретного объекта, представленного значениями его свойств (признаков), к одному из фиксированного перечня образов (классов) по определённому решающему правилу [1].

В данной работе рассматриваются СММ с дискретным пространством наблюдений λ=(A, B, π). Матрица А – это матрица переходных вероятностей скрытых состояний, π – вектор распределения вероятностей начального состояния, В – матрица распределения вероятностей появления символов алфавита в текущем скрытом состоянии модели.

Для применения аппарата СММ к распознаванию образов необходимо произвести обучение модели – оценить её параметры по некоторому набору обучающих последовательностей (изображений).

Для оценки параметров модели λ=(A, B, π), при известных последовательностях наблюдений O используется оптимизационный алгоритм Баума-Велша [2], суть которого состоит в максимизации функции правдоподобия λ=arg max L(O | λ). Таким образом, полученная модель является ОМП-оценкой параметров исходной модели.

Так как данный алгоритм довольно сильно зависит от начального приближения и может сходиться к локальному максимуму функции правдоподобия, то используется также алгоритм поиска глобального экстремума.

Логарифм вероятности ln P[O¹, O², ..., O^N_max | λ] того, что последовательности O^k, k=1, N_max сгенерированы моделью λ вычисляется с помощью forward- и backward-вероятностей. Здесь N_max – количество последовательностей наблюдений для оценки модели.

Так как происходит работа с изображениями, то для обучения СММ необходимо извлечь наблюдения из изображения. Для этого в данной работе выполнены предобработка изображения, выделение контура человека и извлечение наблюдений, путём сканирования полученного контура. Для подавления шумов производилась бинаризация изображе-ния. Алгоритм выделения контура основан на понятии связной области.

Далее производился обход выделенного контура, вдоль которого передвигалось сканирующее окно (СО) – прямоугольная геометрическая область точек изображения, в пределах которой вычисляется элементарное наблюдение. В соответствии с выбранным направлением движения можно выделить несколько типов СО, различающихся положением начальной точки (угла прямоугольника), соединяющейся с контуром. В качестве наблюдаемых символов выбраны углы, которые представляют собой сумму угла α (между горизонтальным направлением нижней стороны сканирующего окна и контуром человека в пределах сканируемой области) и некоторой добавки, которая зависит от типа СО.

Для обучения и распознавания будем использовать СММ, имеющую полносвязную марковскую цепь, с фиксированным начальным состоянием и дискретное пространство наблюдений. Поэтому полученные последовательности углов, изменяющихся в диапазоне от 0 до 360 градусов, дискретизируются на несколько групп.

В данной работе для обучения и тестирования системы распознавания использовалось 10 поз, для каждой из которых 5 обучающих, 15 тестовых изображений. Распознавание одного изображения заключается в нахождении такой модели (соответствующей конкретной позе), что вероятность того, что последовательность наблюдаемых символов (углов изображения) сгенерирована этой моделью, является максимальной.

Также в работе проведены исследования влияния параметров СММ (количества скрытых состояний, ширины, высоты и перекрытия сканирующего окна, вида обучающих картинок) на процент верно распознанных изображений (тестовых и обучающих), время обработки изображений, распознавания и обучения. В результате исследований наиболее высокий и стабильный процент распознавания тестовых изображений был получен приблизительно 87%, обучающих – 99%. Таким образом, можно сделать вывод, что аппарат скрытых марковских моделей возможно применять для распознавания поз человека.

Список использованной литературы

1. Волошин, Г.Я. Методы распознавания образов [Электронный ресурс]: конспект лекций по курсу «Распознавание образов» / Г.Я. Волошин; редактор Ильин А.А. – Режим доступа: http://abc.vvsu.ru/Books/Metody_r/page0001.asp.
2. Баяковский, Ю. М. Анализ информации, содержащейся в изображении [Электронный ресурс]: материалы к лекциям по курсу компьютерной графики ВМиК МГУ/– Режим доступа: http://www.graphicon.ru/oldgr/courses/cg/lectures/2006/.
3. Rabiner, L. R. A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition / L. R. Rabiner // Proceedings of the IEEE. – IEEE, 1989. – vol. 77, no. 2. – С. 257–285.