Назад в библиотеку
Распознавание позы человека на изображении с помощью скрытых марковских моделей
Автор: Коротенко Д.Ю., Гультяева Т.А.
Источник: Коротенко, Д.Ю. Распознавание позы человека на изображении с помощью скрытых марковских моделей/ Д.Ю. Коротенко, Т.А. Гультяева. – Новосибирск, НГТУ.
Распознавание образов используется во многих областях человеческой деятельности: медицине, военном деле, геологии, и т.д. Одним из методов теории распознавания образов, основанном на параметрическом оценивании распределений и максимизации функции правдоподобия, является построение скрытых марковских моделей (СММ).
Распознавание – это отнесение конкретного объекта, представленного значениями его свойств (признаков), к одному из фиксированного перечня образов (классов) по определённому решающему правилу [1].
В данной работе рассматриваются СММ с дискретным пространством наблюдений λ=(A, B, π).
Матрица А – это матрица переходных вероятностей скрытых состояний, π – вектор распределения вероятностей начального
состояния, В – матрица распределения вероятностей появления символов алфавита в текущем скрытом состоянии модели.
Для применения аппарата СММ к распознаванию образов необходимо произвести обучение модели – оценить
её параметры по некоторому набору обучающих последовательностей (изображений).
Для оценки параметров модели λ=(A, B, π), при известных последовательностях наблюдений O используется оптимизационный
алгоритм Баума-Велша [2], суть которого состоит в максимизации функции правдоподобия λ=arg max L(O | λ). Таким образом, полученная модель является ОМП-оценкой параметров исходной модели.
Так как данный алгоритм довольно сильно зависит от начального приближения и может сходиться к локальному максимуму функции правдоподобия, то используется также алгоритм поиска глобального экстремума.
Логарифм вероятности ln P[O1, O2, ..., ONmax | λ] того, что последовательности Ok, k=1, Nmax
сгенерированы моделью λ вычисляется с помощью forward- и backward-вероятностей. Здесь Nmax – количество последовательностей наблюдений для оценки модели.
Так как происходит работа с изображениями, то для обучения СММ необходимо извлечь наблюдения из изображения. Для этого в данной работе выполнены предобработка изображения, выделение контура человека и извлечение наблюдений, путём сканирования полученного контура. Для подавления шумов производилась бинаризация изображе-ния. Алгоритм выделения контура основан на понятии связной области.
Далее производился обход выделенного контура, вдоль которого передвигалось сканирующее окно (СО) – прямоугольная
геометрическая область точек изображения, в пределах которой вычисляется элементарное наблюдение.
В соответствии с выбранным направлением движения можно выделить несколько типов СО, различающихся положением начальной точки
(угла прямоугольника), соединяющейся с контуром. В качестве наблюдаемых символов выбраны углы, которые представляют собой сумму угла α
(между горизонтальным направлением нижней стороны сканирующего окна и контуром человека в пределах сканируемой области) и некоторой добавки, которая зависит от типа СО.
Для обучения и распознавания будем использовать СММ, имеющую полносвязную марковскую цепь, с фиксированным начальным состоянием и дискретное пространство наблюдений. Поэтому полученные последовательности углов, изменяющихся в диапазоне от 0 до 360 градусов, дискретизируются на несколько групп.
В данной работе для обучения и тестирования системы распознавания использовалось 10 поз,
для каждой из которых 5 обучающих, 15 тестовых изображений. Распознавание одного изображения заключается
в нахождении такой модели (соответствующей конкретной позе), что вероятность того, что последовательность наблюдаемых
символов (углов изображения) сгенерирована этой моделью, является максимальной.
Также в работе проведены исследования влияния параметров СММ (количества скрытых состояний, ширины,
высоты и перекрытия сканирующего окна, вида обучающих картинок) на процент верно распознанных изображений
(тестовых и обучающих), время обработки изображений, распознавания и обучения.
В результате исследований наиболее высокий и стабильный процент распознавания тестовых изображений был получен
приблизительно 87%, обучающих – 99%. Таким образом, можно сделать вывод, что аппарат скрытых марковских моделей возможно применять для распознавания поз человека.
Список использованной литературы
1. Волошин, Г.Я. Методы распознавания образов [Электронный ресурс]: конспект лекций по курсу «Распознавание образов» / Г.Я. Волошин; редактор Ильин А.А. – Режим доступа: http://abc.vvsu.ru/Books/Metody_r/page0001.asp.
2. Баяковский, Ю. М. Анализ информации, содержащейся в изображении [Электронный ресурс]: материалы к лекциям по курсу компьютерной графики ВМиК МГУ/– Режим доступа: http://www.graphicon.ru/oldgr/courses/cg/lectures/2006/.
3. Rabiner, L. R. A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition / L. R. Rabiner // Proceedings of the IEEE. – IEEE, 1989. – vol. 77, no. 2. – С. 257–285.