| Модификации одномерных скрытых марковских моделей для задачи распознавания лиц
 
 1. ВВЕДЕНИЕВ  настоящее  время  наблюдается  непреходящий  интерес  к проблеме  распознавания  лиц.  Под распознаванием  будем понимать  идентификацию  изображения  неизвестного  лица  с одной  из  известных  персон.  Данная  задача  актуальна  как  в области интеллектуальных сред, так и в системах безопасности. Одни  из  первых  разработанных  методов  распознавания лиц – метод  главных  компонент (собственных лиц), отличительной особенностью  которого  является  то,  что  главные компоненты несут в себе информацию о признаках некоторого  обобщенного  лица.  Распознавание  лиц  с  использованием линейного дискриминантного анализа основывается на предположении о линейной разделимости классов (персон) в пространстве  изображений. Нейросетевые методы  обладают  хорошей обобщающей способностью. Обзор этих и других методов  распознавания (таких  как  сравнение  эластичных  графов, сравнение эталонов и др.) приведен в [1]. Далее мы рассмотрим  распознавание лиц людей с использованием одного из статистических методов распознавания – скрытых марковских моделей (СММ)   с  дискретным  временем [2]. Данный метод позволяет определять структурные особенности лица и учитывать  характер  искажений  лица. Отметим,  что  скрытые марковские  модели  успешно  применяются  для  обработки аудио  сигналов,  речи, изображений,  распознавания  текста,  в биомедицине и других областях [3]. Мы остановимся на рассмотрении СММ с одномерной топологией. Несмотря на  то, что  этот  тип моделей  является простейшим,  предыдущими  исследователями  (например, [2], [4]), как нам представляется, не до конца был раскрыт потенциал таких СММ. 
 2. СКРЫТЫЕ МАРКОВСКИЕ МОДЕЛИДалее отметим основные положения теории СММ и рассмотрим  практические  аспекты  задачи  распознавания  лиц  при помощи данного метода. 
 2.1  Элементы СММЭлементами СММ являются:1.  Конечное  множество  скрытых  состояний
  . 2.  Конечное  множество  наблюдаемых  состояний (или дискретный алфавит)
  . 3.  Матрица  переходных  вероятностей
  , где  ассоциируема  со  стационарной марковской  цепью  на пространстве  скрытых  состояний.  Здесь  со-
стояние модели в момент времени t. 4.  Начальная  вероятность  состояний
  ,  . 5.  Матрица эмиссий
  ,  ,  –  наблюдаемый символ в момент времени  . Используя  полунепрерывные  СММ (непрерывное  пространство  наблюдаемых  состояний,  но  дискретное  пространство скрытых состояний) имеем:
  , где  – коэффициент  k-ой смеси   i -ого состояния,  – число  наблюдаемых  состояний,  описывающих i -ое  ненаблюдаемое состояние. Начиная  с [5],  где  впервые  было  предложено  использовать СММ для  задачи распознавания, и в дальнейших работах на эту тему [2], [4], наблюдаемые состояния выбирались во всем пространстве  наблюдений  и  использовались  M   или    элементов  для  описания  каждого  скрытого  состояния.  Обозначим данный метод как GB (Global Bases). Однако для наилучшего описания  мы предлагаем  множество   V  выбирать таким образом, чтобы  только  конкретных  наблюдаемых  состояний  описывали  скрытое  состояние  (PB – Private Bases). Кроме  того,  эти  наблюдаемые  состояния  выбираются  из  наблюдений,  находящихся  в этом скрытом состоянии. Для  описанных  методов  на   рис. 1  схематично  изображены наблюдаемые  и скрытые  состояния. Если  положить  ,  то  для  описания  будут использоваться наблюдаемые состояния  и  ; при этом в методе PB  описание  будет происходить 
намного  точнее,  чем  в GB.  Если же мы  будем  в методе GB использовать  ,  то,  естественно,  описание  будет полнее.  Рис. 1. Выбор наблюдаемых состояний в методе GB (а) и в методе PB (б)
При одинаковом значении числа смесей  метод PB позволяет повысить процент распознавания в сравнении с  методом  GB.  Сравнивая   метод  PB  и  GB,  использующий  , можно сделать вывод, что по качеству распознавания  они  практически  идентичны,  однако  у метода  PB   скорость  распознавания  одного  изображения  выше. При  малом  значении  метод  GB  недостаточно  хорошо описывает обучающие данные. Предложенный же метод PB более  точно настраивает СММ на воспроизведение  обучающих  наблюдений.  В [6]  мы  показали,  что вероятность  генерации  ложных  наблюдений  в  методе PB  с увеличением  снижается.  При  этом  вероятность  генерации  своих  тестовых наблюдений  снижается. Таким образом, данный  метод  выбора  наблюдаемых  состояний  приводит  к высокому проценту и относительно высокой скорости распознавания. 2.2  Марковские цепиМарковские  цепи,  используемые  в  работе,  имеют  одномерную топологию. На рис. 3 приведены примеры марковских цепей, а также обозначения соответствующих моделей. 
Условно  каждое  состояние  ассоциируется  с  какой-либо  частью лица. Например, состояния цепи для 1D модели можно интерпретировать как лоб, глаза, нос, губы, подбородок. Этот тип модели  является простейшим, используемым  для  распознавания лиц [2]. Модель 1D_2D близка к псевдо-двумерным СММ, а 1D_TD (1D Two Domain) предложена нами как некий переходный вариант между 1D и 1D_2D. Нами было установлено, что модель   1D_TD сочетает в себе достоинство  1D_2D  модели  –  высокий  процент  распознавания   и  приемлемую  скорость  распознавания,  присущую  1D модели [7]. На рис. 3, а наличие связей, обозначенных пунктирной линией, регулируется некоторыми дополнительными параметрами модели (см. пункт 3.2).   Наличие дополнительных переходов возможно также и для моделей  1D_TD и 1D_2D.  
 ЗАКЛЮЧЕНИЕВ данной статье были предложены некоторые новые методы выбора  элементов  СММ,  влияющих  на  описательную  способность  модели (такие  как,  наблюдаемые  состояния,  марковские  цепи).  Рассмотрен  вопрос  выбора  способа 
извлечения наблюдений и их числа. Проведенные сравнения (например, в [9]) показали, что методы, основанные на более сложных СММ, достигают ошибки распознавания,  близкой  к  нулю,  что  является  наилучшим результатом  среди  рассмотренных  методов  распознавания лиц (на базе ORL). Рассмотренные нами СММ с одномерной топологией  уступают  по  точности  псевдо-двумерным  и СММ, использующим иные пространства признаков. Однако, предложенные изменения в описании скрытых наблюдений и переход от 1D модели к более сложным моделям с одномерной топологией, позволили увеличить процент распознавания в среднем на 10% (сравнить с [9]). |