Назад в библиотеку

Обзор методов идентификации людей на основе изображений лиц с учетом особенностей визуального распознавания


Кулябичев Ю.П., Пивторацкая С.В.

В настоящее время в связи с возрастающими потребностями в осуществлении качественной автоматической верификации в охранных системах или криминалистической экспертизе большое внимание уделяется процессам, лежащим в основе визуального восприятия лиц. Поскольку человек видит предметы реального мира, не задумываясь над последовательностью операций, ведущих к формированию образа в сознании, восприятие объектов кажется нам простым и естественным. Но узнавание и распознавание объекта есть результат сложной «перцепторной» деятельности, основанной на работе центральной нервной системы.
Процесс зрительного восприятия человека [1] начинается с момента, когда возбуждения, возникающие на сетчатке глаза, доходят до первичной зрительной коры, где они, проецируясь на соматотопически организованных пунктах коры, распадаются на составляющие признаки (рис. 1). Такая организация процесса зрительного анализа обусловливается наличием в зрительной коре огромного числа высокодифференцированных нейронов, каждый из которых реагирует лишь на отдельный признак воспринимаемого объекта. Центральный процессор нервной системы обрабатывает информацию, поступающую с нейронов, создавая «перцепторную» гипотезу путем объединения существенных признаков в группы и исключения из рассмотрения несущественных. По результатам анализа данных из ряда альтернативных выбирается наиболее подходящая к данному объекту «перцепторная» гипотеза, и объект считается распознанным.

Процесс зрительного восприятия человека
Рисунок 1 – Процесс зрительного восприятия человека


Работа центрального процессора нервной системы, на вход которого передаются выбранные признаки стационарного объекта, а на выходе выдается результат сравнения объекта с содержащейся в памяти информацией, представляется черным ящиком. Методы автоматической идентификации объектов строятся в попытке воспроизвести его работу и воссоздать зависимости, которым подчиняется анализ выбранных нейронами признаков. Поэтому принцип активного распознавания должен закладываться на этапе первичного проектирования систем кибернетического видения слабоконтрастных объектов, в частности, при распознавании человеческих лиц.
Имеют место закономерности, наблюдаемые при экспериментах, в которых фиксировался путь движения глаз при наблюдении лиц различных людей [1]. Их можно сформулировать в виде нескольких особенностей визуального распознавания таких, как:


  1. Движение глазной мускулатуры от одной точки лица к другой. Данная особенность обусловлена тем фактом, что из-за крайней малости оптического угла четкого зрения глаз находится в постоянном движении, систематически обследуя отдельные детали объекта и останавливаясь на его ключевых точках. В этом процессе, имеющем рефлекторный характер, важную роль играют сенсорные и моторные аппараты, например, аппарат движения глаз, осуществляющий ориентировочно-исследовательскую деятельность.

  2. Фиксация внимания на тональных различиях видимой картины. Поскольку распознаваемые человеком лица являются слабоконтрастными объектами, внимание зрителя непроизвольно фиксируется на градациях освещенности объекта.

  3. Группировка зрительных элементов в простые понятия – гештальты [2]. Люди в процессе перцепторного восприятия окружающего мира подсознательно группируют полученные сенсорные данные в готовые объекты.

  4. Динамический поиск лучшей интерпретации сенсорных данных. Центральная нервная система человека для принятия оптимального в текущий момент решения непрерывно анализирует полученные данные, соотнося их с накопленной в памяти информацией.

Для решения задачи распознавания объектов (в данном контексте под объектом понимается лицо человека) построено множество методов, которые сильно отличаются друг от друга по требованиям к настройке метода на базу объектов, входным данным, скорости работы и др. При этом сущность процесса распознавания в различных методах остается одной и той же. Соотнесение распознаваемого объекта с базой объектов, которые необходимо идентифицировать, проходит в три этапа:


  • выделение того или иного признака объекта;

  • объединение признаков в комплексы или классы;

  • выбор предполагаемого значения из ряда альтернатив.

Существует целый ряд методов идентификации лиц таких, как метод главных компонент, линейный дискриминантный анализ, сравнение эластичных графов, анализ антропометрических характеристик, неокогнитрон, скрытые Марковские модели. Проведем сопоставление перечисленных методов с процессом визуального распознавания.
В методе главных компонентов признаками объекта являются главные компоненты, т. е. линейные коэффициенты, вычисленные на основе собственных векторов лицеподобной формы [3]. Первые n главных компонентов формируют представление в собственном пространстве, соответствующее отдельному объекту. Для сравнения набора компонентов, которые относятся к наблюдаемому объекту, с хранящимися в памяти наборами главных компонентов для других объектов используются методы сравнения такие, как метрики различного вида, нейронные сети (радиально-базисные, карты Кохохена) и т.д. Конкретизация метода сравнения зависит от требуемой скорости вычислений, необходимого качества распознавания изображений лиц и поддерживаемых мощностей оборудования. Использование собственных векторов в методе главных компонентов отражает такую особенность человеческого распознавания, как фиксация на градациях изображения, при этом сами по себе вектора являются неким подобием гештальтов. Данный подход требует жестко фиксированных условий для изображений объекта, так как иначе будет невозможно сопоставить ему построенные по базе объектов собственные вектора.
В методе линейного дискриминантного анализа [4] объект представляется как проекция на пространство признаков, в котором базисные дискриминантные вектора близки по виду собственным в методе главных компонентов. При этом проекция выбирается для каждого объекта таким образом, чтобы обособить его от остальных объектов. Проецирование распознаваемого объекта, находящегося в пространстве изображений, на пространство признаков осуществляется с помощью линейного дискриминанта. Основное требование метода – возможность линейно разделить проекции, однако в общем случае данное условие может не выполняться, и метод станет выдавать ошибку. Линейный дискриминантный анализ так же как и метод главных компонентов, учитывает градации изображения лица, в связи с этим для обеспечения работы метода при изменяющихся условиях освещения необходимо использовать предобработку изображения, приводящую его к заданным стандартным условиям.
Эластичные графы используются в методе распознавания лиц [5], где признаками идентифицируемого объекта являются вершины графа, расположенные на контурах головы, губ, глаз и др. В каждой вершине вычисляется джет, т.е. набор определенных заранее коэффициентов Габоровых функций, и конкретному лицу соответствует отдельная совокупность джетов для различных областей на лице. Тогда, если необходимо провести сравнение лиц, достаточно сопоставить джеты с использованием функции подобия для сравнения графов. Идея, лежащая в основе метода эластичных графов, напоминает такую особенность визуального распознавания, как движение глаза от одной точки объекта к другой, при этом в рассматриваемом методе не учитываются возможные градации изображения. Даже при использовании коэффициентов важности для джетов эластичные графы будут сравнивать лица лишь с помощью вычисления взвешенных геометрических искажений объекта, а большой объем информации, содержащейся в изменении оттенков цвета на коже лица, остается без внимания.
Следует особо отметить такой метод идентификации, как анализ антропометрических характеристик [6, 7], в котором в качестве признаков используются расстояния между уголками глаз, губ, центрами глаз или их отношения, сходные с вершинами графа в эластичных графах. В дальнейшем они группируются как известный набор ключевых точек или областей лицах [8], причем наиболее информативные признаки и их весовые коэффициенты выбираются экспериментально с привлечением различных математических методов. Сформированный для распознаваемого лица набор признаков сравнивается с базой, содержащей наборы для других лиц, с помощью методов сравнения количественных характеристик таких, как метод k ближайших соседей или многослойный персептрон. При сопоставлении метода на основе антропометрических характеристик с визуальным распознаванием можно заметить, что подобно сравнению эластичных графов, этот метод переносит в автоматическую идентификацию объектов последовательный обход «псевдоглазом» ключевых точек объекта. При этом необходимо иметь в виду, что для корректного анализа антропометрических характеристик предварительно устраняются те элементы на лице, которые вносят неточности при идентификации объекта.
В неокогнитроне [9] признаками объекта являются простые образы (линии и образованные ими углы), формирующие совокупность узлов неокогнитрона для каждого объекта из подготовленной базы объектов при различных уровнях абстракции данных в процессе обучения нейронной сети. В результате неокогнитрон, настроенный на конкретную базу объектов, последовательно сравнивает группу признаков для распознаваемого объекта с заложенными при обучении совокупностями признаков для объектов из базы. Все особенности визуального распознавания в том или ином виде отражаются в неокогнитроне, и его можно назвать наиболее эффективным для распознавания методом, если бы не большие вычислительные затраты [9] для обеспечения достаточной скорости распознавания, требующие применение нейрокомпьютеров. Из-за этого на современном уровне развития вычислительной техники широкое использование неокогнитрона затруднительно.
Для метода «скрытые Марковские модели» [10] признаками идентифицируемого объекта являются последовательности наблюдений объекта. Каждому объекту соответствует своя Марковская модель – набор состояний системы. При распознавании объекта проверяются сгенерированные для заданной базы объектов Марковские модели и ищется максимальная из наблюдаемых вероятность того, что последовательность наблюдений для данного объекта сгенерирована соответствующей моделью. Скрытые Марковские модели вобрали в себя все вышеперечисленные особенности человеческого восприятия и распознавания. При этом они не требуют больших вычислительных мощностей и позволяют менять состав сформированной базы без изменения всей совокупности настроенных Марковских моделей, хотя размер базы объектов, для которых обеспечивается корректное распознавание этим методом, ограничен.
Анализ рассмотренных методов показывает, что они сформированы аналогично процессу визуального восприятия. При этом ни один из этих методов не достигает точности распознавания человеком, хотя и приближается к ней. Данный факт приводит к необходимости учитывать реальные условия для систем видеонаблюдения. Поэтому при реализации любого метода автоматической идентификации лиц с целью повышения его эффективности следует вводить предварительную обработку изображения лица, при которой должен приниматься во внимание ряд нижеприведенных факторов.
Один из факторов, влияющих на качество распознавания, характеризуется особенностями формирования изображения ПЗС-матрицей. В настоящее время в области видеонаблюдения прослеживается устойчивая тенденция перехода от аналоговых видеокамер к цифровым. Следует отметить, что приборы с зарядовой связью (ПЗС), которые применяются для получения цифровых изображений в таких камерах, обладают некоторыми свойствами. Так, сигнал, получаемый с ПЗС-матрицы, в дальнейшем преобразуется в дискретизированное и квантованное изображение. Он содержит шумовую составляющую, которая вызвана квантовым шумом, процессом считывания заряда, накопленного ПЗС, а также работой внешней электроники [11]. Для выделения полезного сигнала необходимо предварительно получить с видеокамеры изображение при равномерной засветке/затемнении и статистически выставить шумовой порог (n % максимального отклонения от реального значения сигнала).
Другими факторами, от которых зависит качество распознавания людей, являются неоднородный яркостный фон изображения, слабая контрастность объекта, наличие мешающих распознаванию элементов таких, как части прически, борода, очки и др., нестандартное положение головы человека.
Таким образом, в результате проведенного исследования подготовлена платформа для разработки метода распознавания людей по изображениям лица с учетом визуального распознавания. Конфигурация метода включает в себя описанное выше выделение полезной составляющей сигнала; приведение изображения к равномерному освещению; удаление по цвету объектов, закрывающих часть лица, и замена скрытых ими участков на наиболее вероятные; нахождение угла поворота головы относительно осей ориентации камеры. Для сравнения анализируемых изображений лиц со сформированной базой предполагается использовать метод скрытых Марковских моделей.


СПИСОК ЛИТЕРАТУРЫ

1. Лурия А.Р. Высшие корковые функции и их нарушение при локальных поражениях мозга / А.Р. Лурия. М.: Изд-во МГУ, 1962.
2. Дункер К. Качественное (экспериментальное и теоретическое) исследование продуктивного мышления / К.Дункер. Психология мышления; пер. с нем. М., 1965. С. 21–85.
3. Moghaddam B. and Pentland A. // IEEE Transactions on Pattern Analysis and Machine Intelligence. 1997. V. 19. P. 696.
4. Belhumeur P. N., Hespanha J. P. , Kriegman D. J. // IEEE Transactions on Pattern Analysis and Machine Intelligence. 1997. V. 19. P. 711.
5. Wiskott L., Fellous J.M., Krueger N et al. // IEEE Transactions on Pattern Analysis and Machine Intelligence. 1997. V. 19. P. 775.
6. Кулябичев Ю.П., Пивторацкая С.В. // Научная Сессия МИФИ 2008. Сборник научных трудов. Т. 12: Информатика и процессы управления. Компьютерные системы и технологии. –М.: МИФИ, 2008. – С. 12.
7. Кулябичев Ю.П., Пивторацкая С.В. // Современные технологии в задачах управления, автоматики и обработки информации: труды XVII международного научно-технического семинара. Алушта, сентябрь 2008 г. – СПб.: ГУАП, 2008. – С. 207.
8. Криминалистическое описание внешности человека. (Учебное пособие) / В.А. Снетков [и др.]. – М.: ВНИИ МВД СССР, 1984.
9. Уоссермен Ф. Нейрокомпьютерная техника: теория и практика / Ф. Уоссермен . М., 1992.
10. Samaria F. Face Recognition Using Hidden Markov Models // PhD thesis, Engineering Department, Cambridge University, 1994.
11. Форсайт Д.А., Понс Ж. Компьютерное зрение: современный подход / Д.А. Форсайт, Ж. Понс: пер. с англ. – М.: Издательский дом «Вильямс», 2004.