Назад в библиотеку

Распознавание лиц с использованием метода главных компонент и нейросети

Авторы: Хемант Синг Миттал, Гарприт Каур

Автор перевода: Д. Г. Мурадина
Источник:Хемант Синг Миттал, Гарприт Каур Распознавание с использованием метода главных компонент и нейросети. – 2013. http://www.ijese.org/attachments/File/v1i6/F0266041613.pdf

Аннотация

Данная схема рраспознавания лиц базируется на нейросети и методе главных компонентe(МГК, англ. – PCA) для определения личности. Использована технология метода главных компонент, которая включает математический метод, который преобразует число вероятно коррелированых переменных в меньшее число некореррелированых переменных, которые называются принципиальными(главными) компонентами. Предобработка и этап уменьшения размерности (МГК) – входные данные сокращены до меньшей размерности для облегчения классификации. Этап классификации – уменьшенные выходные векторы из МГК поступают на сеть-классификатор с обратным распространением ошибки для обучения, которая далее используется для получения распознанного изображения. Получился хороший результат из предложенного алгоритма, использована платформа Mathlab.

1. Введение в методику распознавания лиц

Распознавание человека по изображению лица можно осуществлять различными способами, например, использовать инфракрасный шаблон для фиксации выделения тепла. Распознавание лица при хорошем освещении – ключевой момент, как и характеристики основной части изображения лица. В большом ассортименте камер систмема видимого света используется для извлечения характеристик изображений, которые не меняются во времени, игнорируются такие поверхностные характеристики, как экспрессия лица, например, с помощью рта, носа, глаз, губ, волос. Существуют такие подходы к моделированию изображений лица в видимом спектре, как метод главных компонент, локальное извлечение характеристик, нейросети, сравнительный анализ, автоматический вейвлет метод выделения признаков и базисной функции Radial. Есть некоторые трудности в распознавании лиц в видимом спектре, например, уменьшение воздействия значений переменных. Некоторые системы распознавания лица может требуют стационарное изображение, но есть много систем, которые распознают лица в реальном времени. Основные преимущества методов распознавания лиц в том, что они не являются узконаправленными, а ориентированы на распознавание любого лица. Фиксация лица – основополагающий фактор для распознающей системы. Она локализирует и сегментирует области лиц из захламленных изображений, полученных из видео или из изображения.

Распознавание лица имеет многочисленное применение в таких областях, как наблюдение и контроль безопасности систем, поиск изображений по содержимому, видеоконференция и интеллектуальный человеческий компьютерный интерфейс. Большинство современных систем распознавания лиц предполагают, что лица должны быть легкодоступными для обработки. Человеческая коммуникация имеет два аспекта: вербальный и зрительный, пример для последнего – мимика, движения тела, физиологические реакции. Всё это предоставляет важную информацию о состоянии ичеловека:

1. Аффективное состояние, которое включает в себя эмоции, такие как страх, удивление, гнев, отвращение, печаль, эйфорию, раздражение.

2. Познавательная деятельность, такая как недоумение, скучание или концентрация; темперамент и личные качества, в том числе враждебность, коммуникабельность или застенчивость.

3. Правдивость, в том числе утечка скрытых эмоций, которая может помочь понять, когда информация является ложной.

4. Психопатология, включающая не только диагностическую информацию, имеющую отношение к депрессии, мании, шизофрении и менее тяжелым нарушениям, но и информацию, которая может помочь осуществлять мониторинг лечения.

2. МЕТОД ГЛАВНЫХ КОМПОНЕНТ

Метод главных компонент (МГК) включает математический метод, который преобразует ряд вероятностно коррелированных переменных в меньшее количество некоррелированных переменных, называемых основными компонентами. МГК является очень известным подходом, который используется для расчета набора функций для распознавания лица. Это может относиться к любому лицу:

1. Лицо может быть представлено минимальным набором характеристик.

2. Может быть построено с использование небольшой коллекции собственных фотографий. Изображение лица проецируется на некоторое количество шаблонов лиц, называемое собвственными лицами, затем вычисляется разница между этими лицами, которая будет считаться отличительной чертой для изображения. Когда набор собственных лиц вычислен, изображения лица может быть реконструировано взвешенной комбинацией собственных лиц. Веса образуют вектор признаков для представления лица и распознавания. Когда подается новое тестовое изображение, веса высчитаны благодяря проекции изображения на вектор собственных лиц. Классификация между изображениями выходит из сравнения расстояний между векторами весов тестового изображения и обучающего множества (входных данных). Как уже отмечено, можно реконструировать исходное изображение из собственных лиц так, что входное изображение должно точно соответствовать оригинальному изображению, используя все собственные лица, извлеченные из оригинальных изображений. МГК является математическим методом, который основан на преобразовании переменных, с помощью которого можно преобразовать набор коррелированных переменных в набор некоррелированных переменных. Переменные, которые некоррелируют друг с другом – основные компоненты. Количество основных компонентов означает, что некоррелированных должно быть меньше или равно количеству исходных переменных. В такого рода трансформации первые главные компоненты будут иметь самый высокий приоритет, который покажет максимальное отклонение. Это поможет вычислить точность данных. Если набор данных распределен нормально, только тогда главные компоненты могут быть независимыми от других переменных. Снижение размеров может привести к потере информации, но какое-то количество информации так или иначе останется.

альтернативный текст

3. АЛГОРИТМЫ И ПРЕДЛОЖЕННЫЙ МЕТОД

Предобработка: (МГК) – на этом этапе сокращается размерность данных. Этап классификации - уменьшенные выходные векторы МГК идут на вход нейросети с обратным распространением ошибки для обучения данных, которые буду использованы для распознавания изображения. Распознавание лица – биометрическая технология используемая, к примеру, с целью наблюдения, поиска разыскиваемых преступников, пропавших без вести детей. Распознавание лица имеет три стадии:

  1. обнаружение лица;
  2. извлечение характеристик;
  3. непосредственно классификация.

4. МГК-АЛГОРИТМ

Пусть имеется такой набор лиц для обучения: альтернативный текст Среднее лицо по набору может быть определено:

альтернативный текст

Каждое лицо отличается от среднего вектором признаков:

альтернативный текст

Матрица ковариаций строится благодаря вектору:

альтернативный текст

Где матрица альтернативный текст. Множество больших векторов затем подвергают МГК альтернативный текст. Получаем вектор весов альтернативный текст изображения лица. Лицо проецируется на пространство лиц:

альтернативный текст

Для k = 1, M', где M'<= M это номер собственного лица, используемого для распознавания. Веса формируют вектор альтернативный текст.

5. НЕЙРОСЕТЬ С ОБРАТНЫМ РАСПРОСТРАНЕНИЕМ ОШИБКИ

Обучающий процесс в многослойной нейросети с обратным распространением ошибки требует наборы входных и желаемых выходных данных. Выходной вектор o сравнивается с желаемым выходным. В случае разницы между этими векторами, веса подстраиваются для достижения минимизации разницы. Изначально случайные веса подстраиваются к нейросети. Эти веса обновляются во время каждой итерации с целью минимизировать среднеквадратичную ошибку между выходным и желаемым выходным векторами.

Входные данные для скрытого слоя предоставляются таким образом:

альтернативный текст

Значения выходного вектора скрытого слоя после прохождения через функцию активации предоставляются таким образом:

альтернативный текст

и значения выходного вектора выходного слоя предоставляются таким образом:

альтернативный текст

Для обновления весов необходимо вычислить ошибку таким образом:

альтернативный текст

Это представляет реальный выход и желаемый на i-том нейроне выходного слоя. Если ошибка меньше заданного порога, обучение прекращается, иначе веса должны быть обновлены. Для весов между скрытым и выходным слоями изменение весов происходит так:

альтернативный текст

Где скорость обучения в пределах [0. 01,1. 0], это выход из нейрона j в скрытом слое, может быть получена таким образом:

альтернативный текст

Аналогично, изменение весов между скрытым и выходным слоями происходит таким образом:

альтернативный текст

где бета – коэффициент скорости обучения в пределах [0. 01,1. 0] – это выход из нейрона j во входном слое, может быть получена таким образом:

альтернативный текст

является выходом на нейроне i во входном слое, и суммарно представляет взвешенную сумму всех значений, соответствующих нейронам выходного слоя, полученных в вычислении. После вычислений вес меняется во всех слоях, он может быть обновлен таким образом:

альтернативный текст

Этот процесс повторяется пока ошибка не будет минимизирована:

альтернативный текст

6. ОСНОВНАЯ ЧАСТЬ


Выбор обучающих параметров

Для эффективной работы нейросети нужно подобрать подходящие параметры для обучения.


Инициализация весов Изначальная инициализация повлияет на сеть, конкретнее на скорость её схождения с результату. Для наилучшего результата веса принимают равными значениям в диапазоне от -1 до 1.


Обучение сети Суть обратного распространения ошибки в сети заключается в нахождении баланса между запоминанием характеристик и их обобщением. Пока ошибка уменьшается обучение продолжается. Когда ошибка начинает увеличиваться, сеть запоминает шаблон и обучение прекращается.


Число скрытых значений If the activation function can vary with the function, then it can be seen that a n-input, m output function requires at most 2n+1 hidden units. If more number of hidden layers are present, then the calculation for the values are repeated for each additional hidden layer present, summing all the values for units present in the previous layer that is fed into the current layer for which is being calculated.


Скорость обучения

Вес меняется по такому принципу: складывается текущая версия с предыдущей. Маленькая скорость обучения используется тогда, когда набор данных для обучения является очень специфическим. В резутате оперируем с таким набором параметров:

Основная задачи нейросети заключается в том, что она определяет наличие лица, а затем его распознает.
альтернативный текст

Согласно этому графику исходные данные подаются на вход МГК для предобработки и представляет эти данные в виде кривой, называемой переходной кривой. Дальнейшая классификация представлена разными цветами.

альтернативный текст

Это называется графом представления. Согласно ему есть три разноцветные кривые: синяя представляет обучение данных, зеленая – проверку на корректность данных, красная – тестирование. Чаще всего берется 70 % данных для обучения, 15 % для проверки корректности, 15 % для тестирования. И согласно этому графу ошибка достаточно мала и точность высока, что видно на следующем регрессионном графе.

альтернативный текст

График выше называется графиком регрессии. График строится для вычисления значения точности или для определения скорости распознавания. Точность достигает 100% для для данных, которым сеть была обучена и немного ниже для новых данных.

7. ЗАКЛЮЧЕНИЕ

Распознавания лица – хорошее прикладное направление, используется в целях безопасности, большая доля сферы компьютерного зрения относится к распознаванию лица, с малой долей исследований по обнаружению лица. Обнаружение лица – первый шаг в процессе распознавания, что логично, ведь вычислительные мощности долдны быть сфокусированы там, где лицо есть. Обнаружение – процесс, который выполняется человеком без усилий, но для компьютерного зрения этот вопрос не так прост из-за огромного разнообразия возможных вариаций лиц. В работе предложены методы для решения проблемы распознавания лица с многообещающими результатами. С использованием МГК и нейросети можно значительно увеличить степень распознавания. То есть, благодяря предобработке извлекаются основные компоненты, что уменьшает объем обрабатываемых данных в нейросети. So by dividing the Pre processed image into smaller subsets known as principal components are applied to the neural network approach. To improve the output accuracy back propagation neural network is used in the LM approach. And this neural network is used for the classification of the images and detects the image very accurately. Firstly the neural network is trained and then testing the images provides the image which matches with the actual image. And the detection rate of this system is approximately 100% for the trained images.

Результаты по предложенной схеме:

Когда нейросеть с обратным распространением ошибки комбинируется с МГК нелинейные изображения лица легко распознаются. Отсюда вывод, что этот метод имеет точность более 99% и время выполнения только несколько секунд. Распознавание лиц может быть применен в сфере безопасности в аеропортах, для проверки паспорта, поиска преступников, обработки данных банковских счетов, проверка избирательной идентификации и так далее. Распознавание лиц получило существенное внимание от исследователей в биометрии, области распознавания образов и компьютерного зрения. В этой работе мы предложили вычислительный метод обнаружения и распознавания лиц, достаточно быстрый, простой и точный для персонального применения.

альтернативный текст

В соответствии с приведенной выше таблицей, предложенная ранее скорость распознавания или обнаружения лица с использованием только МГК меньше, чем с использованием МГК и нейросети с обратным распространением ошибки, таким образом. Это видно в следующей таблице:

альтернативный текст

Таблица выше состоит из значений, которые рассчитываются и показывают улучшение в скорости обнаружения с помощью МГК и нейросети с обратным распространением ошибки. В этой системе точность до 100% для подготовленных изображений. Точность уменьшается в небольшой степени за счет увеличения количества изображений.

ПЕРЕЧЕНЬ ССЫЛОК

  1. B. K. Gunturk,A. U. Batur, and Y. Altunbasak,(2003) Eigenfacedomain super-resolution for face recognition, IEEE Transactions of . Image Processing. vol. 12, no. 5. pp. 597 – 606.
  2. M. A. Turk and A. P. Petland, (1991) Eigenfaces for Recognition, Journal of Cognitive Neuroscience. vol. 3, pp. 71-86.
  3. T. Yahagi and H. Takano,(1994) Face Recognition using neural networks with multiple combinations of categories, International Journal of Electronics Information and Communication Engineering. , vol. J77-D-II, no. 11, pp. 2151-2159.
  4. S. Lawrence, C. L. Giles, A. C. Tsoi, and A. d. Back, (1993) IEEE Transactions of Neural Networks. vol. 8, no. 1, pp. 98-113.
  5. C. M. Bishop,(1995)NeuralNetworks for Pattern Recognition London, U. K. :Oxford University Press.
  6. Kailash J. Karande Sanjay N. Talbar Independent Component Analysis of Edge Information for Face Recognition International Journal of Image Processing Volume (3) : Issue (3) pp: 120 -131. International Journal of Emerging Science and Engineering (IJESE) ISSN: 2319–6378, Volume-1 Issue-6 April 2013 75
  7. Matthew Turk and Alex Pentland " vision and Modeling Group, The Media Laboratory , Massachusetts institute of Technology. Fernando L. Podio and Jeffrey S. Dunn2
  8. Jain, Fundamentals of Digital Image Processing, Prentice-Hall Inc. , 1982.
  9. http://www. ijser. orgInternational Journal of Scientific & Engineering Research Volume 2, Issue 6, June-2011
  10. E. Trucco, and A. Verri, Introductory Techniques for 3-D Computer Vision, Prentice-Hall Inc. , 1998.
  11. L. G. Shapiro, and G. C. Stockman, Computer Vision, Prentice-Hall Inc. , 2001.
  12. Phil Brimblecombe, 2005. Face Detection Using Neural Networks, Bachelor Thesis. School of Electronics and Physical Sciences, Department of Electronic Engineering. University of Surrey.
  13. Farah Azirar, 2004. Facial Expression Recognition. Bachelor Thesis. School of Electronics and Physical Sciences, Department of Electronic Engineering, University of Surrey.
  14. Konrad Rzeszutek, http://darnok. com/projects/facerecognition Terrillion, J. C. , Shirazi, M. , Fukamachi, H. , and Akamatsu, S. (2000).
  15. Rowley, H. , Baluja, S. and Kanade, T. , Neural Network-Based Face Detection. IEEE Transactions on Pattern Analysis and Machine Intelligence,Vol. 20, No. 1, January, 1998, pp. 2338. http://www. ri. cmu. edu/pubs/pub_926_text. html
  16. Duda, R. O. , Hart, P. E. and Stork, D. G. Pattern Classification. Wiley,New York, 2001.
  17. B. K. Gunturk,A. U. Batur, and Y. Altunbasak,(2003) Eigenfacedomain super-resolution for face recognition, IEEE Transactions of . Image Processing. vol. 12, no. 5. pp. 597-606.
  18. Paul Viola and Michael Jones. Rapid object detection using a boosted cascade of simple features. In CVPR, 2001,http://citeseer. nj. nec. com/viola01rapid. html
  19. Meng Joo Er, Weilong Chen, Shiqian Wu. High-Speed Face Recognition Based on Discrete Cosine Transform and RBF Neural Networks. IEEE Transactions on Neural Networks, Vol 16, No. 3, May 2005