Алгоритмические особенности методов распознавания

Старовойтов В.В.

Источник: Сайт NeuroFace для свободного скачивания книги "Распознавание человека по изображению лица и нейросетевые методы".
http://neuroface.narod.ru

1. Использование обучающего набора примеров
По характеру использования обучающего набора методы распознавания лиц можно разделить на два больших класса. В методах первого класса в процессе настройки не используют обучающие примеры. В таких методах все параметры задаются вручную и, как правило, подбираются путём различных экспериментов. Например, криминалистическая идентификация человека по лицу с применением ключевых точек. В этой работе приведены результаты экспериментального выбора ключевых точек и отношений между ними, наиболее пригодных для задачи распознавания. Такой подход трудоёмок, требует априорных знаний о предметной области (в данном случае об антропометрических характеристиках лица) и большого количества настроечных экспериментов.
В противоположность этому второй класс методов в различной степени для извлечения признаков использует анализ обучающей выборки, представляющей собой набор типичных объектов нужных классов. Поэтому такие методы вычислительно более трудоёмки и их развитие стало возможным с возрастанием мощи вычислительной техники. Это метод главных компонент [9], линейные дискриминантные методы [1], метод сравнения эластичных графов [2]. Однако в них основной упор сделан на автоматизированное извлечение признаков, но не отношений между ними и определения их важности (взвешивание). В работе [2] предпринята попытка вычислить весовые параметры для эластичного сравнения графов. Линейный дискриминантный анализ использовался в [1] для анализа признаков и преобразования их такому виду, чтобы они максимизировали межклассовые и минимизировали внутриклассовые различия.
Одни из самых совершенных методов, в которых извлечение признаков и построение системы их взаимоотношений происходит в процессе обучения – это скрытые Марковские модели [3] и нейронные сети [4, 5, 6, 7, 8].
Для нейронных сетей на данный момент времени разработаны эффективные комбинированные методы обучения, которые позволяют полностью автоматизировать процесс выбора параметров архитектуры и обучение сети [6, 7]. При этом достигается результаты, превосходящие другие методы. Но вычислительно эти методы трудоёмки.

2. Полнота использования информации изображения
Методы распознавания по изображению лица можно разделить на три класса.
Первый класс использует исходное изображение только для начального выделения каких-либо ключевых точек, расстояний между такими точками, соотношения расстояний или других геометрических характеристик и в дальнейшем к исходному изображению (например полутоновому) не обращается. Такая информация достаточно достоверно характеризует конкретного человека, и используется в криминалистике для опознания людей [10]. Однако показано, что в целом геометрической информации недостаточно для распознавания человека по изображению лица.
Второй класс методов использует всё исходное изображение. Например, метод анализа главных компонент, линейный дискриминантный анализ оперируют исходным полутоновым изображением как многомерным вектором. К этому классу так же относятся различные нейронные сети, принимающие на вход изображение целиком. Многие источники сходятся во мнении, что для общих случаев распознавания требуется анализировать всю информацию, предоставленную на изображении (например, всё полутоновое изображение).
Третий класс представляет собой сочетание двух предыдущих. Здесь используются как геометрические характеристики, так и элементы, например, полутонового изображения. Например, метод сравнения эластичных графов [2]. Вершины графа характеризуют некоторые особые точки изображения, дуги – расстояния между этими точками, кроме этого каждой вершине приписан набор локальных характеристик изображения (джет). Другим примером является метод сравнения эталонов [11]. На изображении лица выделяются особые области, такие как глаза, нос, рот, и изображение сравнивается по этим областям.

3. Аналитические и эмпирические методы
Методы распознавания характеризуются так же различным соотношением в них аналитических и эмпирических способов решения задачи распознавания. Метод главных компонент и линейные дискриминанты например, основаны на решении систем матричных уравнений и нахождений расстояний между образами в различных метриках. В методе сравнения эластичных графов ключевые точки отмечаются на обучающем наборе изображений лиц исходя из эмпирических соображений.
Особое место занимают нейросетевые методы. В процессе настройки сети используются аналитические методы градиентного спуска. Но такая настройка не даёт ни гарантии достижения минимума ошибки, ни оценки отклонения полученной ошибки от оптимальной. В отличие от статистических методов, решения, получаемые при помощи НС, носят не вероятностный, а правдоподобный характер, определяемый обучающим набором [7].
Похожая ситуация со скрытыми Марковскими моделями. Настройка параметров каждой модели осуществляется математическими оптимизационными методами, но они не дают точного решения [3].

4. Использование обобщенной модели объекта
Методы делятся на два класса по способу сравнения неизвестного изображения с тренировочным набором (или базой изображений).
Первый класс методов использует тренировочный набор для построения обобщённой модели каждого класса лица (или всех классов сразу). Это различные нейронные сети, линейные дискриминанты, скрытые Марковские модели.
Второй класс методов непосредственно сравнивает неизвестное изображение с каждым изображением из тренировочной выборки. Это метод собственных лиц (метод главных компонент), сравнение эталонов, методы сравнения эластичных графов, анализ оптического потока.

5. Использование последовательности кадров
Использование последовательности кадров для задач, связанных с анализом изображения лица является более предпочтительным (но не всегда возможным), чем использование единичного статичного изображения, поскольку даёт дополнительную информацию.
Во-первых, это позволяет выбрать наиболее репрезентативные кадры из последовательности. Во-вторых, обучение системы на динамично меняющемся изображении позволяет ей извлечь больше информации об объекте.

6. Обнаружение лица человека на изображении
Для поиска на изображении участка, соответствующего лицу, используются различные способы, важной частью которых являются методы определения того, содержит ли подаваемое на вход изображение лицо (детектирование). Ряд методов изначально обладает способностями определения, относится ли входное изображение к классу «своих» изображений, и при соответствующей адаптации могут использоваться в качестве детекторов.
Различные типы нейронных сетей обладают способностью относить входное изображение к нужному классу с различной степенью доверия. Существуют подходы [9] с использованием специально обученных нейронных сетей для того, чтобы определить содержит ли изображение лицо.
Метод анализа главных компонент так же применяется для детектирования области лица. На основе сравнения входного и реконструированного изображения можно определить, относится ли входное изображение к классу лиц [9].

7. Потребность в предобработке изображений
Многие методы распознавания человека по изображению лица требуют большого числа предварительных операций, таких как центрирование области лица, приведение к эталонному масштабу и ориентации, выравнивание гистограммы яркости пикселей, без которых они будут работать плохо. К таким методам относятся, например, метод главных компонент [9], анализ антропометрических точек лица [10].
Существуют так же методы, в которых требуется минимум предобработки. Это свёрточные нейронные сети [11], неокогнитроны [5].

Литература:

Belhumeur P. N., Hespanha J. P. and Kriegman D. J. Eigenfaces vs Fisherfaces: Recognition Using Class Specific Linear Projection. IEEE Transactions on Pattern Analysis and Machine Intelligence 1997, Vol. 19, pp. 711-720.
Wiskott L., Fellous J.-M., Krueger N and Malsburg C. Face Recognition by Elastic Bunch Graph Matching. IEEE Transactions on Pattern Analysis and Machine Intelligence 1997, Vol. 19, pp. 775-779.
Rabiner L. R. A tutorial on Hidden Markov Models and selected applications in speech recognition // Proceedings of the IEEE, 1989. – Vol. 77(2). – P. 257-285.
Головко В.А. Нейроинтеллект: Теория и применения. Книга 1. Организация и обучение нейронных сетей с прямыми и обратными связями - Брест:БПИ, 1999, - 260с.
Ежов А.А., Шумский С.А. – Нейрокомпьютинг и его применения в экономике и бизнесе. – Москва, 1998.
Вороновский Г.К., Махотило К.В., Петрашев С.Н., Сергеев С.А. – Генетические алгоритмы, искусственные нейронные сети и проблемы виртуальной реальности. – Харьков:Основа, 1997.
Нейроинформатика / А.Н. Горбань, В.Л. Дунин-Барковский, А.Н. Кирдин и др. – Новосибирск: Наука. Сибирское предприятие РАН, 1998.
Moghaddam B. and Pentland A. Probabilistic Visual Learning for Object Representation. IEEE Transactions on Pattern Analysis and Machine Intelligence 1997, Vol. 19, pp. 696-710.
Самаль Д.И., Старовойтов В.В. - Подходы и методы распознавания людей по фотопортретам. - Минск, ИТК НАНБ, 1998. - 54с.
Brunelli R., Poggio T. Face recognition: features versus templates // IEEE Transactions on Pattern Analysis and Machine Intelligence, 1993. – Vol. 15. – No 10. – P. 235-241.