Распознавание человека по изображению лица и нейросетевые методы
обзорный препринт
на правах рукописи
интернет-вариант J
любое некоммерческое распространение данного материала разрешено и приветствуется, ссылка на первоисточник обязательна
принимаются любые обоснованные замечания по содержанию препринта
(С) Брилюк Дмитрий (bdv78@mail.ru, http://neuroface.narod.ru),
Старовойтов Валерий Васильевич (ValeryS@newman.bas-net.by)
Институт Технической Кибернетики Национальной Академии Наук Беларуси, Минск, 2001
Дата изменения: 15.11.2001
аннотация
Дан обзор и классификация методов распознавания человека по изображению лица. Рассмотрены особенности, достоинства и недостатки таких методов. Дан обзор нейросетевых методов распознавания человека по изображению лица, отмечены преимущества нейросетевого подхода. Рассмотрены архитектуры нейронных сетей, перспективные для задач распознавания изображений, намечены направления дальнейших исследований. Описаны предварительные эксперименты по созданию системы контроля доступа на основе анализа изображения лица человека. Большое внимание уделено учёту свойств изображения в методах распознавания и выбору начального представления изображения. Приведены ссылки на ресурсы в сети интернет соответствующей тематики.
В настоящее время всё более широкое распространение получают биометрические системы идентификации человека. Традиционные системы идентификации требуют знания пароля, наличия ключа, идентификационной карточки, либо иного идентифицирующего предмета, который можно забыть или потерять. В отличие от них биометрические системы основываются на уникальных биологических характеристиках человека, которые трудно подделать и которые однозначно определяют конкретного человека. К таким характеристикам относятся отпечатки пальцев, форма ладони, узор радужной оболочки, изображение сетчатки глаза [#био1]. Лицо, голос и запах каждого человека так же индивидуальны [#био1,#био2,#лица2,#FaceGesture].
Распознавание человека по изображению лица выделяется среди биометрических систем тем [#био1], что во-первых, не требуется специальное или дорогостоящее оборудование. Для большинства приложений достаточно персонального компьютера и обычной видеокамеры. Во-вторых, не нужен физический контакт с устройствами. Не надо ни к чему прикасаться или специально останавливаться и ждать срабатывания системы. В большинстве случаев достаточно просто пройти мимо или задержаться перед камерой на небольшое время.
К недостаткам распознавания человека по изображению лица следует отнести то, что сама по себе такая система не обеспечивает 100%-ой надёжности идентификации. Там, где требуется высокая надёжность, применяют комбинирование нескольких биометрических методов [#био1].
На данный момент проблеме распознавания человека по изображению лица посвящено множество работ, однако в целом она ещё далека от разрешения. Основные трудности состоят в том, чтобы распознать человека по изображению лица независимо от изменения ракурса и условий освещённости при съёмке, а так же при различных изменениях, связанных с возрастом, причёской и т.д. [#био1,#FaceGesture,#Illum,#Linear].
Распознавание изображений пересекается с распознаванием образов [#Абл,#Стар,#Хорн]. Такие задачи не имеют точного аналитического решения. При этом требуется выделение ключевых признаков, характеризующих зрительный образ, определение относительной важности признаков путём выбора их весовых коэффициентов и учёт взаимосвязей между признаками. Изначально эти задачи выполнялись человеком-экспертом вручную, путём экспериментов, что занимало много времени и не гарантировало качества. В новых методах выделение ключевых признаков осуществляется путём автоматического анализа обучающей выборки, но тем не менее большинство информации о признаках задаётся вручную [#Самаль,#Сам2]. Для автоматического применения таких анализаторов выборка должна быть достаточно большой и охватывать все возможные ситуации.
Нейросетевые методы предлагают иной подход к решению задачи распознавания образов [#Головко1,#Уоссермен,#Ежов,#Махотило,#Горбань]. Архитектура и функционирование нейронных сетей (НС) имеют биологические прообразы. Веса в нейронной сети не вычисляются путём решения аналитических уравнений, а подстраиваются различными локальными методами (например разновидностями градиентного спуска) при обучении. Обучаются нейронные сети на наборе обучающих примеров. В процессе обучения НС происходит автоматическое извлечение ключевых признаков, определение их важности и построение взаимосвязей между ними. Обученная НС может успешно применять опыт, полученный в процессе обучения, на неизвестные образы за счёт хороших обобщающих способностей.
Таким образом, применение нейронных сетей для задачи распознавания человека по изображению лица, является перспективным направлением, на что и направлено основное внимание данного препринта.
В данном обзоре описаны методы распознавания человека по изображению лица, и возможности использования их совместно с нейросетевыми методами. Дан обзор нейросетевых методов распознавания изображений и их применения к распознаванию человека по изображению лица. Описаны различные способы представления изображения и учёта его свойств. Прилагаются ссылки на ресурсы в сети интернет, посвящённые соответствующей тематике. Обзор будет полезен и тем, кто занимается распознаванием изображений и другими задачами, связанными с распознаванием образов.
Задачи распознавания человека по изображению лица делятся на три больших класса: поиск в больших базах данных, контроль доступа и контроль фотографий в документах. Они различаются как по требованиям, предоставляемым к системам распознавания, так и по способам решения, и поэтому представляют собой отдельные классы.
Различны и требования, предъявляемые к ошибкам первого и второго рода для таких классов [#TradeOff]. Ошибкой первого рода (type I error, misdetection) называется ситуация, когда объект заданного класса не распознаётся (пропускается) системой. Ошибка второго рода (type II error, falsealarm) происходит, когда объект заданного класса принимается за объект другого класса.
Следует также отметить различие понятий верификации и распознавания (идентификации) [#био2]. В задаче верификации неизвестный объект заявляет, что он принадлежит к некоторому известному системе классу. Система подтверждает или опровергает это заявление. При распознавании требуется отнести объект неизвестного класса к одному из известных или выдать заключение о том, что этот объект не относится к известным классам.
Сравнение типа один со многими. Высокие требования к ошибке первого рода – система распознавания должна находить изображения соответствующие данному человеку, по возможности не пропустив ни одного такого изображения. При этом допустимо, если в результирующей выборке будет присутствовать небольшое число других людей.
Обычно в большой базе данных (104-107 изображений) требуется найти изображения, наиболее похожие на заданное [#Самаль]. Поиск должен быть произведён за разумное время. Одно из решений состоит в хранении базе данных небольших наборов заранее извлечённых ключевых признаков, максимально характеризующих изображение. При этом требования к точности не столь критичны как в задачах контроля доступа и документного контроля.
К данному классу прежде всего относится метод главных компонент (метод «собственных лиц») [#лица1,#PCA]. Коэффициенты, полученные разложением входного изображения на главные компоненты, использовались для сравнения изображений путём вычисления Евклидова расстояния, а в более совершенных методах – на основе метрики Махаланобиса с использованием Гауссовского распределения [#PCA].
В работе [#Valentin,#myicnnai] описано развитие метода главных компонент на основе нейронных сетей.
В работе [#ConvNN] так же показана возможность использования признаков, сформировавшихся на более поздних слоях специализированной свёрточной нейронной сети, для классификации изображений по методу ближайшего соседа.
Сравнение типа один с несколькими. Критичны требования к ошибкам второго рода. Система распознавания не должна распознавать незнакомых людей как знакомых, возможно даже за счёт увеличения ошибок первого рода (отказов в доступ знакомым людям).
Имеется небольшая группа лиц (5-50 человек), которых система должна распознавать по изображению лица для доступа в некоторое место. Людей, не входящих в эту группу, система не должна пропускать. Возможны варианты, когда требуется установить конкретную личность по изображению лица. При этом от системы требуется высокая достоверность распознавания, возможно даже за счёт увеличения числа отказов на знакомые объекты.
В качестве тренировочных изображений обычно для каждого человека доступны несколько изображений лица, полученных при различных условиях. Например, различные ракурсы, освещённость, причёска, мимика, наличие очков и т.п.
Система должна работать в реальном масштабе времени, а процесс настройки может занимать больше времени и производиться отдельно. В процессе эксплуатации система должна дообучаться на вновь поступающих изображениях по возможности быстрее.
Ограничений на применяемые методы здесь нет, но все методы сходятся в одном. Имеется обучающий набор изображений лиц заданной группы людей (возможно при различных условиях съёмки). К этому набору система обращается в процессе распознавания, или система настраивается в процессе обучения на этот набор.
Распространён подход с использованием нейронных сетей, которые после обучения обладают хорошей обобщающей способностью, что будет подробнее описано ниже.
Сравнение типа один к одному. Формулировать требования к ошибкам первого и второго рода здесь будет некорректно, поскольку система распознавания никогда не имела дело с поступающими на вход классами. Но желательно чтобы система не совершала ошибок при сравнении.
Требуется сравнить изображение лица человека, полученное в данный момент с фотографией из какого-либо документа. Системе надо ответить принадлежат ли эти лица одному человеку или нет. Данный класс задач наиболее сложен, поскольку во первых, система никогда раньше не сталкивалась с изображением лица данного человека. Система сравнивает всегда отличающиеся изображения, учёт всех возможных различий в процессе обучения или настройки системы затруднителен. Во вторых, здесь большее влияние оказывают возрастные и другие изменения лица. В третьих, качество и контраст отсканированной фотографии как правило хуже, чем изображение лица снятого камерой [#Сам1,#Сам3].
Большинство методов для данного класса задач неприменимы без специальной адаптации.
В обозреваемой литературе нет работ, напрямую связанных с применением нейросетевых методов для решения данного класса задач. Для этого можно предложить применение НС для извлечения ключевых признаков изображений и адаптацию НС для сравнения двух изображений.
В этом разделе отмечены методы распознавания изображений, инвариантные к различным вариациям исходного изображения, таким как масштаб, сдвиг, условия освещённости и т.д. Так же указаны способы достижения такой инвариантности для остальных методов.
Инвариантностью к изменению масштаба обладают неокогнитроны [#Уоссермен], модификации нейронных сетей высокого порядка [#HNN,#МомНС]. Т.е. эти виды сетей не надо специально обучать на изображениях с различными масштабами объекта, обучившись некоторому изображению один раз, они способны затем распознавать объект на изображении при любых изменениях масштаба.
Так же инвариантностью к изменениям масштаба обладают моменты Лежандра, Зернике и т.п. [#Садыхов-Селингер,#Hupkens,#МомНС].
В остальных методах инвариантность к изменениям масштаба достигается на этапе предобработки (приведение к стандартному масштабу), либо в обучающую выборку включаются изображения с различным масштабом.
Большинство методов чувствительно к изменениям освещения – результат распознавания сильно ухудшается. Некоторого улучшения можно достичь за счёт выравнивания гистограммы яркостей [#Прэтт,#PCA], но в общем случае изменения в освещении предобработкой устранить невозможно.
В [#Fisher] использован алгоритм выделения линейных подпространств, который надёжно классифицирует человека по изображению лица при достаточно широком диапазоне условий освещённости. При этом обучающая выборка формировалась с использованием изображений при различных условиях освещения.
Существуют так же различные эвристические подходы. Например, в модификации метода главных компонент, первые 2-3 компоненты отражают в основном различия в освещении, и поэтому при сравнении не учитываются [#Fisher].
Специфический подход описан в [#IRed]. В этой работе использовалось изображение лица, взятое в инфракрасном спектре. Это обеспечивает независимость от условий освещения, но требует специального оборудования.
В большинстве методов требуется предобработка, приводящая положение лица на изображении к стандартной ориентации (горизонтальная линия глаз, вертикальная ось симметрии головы).
Инвариантностью к изменениям ориентации обладают неокогнитроны [#Уоссермен] и модификации нейронных сетей высокого порядка [#HNN,#МомНС], которым достаточно одного предъявления изображения для того, чтобы узнать объект на изображении при любом изменении ориентации объекта.
Так же инвариантностью к изменениям ориентации обладают моменты Лежандра, Зернике и т.п. [#Садыхов-Селингер,#Hupkens,#МомНС].
Инвариантностью к сдвигу обладают неокогнитроны [#Уоссермен], нейронные сети высокого порядка [#HNN,#МомНС], автокорреляторные нейронные сети Хопфилда [#Горбань], а так же некоторые моменты [#Hupkens,#МомНС].
В остальных случаях инвариантность к сдвигу достигается предобработкой или обучением.
Не существует методов распознавания изображений, инвариантных к большим изменениям ракурса (трёхмерным поворотам лица). Требуется предварительное обучение на изображениях лица в различных ракурсах.
Методы, ориентированные на преодоление этого недостатка, описаны в работах [#Linear,#EigenSign]. Они основаны на синтезе изображения в новых ракурсах по одному примеру изображения в произвольном ракурсе, и находятся в стадии разработки.
Другое решение этой проблемы заключается в использовании трёхмерного представления. Однако это требует или использования нескольких изображений при различных условиях съёмки или построения сложных трёхмерных моделей лица [#Face23].
Каждое лицо отдельного человека представляет собой класс для системы распознавания. Лицо одного человека может отличаться причёской, бородой, очками, эмоциональным выражением, подвержено возрастным изменениям. Такие различия называются внутриклассовыми и создают проблемы для систем распознавания.
Частично эта проблема может быть преодолена выделением областей лица, неподверженных таким изменениям [#PCA,#Templ,#Самаль]. Так же это может решаться в процессе обучения. Например, в линейных дискриминантах [#Fisher] и нейросетевых методах [#Valentin]. Неокогнитроны [#Уоссермен] могут распознавать искажённое изображение.
Под помехами здесь понимается как различного вида шум на изображении, так и другие помехи, перекрывающие или искажающие части объектов на изображении.
Свойством восстанавливать изображение, наиболее близкое к исходному, обладают нейронные сети Хопфилда [#Dai], автоассоциативная память [#Valentin] и реконструкция изображения по главным компонентам [#PCA].
В любом методе после преобразования изображения и выделения ключевых признаков требуется сравнить полученные признаки, для того чтобы произвести распознавание. И, несмотря на многообразие различных алгоритмов и методов распознавания, среди них можно выделить три группы методов, различающихся способами сравнения изображений, рис. 1.
В первой группе методов набор признаков (в простейшем случае исходное изображение) представляет собой точку в пространстве признаков, где значение каждого признака (например, яркость отдельного пикселя, значение главной компоненты, коэффициент частотного преобразования и т.п.) представляет собой координату вдоль некоторой оси пространства признаков. Процедура сравнения основывается на разделении пространства признаков на области, относящиеся к одинаковым классам.
Для этого, например, может быть вычислено расстояние от неизвестного образа до всех остальных образов при помощи какой-либо метрики [#Самаль,#PCA,#myicnnai]. Класс может быть представлен центром кластера, тогда расстояние от неизвестного образа вычисляется до центров всех кластеров, как это делается в методе главных компонент [#PCA]. В мультимодальном анализе главных компонент [#PCA] и в радиально-базисных нейронных сетях [#Gutta,#CRBF] одному классу может соответствовать несколько кластеров, рис. 2. Линейный дискриминант строит набор линейных разделяющих поверхностей [#Fisher], полагая что классы линейно разделимы в пространстве признаков. Разновидность нейронных сетей – многослойные персептроны позволяют строить разделяющие поверхности любой сложности [#Головко1,#Уоссермен,#Ежов,#Горбань], рис. 2. Нейронные сети Хопфилда преобразуют изображение, поданное на вход к ближайшему в пространстве изображений [#Головко1,#Уоссермен,#Ежов,#Dai].
Рис. 1. Схема способов сравнения изображений
Рис. 2. Слева – кластеризация, справа – разделяющие поверхности в пространстве признаков
Несмотря на то, что самые совершенные методы могут лучшим способом разбить исходное пространство на области, этого недостаточно, поскольку для реальных объектов требуется огромное количество разделяющих областей (и обучающих примеров), чтобы учесть всевозможные способы изменения изображений объектов. Это связано с тем, что даже незначительное, с человеческой точки зрения, изменение изображения (например, ракурс, освещение или наличие бороды), может дать положение в пространстве признаков, очень далеко лежащее от исходного. И система в этом случае может среагировать не на одинакового человека, а, например, на одинаковый ракурс [#myicnnai,#Самаль], посчитав изображение другого человека в том же ракурсе наиболее похожим на неизвестное. Ни применение различных преобразований для начального представления изображения, ни предобработка не может решить эту проблему для общего случая.
Следующая группа методов частично преодолевает данный недостаток. На изображении находятся важные области лица (например, области глаз, бровей, носа, губ). Затем с помощью первого способа производится сравнение каждой области, и результат каждого такого сравнения вносит вклад в окончательный результат. К таким методам относится например сравнение по эталонам [#Templ], различные способы анализа главных компонент по блокам изображений [#PCA,#WirePCA].
В третьей группе учитывается топологическое искажения изображения, рис. 3. Методы, использующие искажение изображения для сравнения, позволяют добиться лучших результатов.
Рис. 3. Пример искажения решётки исходного изображения
В методе сравнения эластичных графов на изображение накладывается набор ключевых точек, связанных между собой дугами [#ElGraph,#ElGrid]. На неизвестном изображении находятся точки, соответствующие исходным и затем измеряется суммарное изменение размеров дуг. В гибких контурных моделях извлекается контур очертаний лица, и затем сравниваются формы контуров для разных изображений [#Flex]. Работа [#Yoon] использует нейронные сети и скрытые Марковские модели для анализа соотношений расстояний между областями глаз, носа и рта.
В вышеописанных методах после нахождения ключевых областей или контуров остальная информация не учитывается, что снижает точность. Следующие методы сравнивают всё изображение.
В работе [#OFlow] вычисляется оптический поток между двумя сравниваемыми изображениями. Затем на основе оптического потока вычисляется мера искажения от неизвестного изображения к исходному. По величине этого искажения определяется степень похожести изображений. Работа [#KuchGA,#KuchMS] использует генетический алгоритм для искажения неизвестного изображения в сторону сравниваемых, степень похожести изображений так же определяется величиной искажения. В [#Ковалёв1,#Ковалёв2] используются эластичные деформации для сопоставления двух изображений целиком, рис. 4.
Рис. 4. Эластичные деформации: исходное изображение (слева), пиксел отмеченный квадратом сдвигается в позицию пиксела отмеченного окружностью, три результата с различными праметрами деформации.
Вышеприведённые методы сравнивают только суммарное искажение, не пытаясь учесть его характер, и в этом заключается их недостаток. Характер искажения изображения несёт важную информацию для распознавания изображения, и поэтому нижеприводимые методы имеют лучшую точность распознавания.
К таким методам относятся псевдодвумерные скрытые Марковские модели [#Samaria,#DCT-HMM1,#DCT-HMM2], свёрточные нейронные сети [#ConvNN], когнитроны и неокогнитроны [#Уоссермен]. Потенциальные поля, получаемые по искажениям изображения, используются в [#PField] для распознавания эмоций. В алгоритмах технологии FaceItâ корпорации Visionics [#FaceIt] изображение разбивается на блоки и анализируется взаимное расположение таких блоков. Эти методы для сравнения используют как характеристики участков (блоков) изображений (набор яркостей пикселей, коэффициентов частотных преобразований, главные компоненты блоков изображения и т.п.), так и взаимное расположение таких участков. Причём как характер искажений, так и содержимое участков усваивается в процессе обучения. В процессе распознавания искажение производится не к каждому примеру тренировочного набора, а к обобщённой модели класса.
По характеру использования обучающего набора методы распознавания лиц можно разделить на два больших класса. В методах первого класса в процессе настройки не используют обучающие примеры. В таких методах все параметры задаются вручную и, как правило, подбираются путём различных экспериментов. Например, криминалистическая идентификация человека по лицу с применением ключевых точек [#Сам2]. В этой работе приведены результаты экспериментального выбора ключевых точек и отношений между ними, наиболее пригодных для задачи распознавания. Такой подход трудоёмок, требует априорных знаний о предметной области (в данном случае об антропометрических характеристиках лица) и большого количества настроечных экспериментов.
В противоположность этому второй класс методов в различной степени для извлечения признаков использует анализ обучающей выборки, представляющей собой набор типичных объектов нужных классов. Поэтому такие методы вычислительно более трудоёмки и их развитие стало возможным с возрастанием мощи вычислительной техники. Это метод главных компонент [#PCA], линейные дискриминантные методы [#Fisher], метод сравнения эластичных графов [#ElGraph,#ElGrid]. Однако в них основной упор сделан на автоматизированное извлечение признаков, но не отношений между ними и определения их важности (взвешивание). В работе [#ElWeights] предпринята попытка вычислить весовые параметры для эластичного сравнения графов. Линейный дискриминантный анализ использовался в [#Fisher] для анализа признаков и преобразования их такому виду, чтобы они максимизировали межклассовые и минимизировали внутриклассовые различия.
Одни из самых совершенных методов, в которых извлечение признаков и построение системы их взаимоотношений происходит в процессе обучения – это скрытые Марковские модели [#Rabiner] и нейронные сети [#Головко1,#Уоссермен,#Ежов,#Махотило,#Горбань].
Для нейронных сетей на данный момент времени разработаны эффективные комбинированные методы обучения, которые позволяют полностью автоматизировать процесс выбора параметров архитектуры и обучение сети [#Ежов,#Махотило]. При этом достигается результаты, превосходящие другие методы. Но вычислительно эти методы трудоёмки.
Методы распознавания по изображению лица можно разделить на три класса.
Первый класс использует исходное изображение только для начального выделения каких-либо ключевых точек, расстояний между такими точками, соотношения расстояний или других геометрических характеристик и в дальнейшем к исходному изображению (например полутоновому) не обращается. Такая информация достаточно достоверно характеризует конкретного человека, и используется в криминалистике для опознания людей [#Самаль]. Однако показано, что в целом геометрической информации недостаточно для распознавания человека по изображению лица.
Второй класс методов использует всё исходное изображение. Например, метод анализа главных компонент, линейный дискриминантный анализ оперируют исходным полутоновым изображением как многомерным вектором. К этому классу так же относятся различные нейронные сети, принимающие на вход изображение целиком. Многие источники сходятся во мнении, что для общих случаев распознавания требуется анализировать всю информацию, предоставленную на изображении (например, всё полутоновое изображение).
Третий класс представляет собой сочетание двух предыдущих. Здесь используются как геометрические характеристики, так и элементы, например, полутонового изображения. Например, метод сравнения эластичных графов [#ElGraph,#ElGrid]. Вершины графа характеризуют некоторые особые точки изображения, дуги – расстояния между этими точками, кроме этого каждой вершине приписан набор локальных характеристик изображения (джет). Другим примером является метод сравнения эталонов [#Templ]. На изображении лица выделяются особые области, такие как глаза, нос, рот, и изображение сравнивается по этим областям.
Методы распознавания характеризуются так же различным соотношением в них аналитических и эмпирических способов решения задачи распознавания. Метод главных компонент и линейные дискриминанты например, основаны на решении систем матричных уравнений и нахождений расстояний между образами в различных метриках. В методе сравнения эластичных графов ключевые точки отмечаются на обучающем наборе изображений лиц исходя из эмпирических соображений.
Особое место занимают нейросетевые методы. В процессе настройки сети используются аналитические методы градиентного спуска. Но такая настройка не даёт ни гарантии достижения минимума ошибки, ни оценки отклонения полученной ошибки от оптимальной. В отличие от статистических методов, решения, получаемые при помощи НС, носят не вероятностный, а правдоподобный характер, определяемый обучающим набором [#Petrou,#Махотило].
Похожая ситуация со скрытыми Марковскими моделями. Настройка параметров каждой модели осуществляется математическими оптимизационными методами, но они не дают точного решения [#Rabiner].
Методы делятся на два класса по способу сравнения неизвестного изображения с тренировочным набором (или базой изображений).
Первый класс методов использует тренировочный набор для построения обобщённой модели каждого класса лица (или всех классов сразу). Это различные нейронные сети, линейные дискриминанты, скрытые Марковские модели.
Второй класс методов непосредственно сравнивает неизвестное изображение с каждым изображением из тренировочной выборки. Это метод собственных лиц (метод главных компонент), сравнение эталонов, методы сравнения эластичных графов, анализ оптического потока.
Использование последовательности кадров для задач, связанных с анализом изображения лица является более предпочтительным (но не всегда возможным), чем использование единичного статичного изображения, поскольку даёт дополнительную информацию.
Во-первых, это позволяет выбрать наиболее репрезентативные кадры из последовательности. Во-вторых, обучение системы на динамично меняющемся изображении позволяет ей извлечь больше информации об объекте.
Так, использование нескольких кадров значительно достоверность анализа выражения человеческого лица, позволяет проследить динамику его изменений при различных эмоциях [#Expr]. В работе [#KuchRT] при относительно простом алгоритме распознавания, использовалась последовательность кадров, поступающих с камеры, и при этом точность распознавания составила 90%.
Метод главных компонент позволяет с высокой степенью точности по первым компонентам реконструировать изображение [#PCA]. Нейронные сети Хопфилда получив на вход изображение, на выходе выдают изображение из обучающей выборки, наиболее похожее на входное [#Dai]. Способностью восстанавливать изображение на основе извлечённых характеристик обладают так же когнитроны [#Уоссермен].
Для поиска на изображении участка, соответствующего лицу, используются различные способы, важной частью которых являются методы определения того, содержит ли подаваемое на вход изображение лицо (детектирование).
Ряд методов изначально обладает способностями определения, относится ли входное изображение к классу «своих» изображений, и при соответствующей адаптации могут использоваться в качестве детекторов.
Различные типы нейронных сетей обладают способностью относить входное изображение к нужному классу с различной степенью доверия. Существуют подходы [#Rowley] с использованием специально обученных нейронных сетей для того, чтобы определить содержит ли изображение лицо.
Метод анализа главных компонент так же применяется для детектирования области лица. На основе сравнения входного и реконструированного изображения можно определить, относится ли входное изображение к классу лиц [#PCA_Detect,#PCA].
Некоторые методы изначально обладают возможностью определения ракурса лица на изображении.
В работе [#Flex] на основе гибких контурных моделей лица были получены главные компоненты, отражающие углы пространственных поворотов лица.
В методах, использующих обучение, такие способности достигаются в процессе обучения.
В работах [#PCA] при использовании метода главных компонент, были обнаружены компоненты, отражающие в основном эмоции, пол и расу.
В других методах возможность определения на основе изображения лица такие характеристики личности как пол, раса, возраст, эмоциональное состояние достигается в процессе обучения.
Нейронные сети использовались в работе [#Valentin] для определения пола и эмоционального состояния. В нейронной сети имелся набор выходов, отвечающих за эти характеристики, и нейронная сеть обучалась классифицировать изображения лиц по этим признакам.
Многие методы распознавания человека по изображению лица требуют большого числа предварительных операций, таких как центрирование области лица, приведение к эталонному масштабу и ориентации, выравнивание гистограммы яркости пикселей, без которых они будут работать плохо. К таким методам относятся, например, метод главных компонент [#PCA], анализ антропометрических точек лица [#Самаль].
Существуют так же методы, в которых требуется минимум предобработки. Это свёрточные нейронные сети [#ConvNN], неокогнитроны [#Уоссермен].
[#myicnnai] Bryliuk D., Starovoitov V. Application of Recirculation Neural Network and Principal Component Analysis for Face Recognition // The 2nd International Conference on Neural Networks and Artificial Intelligence. Minsk : BSUIR , 2001.- P .136-142.
[# VRBF 1] Садыхов Р.Х., Ваткин М.Е. Модифицированный алгоритм обучения РБФ-сети для распознавания рукописных символов // Идентификация образов. – Минск:ИТК, 2001.–С.7-16.
[# TRBF ] Телятников Р.В., Садыхов Р.Х. Алгоритм обучения нейронной сети на основе использования свойств радиальных базисных функций // Идентификация образов. – Минск:ИТК, 1999.–С.58-64.
[#ГИ] Головко В.А. Нейронная сеть для иерархической классификации образов // Идентификация образов. – Минск:ИТК, 1999.–С.85-88.
[#Садыхов-Селингер] Садыхов Р.Х., Селингер М.Л. Исследование свойств различных моментных функций при распознавании рукописных символов // Цифровая обработка изображений. – Минск:ИТК, 2000.–С.75-85.
[# VRBF 2] Мазурёнок Д.Г., Садыхов Р.Х., Ваткин М.Е. Классификатор на основе радиальных базисных функций в задаче распознавания рукописных арабских цифр // Цифровая обработка изображений. – Минск:ИТК, 1999.–С.73-80.
[#Сам1] Самаль Д.И., Старовойтов В.В. Методика автоматизированного распознавания людей по фотопортретам // Цифровая обработка изображений. – Минск:ИТК, 1999.–С.81-85.
[#Сам2] Самаль Д.И., Старовойтов В.В. Выбор признаков для распознавания на основе статистических данных // Цифровая обработка изображений. – Минск:ИТК, 1999.–С.105-114.
[#Ковалёв1] Ковалёв В.А. Метод эластичных экспоненциальных деформаций для совмещения цифровых изображений // Цифровая обработка изображений. – Минск:ИТК, 1999.–С.147-156.
[#Ковалёв2] Ковалёв В.А. Совмещение двумерных и трёхмерных изображений нежёстких объектов // Цифровая обработка изображений. – Минск:ИТК, 1999.–С.157-165.
[#Сам3] Самаль Д.И. Построение систем идентификации личности на основе антропометрических точек лица // Цифровая обработка изображений. – Минск:ИТК, 1998.–С.72-79.