В алгоритмах МТИ, Университета Рокфеллера и Университета штата Мэриленд используются варианты метода преобразования собственных лиц, а затем моделирование отличий. Алгоритм Университета штата Мэриленд использует линейный дискриминант, а система МТИ – квадратичный. В системе Университета Рокфеллера используется разреженный вариант преобразования собственных лиц, после которого включается в работу нейронная сеть отличий. В основе системы Университета Южной Калифорнии лежит совершенно иной подход. Сначала из изображения вычисляются струи Габора (Gabor jet), затем при помощи алгоритма поиска соответствия по графу (graph-matching algorithm) проводится гибкое сравнение описателей изображения c образцами.
В тестовые базы данных Feret заносились лица в различных положениях, разного размера и по-разному освещенные, похожие на фотографии для водительских удостоверений или полицейского архива. Работа всех четырех алгоритмов была близка к идеалу в том случае, если база данных включала не более 200 лиц, а изображения получались при сходных условиях. Интересно, что даже простое сравнение корреляций иногда удавалось провести с той же точностью на базе данных ровно из 200 элементов [7]. Из этого со всей очевидностью следует, что признать новый алгоритм достойным рассмотрения можно только в том случае, если он протестирован на базе данных из по крайней мере 200 человек и продемонстрировал эффективность распознавания не ниже 95% для изображений типа фотографий для удостоверений.
В более масштабных тестах программы Feret (с числом изображений не менее 1196) эффективность всех четырех алгоритмов была примерно одинаковой. В этой связи трудно или даже невозможно провести четкие различия между ними (особенно если согласовать даты тестирования). Для фронтальных изображений, сделанных в один и тот же день, приемлемая точность распознавания, как правило, составляет 95%. Для изображений, сделанных разными аппаратами и при разном освещении, точность, как правило, падает до 80%. Для изображений, сделанных с разницей в год, точность распознавания составляет примерно 50%. При этом стоит заметить, что даже 50 процентов – это более чем приемлемая точность работы системы.
Сейчас имеется несколько коммерческих продуктов для распознавания лиц. Ряд из них базируются на алгоритмах, признанных лучшими в программе Feret; другие никак с ней не связаны. Дать окончательную оценку очень сложно, однако, похоже, три системы выбиваются в лидеры – это разработки компаний Visionic, Viisage и Miros.
Спектр задач, решаемых системами распознавания лиц, уже не ограничивается верификацией личности и наблюдением. Все больше приложений используют распознавание лиц как первый шаг к интерпретации действий человека, его намерений и поведения. Иначе говоря, к реализации тех возможностей, которые будут играть центральную роль в интеллектуальной среде следующего поколения. Многие действия и особенности поведения человека поддаются интерпретации только в том случае, если идентифицируются его личность и окружающие его люди. Примеры – распознавание постоянного покупателя магазина, наблюдение за поведением пациентов, интерфейсы командного управления на военных и промышленных объектах. В каждом из этих приложений информация о личности человека дает машине те базовые знания, без которых невозможна правильная интерпретация количественных показателей или результатов научных наблюдений, связанных с теми или иными действиями человека.
Средства распознавания выражений лиц взаимодействуют с другими элементами интеллектуальной среды. Интеллектуальная система должна знать, например, раздражен ли пользователь, потому что информация поступает слишком медленно или, наоборот, он приведен в замешательство тем, что она получена слишком быстро. Анализ выражения лица дает некоторые зацепки для определения различных состояний человека. Сегодня основные усилия разработчиков направлены на создание средств распознавания выражений, не зависящих от личности человека. В выражениях лиц разных людей, принадлежащих разным культурам, можно найти общие черты (если только это не самые страшные гримасы). Однако необходимо уметь анализировать нормальное, спокойное состояние человеческого лица, а оно для разных людей всегда разное. До сих пор исследования возможностей распознавания выражений человеческих лиц ограничивались распознаванием нескольких дискретных состояний, а не анализом всего спектра выражений вместе с их едва уловимыми оттенками. Для того чтобы система выполняла действительно эффективный анализ выражений, она должна научиться распознавать конкретного человека и уметь настраивать на него свои параметры.
Если разместить компьютер, камеру, микрофон или другие сенсорные устройства на одежде человека, они станут воспринимать мир не с пассивной точки зрения, а как активные наблюдатели [3]. Носимые устройства адаптируются к конкретному пользователю, который начинает применять их гораздо активнее и более естественно. Носимые компьютеры – быстро развивающаяся область, и совсем недавно в рамках IEEE CS был образован самостоятельный технический комитет, который будет заниматься этой проблемой. Так что вскоре мы сможем наблюдать подъем интереса к такой почти неисследованной сфере, как интерпретация изображений носимым компьютером – изображений, видимых с точки зрения активного наблюдателя.
Распознавание лиц – такая же составная часть носимых систем, как вспомогательные средства памяти (memory aid) и контекстные системы (context-aware system). Поэтому в будущем многие средства распознавания будут интегрироваться в одежду и различные аксессуары. Представим себе, например, что вы носите очки со встроенной камерой. Тогда программная система распознавания лиц поможет вам вспомнить стоящего перед вами человека, просто тихонько подсказав вам его имя. В Американской армии испытывают такие устройства, предлагая их солдатам, проходящими службу в Боснии. Аналогичные исследования проводятся в Университете Центра здоровья будущего, где такие устройства намерены применять при лечении болезни Альцхаймера (http://wearebles.www.media.mit.edu/projects/ wearebles, http://www.futurehealht.rochester.edu).
Для того чтобы современная система распознавания лиц работала безупречно, необходимо выполнить несколько важных условий, например, расположить человека лицом к камере при соответствующем освещении. Существует множество самых разнообразных ситуаций, в которых все известные сегодня алгоритмы распознавания лиц перестают работать, а люди могут и должны узнавать друг друга. Следующее поколение систем распознавания должно научиться идентифицировать человека в реальном времени и в средах со значительно меньшим числом ограничений.
Полагаем, системы идентификации, способные нормально работать в естественной среде – в условиях помех и при изменяющемся освещении – не могут базироваться на использовании какой-то одной категории опознания личности – весьма важна возможность анализа по разным категориям. Технологии для интеллектуальной среды не должны быть навязчивыми и должны предоставлять пользователю свободу действий. Если говорить о носимых системах, то от их чувствительных элементов требуются малые размеры, низкое энергопотребление и способность легко закрепляться на одежде. Учитывая эти требования, имеются все основания предположить, что системы со средствами распознавания лиц и голоса имеют наибольший потенциал для широкого применения.
Современные камеры и микрофоны, очень маленькие и легкие, без труда интегрируются в носимые системы. Аудио- и видеосистемы распознавания имеют важное преимущество – они используют для опознания те же категории, что и человек. Наконец, результаты последних исследований показывают, что системы персональной идентификации, основанные на анализе аудио- и видеоинформации, способны обеспечить высокую степень распознавания без размещения пользователя в строго контролируемой обстановке [12].
Интеллектуальные среды призваны создать такие условия, в которых компьютеры и другие машины из неодушевленных предметов превращаются в ваших полезных помощников. Технологии распознавания лиц, значительно эволюционировавшей за последние 20 лет, принадлежит важная роль в достижении этой цели. Но для того чтобы будущие системы распознавания лиц могли широко применяться в интеллектуальных средах, их нужно научить взаимодействовать с пользователем, не создавая ему неудобств, и привести в соответствие людским представлениям о том, в каких условиях возможно опознание. Это означает, что будущие интеллектуальные среды должны использовать те же категории распознавания, что и люди, и иметь примерно те же самые ограничения. В этом направлении продолжатся самые серьезные исследования, но уже сейчас ясно, что поставленные цели вполне достижимы.
Танзим Чаудхари – аспирант Media Labs МТИ. В сферу его интересов входят распознавание лиц, многофакторная идентификация личности в реальном времени и анализ выражений лиц. С нм можно связаться по электронной почте по адресу tanzeem@media.mit.edu.
Алекс (Сэнди) Пентланд — глава лаборатории Media Laboratory Масачуссетского технологического института, профессор Toshiba и содиректор Центра здоровья будущего. Пентланд является одним из основателей IEEE Face and Gesture Recognition Conference и Технического комитета по носимым информационным устройствам IEEE Computer Society. С ним можно связаться по электронной почте по адресу: sandy@media.mit.edu
[1] M. Weiser, «The Computer for the 21st Century», Scientific American, Mar. 1991, pp. 66-76
[2] A. Pentland, «Smart Rooms, Smart Clothes», Scientific American, Apr. 1996, pp.68-76
[3] A. Pentland, «Wearable Intelligence», Scientific American, Apr. 1998, pp. 90-95
[4] T. Kohonen, Self-Organization and Associative Memory, Springer-Verlag, Berlin, 1989
[5] M. Kirby and L. Sirovich, «Application of the
Karhunen-Loeve Procedure for Characterization of Human Faces», Trans.
IEEE Pattern Analysis and Machine Intelligence, Jan. 1990, pp. 103-108
[6] M. Turk and A. Pentland, «Eigenfaces for Recognition», J. Cog. Neuroscience, Jan. 1991, pp. 71-86
[7] P. Phillips et al., «The Feret Database and Evaluation
Procedure for face Recognition Algorithms», Image and Vision Computing,
May 1998, pp. 295-306
[8] L. Wiskott et al., «Face Recognition by Elastic Bunch
Graph Matching», Trans. IEEE Pattern Analysis and Machine Intelligence,
July 1997, pp. 775-779
[9] K. Etemad and R. Chellapa, «Discriminant Analysis for
Recognition of Human Face Images», J. Optical Soc. of America, pp.
1724-1733
[10] B. Moghaddam and A. Pentland, «Probabilistic
Visualreconition for Object Recognition», Trans. IEEE Pattern Analysis
and Machine Intelligence, July 1997, pp. 696-710
[11] P. Penev and J.A tick, «Local Feature Analysis: A General
Statistical Theory for Object Representation», Network: Computation in
Neural Systems, Mar.1996, pp.477-500
[12] T. Choudhury et al., «Multimodal Person Recognition Using
Unconstrained Audio and Video», Proc. 2nd Conf. Audio- and Video-Based
Biometric Person Authentication, Univ. of Maryland, College Park, Md.,
1999, pp. 176-181