Д. Брилюк, В РАСПОЗНАВАНИЕ ЧЕЛОВЕКА ПО ИЗОБРАЖЕНИЮ ЛИЦА И НЕЙРОСЕТЕВЫЕ МЕТОДЫ

Первоначальный источник http://daily.sec.ru/

РАСПОЗНАВАНИЕ ЧЕЛОВЕКА ПО ИЗОБРАЖЕНИЮ ЛИЦА И НЕЙРОСЕТЕВЫЕ МЕТОДЫ

Д. Брилюк, В. Старовойтов

Среди первых реализаций распознавания лиц наиболее известна, по-видимому, система Теуво Коонена из Технологического университета Хельсинки [4]. Он продемонстрировал, что распознавание выровненных и нормализованных изображений можно выполнить с помощью простой нейронной сети. Сеть, которую использовал Коонен, вычисляла описание лица, аппроксимируя собственные вектора матрицы автокорреляции изображения. Эти собственные вектора (eigenvector) получили название «собственные лица» (eigenface).

Однако система Коонена не нашла практического применения, поскольку базировалась на точном выравнивании и нормализации. В последующие годы предпринимались многочисленные попытки реализации схем распознавания лиц с использованием различных методов нейронных сетей. Удалось сделать несколько удачных систем, работавших с небольшими базами данных выровненных изображений. Но не было ни одной успешной реализации для более жизненной ситуации – крупномасштабной базы данных, в которой расположение и размеры лиц неизвестны.

Затем Майкл Кирби и Лоуренс Сирович из Университита Брауна [5] ввели алгебраическую операцию, которая упростила прямое вычисление «собственных лиц». Кроме того, они показали, что для аккуратного кодирования тщательно выровненных и нормализованных изображений нужно не более 100 собственных лиц. Мэтью Турк и Алекс Пентланд из Массачусетского технологического института [6] продемонстрировали, что остаточную погрешность, которая возникает при кодировании с помощью собственных лиц, можно использовать для обнаружения лиц в неупорядоченном естественном изображении и определения точного расположения и размера лица. Затем они показали, что объединение этого метода обнаружения и локализации лиц с методом распознавания собственных лиц обеспечивает надежное распознавание лиц в реальном времени, при этом на среду распознавания накладываются минимальные ограничения. Когда стало очевидно, что комбинация простых методов распознавания в реальном времени позволяет создать весьма эффективную систему, интерес к распознаванию лиц стремительно вырос.

Современные разработки

К 1993 году было заявлено о существовании нескольких алгоритмов, правильно решающих задачу в среде с минимальным числом ограничений. Чтобы выявить их реальный потенциал, агентство DARPA и Исследовательская лаборатория армии США разработали програму Feret (face recognition technology). Цель этой программы – оценить эффективность предложенных алгоритмов и стимулировать развитие лучших из них.

В ходе реализации программы Feret три алгоритма продемонстрировали самый высокий уровень точности распознавания для больших баз данных (1200 человек) в наиболее сложных для распознавания условиях тестирования. Это алгоритм, разработанный в Университете Южной Калифорнии [8] ; алгоритм Университета штата Мэриленд [9]; и алгоритм, созданный в Media Laboratory Массачусетского технологического института [10] .Чтобы получить общее представление лица, так называемую адаптированную к объекту решетку (object-adapted grid), система по 70 моделям лица создает обобщенный граф лица (face bunch graph) . Затем сравнивает заданное изображение с обобщенным графом и ищет отправные точки. С помощью гибкого сравнения создается граф изображения, и затем для опознания лица полученное изображение сравнивается с лицами из базы данных.

Только два алгоритма, первый и третий, накладывает минимальные ограничения на процедуры обнаружения и распознавания лиц. Вторая система будет работать только при условии приближения глаз. Поначалу у этих алгоритмов существовал четвертый конкурент, разработанный в Университете Рокфеллера . Но тестирование этого алгоритма было отложено – требовалось прежде перевести его на коммерческую основу [11]. На базе первого и третьего алгоритмов уже реализованы коммерческие системы. В основе системы Массачусетского технологического института, которая использует для распознавания лиц метод собственных лиц, лежат моделирование наружности (a) и моделирование отличий (b).

(а)

Система формирует базу данных изображений лиц.
Анализ главных компонентов (principal component analysis — PCA) изображений лиц позволяет создать множество «собственных лиц». Для программирования большой базы лиц достаточно порядка 100 собственных векторов.
Затем система представляет каждое изображение лица как линейную комбинацию собственных лиц.
Поступающее изображение система аппроксимирует как комбинацию собственных лиц. Степень различия указывает на сходство двух изображений.

(b)

Система получает множества данных Q1 и Q2, вычисляя внутриличностные отличия (сопоставляя две наружности каждого человека в множестве) и вычисляя межличностные различия (сопоставляя разных людей в множестве).
Для каждого класса выполняется РСА и создаются два множеcтва собственных лиц.
Система выводит оценку сходства между двумя изображениями, вычисляя S = P(Q||d), где d – различие между парой изображений. Если S меньше 0,5, система считает, что она имеет дело с двумя изображениями одного и того же человека.

В алгоритмах МТИ, Университета Рокфеллера и Университета штата Мэриленд используются варианты метода преобразования собственных лиц, а затем моделирование отличий. Алгоритм Университета штата Мэриленд использует линейный дискриминант, а система МТИ – квадратичный. В системе Университета Рокфеллера используется разреженный вариант преобразования собственных лиц, после которого включается в работу нейронная сеть отличий. В основе системы Университета Южной Калифорнии лежит совершенно иной подход. Сначала из изображения вычисляются струи Габора (Gabor jet), затем при помощи алгоритма поиска соответствия по графу (graph-matching algorithm) проводится гибкое сравнение описателей изображения c образцами.

В тестовые базы данных Feret заносились лица в различных положениях, разного размера и по-разному освещенные, похожие на фотографии для водительских удостоверений или полицейского архива. Работа всех четырех алгоритмов была близка к идеалу в том случае, если база данных включала не более 200 лиц, а изображения получались при сходных условиях. Интересно, что даже простое сравнение корреляций иногда удавалось провести с той же точностью на базе данных ровно из 200 элементов [7]. Из этого со всей очевидностью следует, что признать новый алгоритм достойным рассмотрения можно только в том случае, если он протестирован на базе данных из по крайней мере 200 человек и продемонстрировал эффективность распознавания не ниже 95% для изображений типа фотографий для удостоверений.

В более масштабных тестах программы Feret (с числом изображений не менее 1196) эффективность всех четырех алгоритмов была примерно одинаковой. В этой связи трудно или даже невозможно провести четкие различия между ними (особенно если согласовать даты тестирования). Для фронтальных изображений, сделанных в один и тот же день, приемлемая точность распознавания, как правило, составляет 95%. Для изображений, сделанных разными аппаратами и при разном освещении, точность, как правило, падает до 80%. Для изображений, сделанных с разницей в год, точность распознавания составляет примерно 50%. При этом стоит заметить, что даже 50 процентов – это более чем приемлемая точность работы системы.

Коммерческие системы и приложения

Сейчас имеется несколько коммерческих продуктов для распознавания лиц. Ряд из них базируются на алгоритмах, признанных лучшими в программе Feret; другие никак с ней не связаны. Дать окончательную оценку очень сложно, однако, похоже, три системы выбиваются в лидеры – это разработки компаний Visionic, Viisage и Miros.

В основе приложения FaceIt компании Visionic лежит алгоритм анализа локальных признаков, разработанный в Университете Рокфеллера. Одна коммерческая компания в Великобритании интегрировала FaceIt в телевизионную антикриминальную систему под названием Mandrake. Эта система ищет преступников по видеоданным, которые поступают с 144 камер, объединенных в замкнутую сеть. Когда устанавливается идентичность, система сообщает об этом офицеру безопасности.
Еще один лидер рынка систем распознавания лиц, компания Viisage, использует алгоритм, разработанный в МТИ. Коммерческие компании и властные структуры во многих американских штатах и в ряде других стран используют систему компании Viisage вместе с идентификационными удостоверениями, например, водительскими правами.
В системе распознавания лиц TrueFace компании Miros используется технология нейронных сетей, а сама система применяется в комплексе выдачи наличных денег корпорации Mr.Payroll и установлена в казино и других увеселительных заведениях многих штатов.

Новые приложения

Спектр задач, решаемых системами распознавания лиц, уже не ограничивается верификацией личности и наблюдением. Все больше приложений используют распознавание лиц как первый шаг к интерпретации действий человека, его намерений и поведения. Иначе говоря, к реализации тех возможностей, которые будут играть центральную роль в интеллектуальной среде следующего поколения. Многие действия и особенности поведения человека поддаются интерпретации только в том случае, если идентифицируются его личность и окружающие его люди. Примеры – распознавание постоянного покупателя магазина, наблюдение за поведением пациентов, интерфейсы командного управления на военных и промышленных объектах. В каждом из этих приложений информация о личности человека дает машине те базовые знания, без которых невозможна правильная интерпретация количественных показателей или результатов научных наблюдений, связанных с теми или иными действиями человека.

Распознавание лиц для интеллектуальных сред

Сегодня ведутся самые интенсивные исследования [1,2] в области создания интеллектуальных систем – визуальных, звуковых и осязательных интерфейсов в различных средах: жилая комната, автомобиль или офис. Ключевая задача этих приложений – оснастить машину средствами восприятия, которые сделают естественным общение компьютера с человеком. Машина сможет узнавать человека, будет помнить его пристрастия и свойства характера, понимать, на что он в данный момент смотрит, интерпретировать его слова, жесты и даже подсознательные намеки, например, изменения интонации или определенные телодвижения. Сейчас изучается возможность применения таких устройств в медицине, индустрии развлечений и для организации коллективной работы.

Средства распознавания выражений лиц взаимодействуют с другими элементами интеллектуальной среды. Интеллектуальная система должна знать, например, раздражен ли пользователь, потому что информация поступает слишком медленно или, наоборот, он приведен в замешательство тем, что она получена слишком быстро. Анализ выражения лица дает некоторые зацепки для определения различных состояний человека. Сегодня основные усилия разработчиков направлены на создание средств распознавания выражений, не зависящих от личности человека. В выражениях лиц разных людей, принадлежащих разным культурам, можно найти общие черты (если только это не самые страшные гримасы). Однако необходимо уметь анализировать нормальное, спокойное состояние человеческого лица, а оно для разных людей всегда разное. До сих пор исследования возможностей распознавания выражений человеческих лиц ограничивались распознаванием нескольких дискретных состояний, а не анализом всего спектра выражений вместе с их едва уловимыми оттенками. Для того чтобы система выполняла действительно эффективный анализ выражений, она должна научиться распознавать конкретного человека и уметь настраивать на него свои параметры.

Носимые системы распознавания

Если разместить компьютер, камеру, микрофон или другие сенсорные устройства на одежде человека, они станут воспринимать мир не с пассивной точки зрения, а как активные наблюдатели [3]. Носимые устройства адаптируются к конкретному пользователю, который начинает применять их гораздо активнее и более естественно. Носимые компьютеры – быстро развивающаяся область, и совсем недавно в рамках IEEE CS был образован самостоятельный технический комитет, который будет заниматься этой проблемой. Так что вскоре мы сможем наблюдать подъем интереса к такой почти неисследованной сфере, как интерпретация изображений носимым компьютером – изображений, видимых с точки зрения активного наблюдателя.

Распознавание лиц – такая же составная часть носимых систем, как вспомогательные средства памяти (memory aid) и контекстные системы (context-aware system). Поэтому в будущем многие средства распознавания будут интегрироваться в одежду и различные аксессуары. Представим себе, например, что вы носите очки со встроенной камерой. Тогда программная система распознавания лиц поможет вам вспомнить стоящего перед вами человека, просто тихонько подсказав вам его имя. В Американской армии испытывают такие устройства, предлагая их солдатам, проходящими службу в Боснии. Аналогичные исследования проводятся в Университете Центра здоровья будущего, где такие устройства намерены применять при лечении болезни Альцхаймера (http://wearebles.www.media.mit.edu/projects/ wearebles, http://www.futurehealht.rochester.edu).

Что ждет нас в будущем

Для того чтобы современная система распознавания лиц работала безупречно, необходимо выполнить несколько важных условий, например, расположить человека лицом к камере при соответствующем освещении. Существует множество самых разнообразных ситуаций, в которых все известные сегодня алгоритмы распознавания лиц перестают работать, а люди могут и должны узнавать друг друга. Следующее поколение систем распознавания должно научиться идентифицировать человека в реальном времени и в средах со значительно меньшим числом ограничений.

Полагаем, системы идентификации, способные нормально работать в естественной среде – в условиях помех и при изменяющемся освещении – не могут базироваться на использовании какой-то одной категории опознания личности – весьма важна возможность анализа по разным категориям. Технологии для интеллектуальной среды не должны быть навязчивыми и должны предоставлять пользователю свободу действий. Если говорить о носимых системах, то от их чувствительных элементов требуются малые размеры, низкое энергопотребление и способность легко закрепляться на одежде. Учитывая эти требования, имеются все основания предположить, что системы со средствами распознавания лиц и голоса имеют наибольший потенциал для широкого применения.

Современные камеры и микрофоны, очень маленькие и легкие, без труда интегрируются в носимые системы. Аудио- и видеосистемы распознавания имеют важное преимущество – они используют для опознания те же категории, что и человек. Наконец, результаты последних исследований показывают, что системы персональной идентификации, основанные на анализе аудио- и видеоинформации, способны обеспечить высокую степень распознавания без размещения пользователя в строго контролируемой обстановке [12].

Интеллектуальные среды призваны создать такие условия, в которых компьютеры и другие машины из неодушевленных предметов превращаются в ваших полезных помощников. Технологии распознавания лиц, значительно эволюционировавшей за последние 20 лет, принадлежит важная роль в достижении этой цели. Но для того чтобы будущие системы распознавания лиц могли широко применяться в интеллектуальных средах, их нужно научить взаимодействовать с пользователем, не создавая ему неудобств, и привести в соответствие людским представлениям о том, в каких условиях возможно опознание. Это означает, что будущие интеллектуальные среды должны использовать те же категории распознавания, что и люди, и иметь примерно те же самые ограничения. В этом направлении продолжатся самые серьезные исследования, но уже сейчас ясно, что поставленные цели вполне достижимы.

Об авторах

Танзим Чаудхари – аспирант Media Labs МТИ. В сферу его интересов входят распознавание лиц, многофакторная идентификация личности в реальном времени и анализ выражений лиц. С нм можно связаться по электронной почте по адресу tanzeem@media.mit.edu.

Алекс (Сэнди) Пентланд — глава лаборатории Media Laboratory Масачуссетского технологического института, профессор Toshiba и содиректор Центра здоровья будущего. Пентланд является одним из основателей IEEE Face and Gesture Recognition Conference и Технического комитета по носимым информационным устройствам IEEE Computer Society. С ним можно связаться по электронной почте по адресу: sandy@media.mit.edu

Литература

[1] M. Weiser, «The Computer for the 21st Century», Scientific American, Mar. 1991, pp. 66-76

[2] A. Pentland, «Smart Rooms, Smart Clothes», Scientific American, Apr. 1996, pp.68-76

[3] A. Pentland, «Wearable Intelligence», Scientific American, Apr. 1998, pp. 90-95

[4] T. Kohonen, Self-Organization and Associative Memory, Springer-Verlag, Berlin, 1989

[5] M. Kirby and L. Sirovich, «Application of the Karhunen-Loeve Procedure for Characterization of Human Faces», Trans. IEEE Pattern Analysis and Machine Intelligence, Jan. 1990, pp. 103-108

[6] M. Turk and A. Pentland, «Eigenfaces for Recognition», J. Cog. Neuroscience, Jan. 1991, pp. 71-86

[7] P. Phillips et al., «The Feret Database and Evaluation Procedure for face Recognition Algorithms», Image and Vision Computing, May 1998, pp. 295-306

[8] L. Wiskott et al., «Face Recognition by Elastic Bunch Graph Matching», Trans. IEEE Pattern Analysis and Machine Intelligence, July 1997, pp. 775-779

[9] K. Etemad and R. Chellapa, «Discriminant Analysis for Recognition of Human Face Images», J. Optical Soc. of America, pp. 1724-1733

[10] B. Moghaddam and A. Pentland, «Probabilistic Visualreconition for Object Recognition», Trans. IEEE Pattern Analysis and Machine Intelligence, July 1997, pp. 696-710

[11] P. Penev and J.A tick, «Local Feature Analysis: A General Statistical Theory for Object Representation», Network: Computation in Neural Systems, Mar.1996, pp.477-500

[12] T. Choudhury et al., «Multimodal Person Recognition Using Unconstrained Audio and Video», Proc. 2nd Conf. Audio- and Video-Based Biometric Person Authentication, Univ. of Maryland, College Park, Md., 1999, pp. 176-181