В современном мире автоматизированные системы анализа видеопотока, включающие отслеживание поведения людей, применяются в различных областях: обеспечение безопасности анализируя траектории перемещения людей [1], вспомогательная помощь при проведении оперативно-розыскных мероприятий [2], психологическое и медицинское диагностирование [3].
Одной из основных задач автоматизированного видеоанализа в данных системах является классификация поведения людей на нормальное
и аномальное
.
Как правило аномальное поведение
субъекта понимается как алгоритм действий, который не соответствует нормальной
модели поведения людей в рассматриваемой ситуации, или же которая не представлена достаточным количеством примеров в обученной базе данных [4].
С позиции общей психологии и физиологии эмоциональное состояние и уровень напряженности субъекта можно рассматривать - как показатели психического, физиологического и функционального состояния человека [14].
С точки зрения невербальной психологии - как состояния, которые отражает мимика лица и прочие аспекты невербального поведения человека.
Существует достаточно много вариантов классификации эмоциональных состояний и критериев дискретизации эмоций между собой. Несмотря на это, ни одна из классификаций не может полноценно интерпретировать все состояния случайно выбранного человека, и в этом смысле задача автоматического определения эмоций является плохо
определенной.
Преимущество классификации Пола Экмана заключается в высокой корреляции результатов среди исследуемого набора людей по параметрам пол, национальность и возраст, и в рамках таких критериев данная классификация определяется как универсальная
. Классификация представляет собой шесть эмоций, такие как счастье, печаль, гнев, страх, удивление и отвращение (англ. happiness, sadness, anger, fear, surprise, disgust)
В итоге, получив оценку уровня напряженности и эмоционального состояния человека в определенный момент времени, а также определив модель типичного поведения и решающие правила, можно сделать вывод, является ли поведение человека аномальным.
Таким образом, целью работы является разработка алгоритма обнаружения аномального поведения человека, а также анализ методов распознавания эмоций и определение степени напряженности человека.
На основании проведенного анализа различных источников описывающих распознавание объектов в видеопотоке [5, 6], а также выявление атипичного поведения субъекта [4,7-9] и работ по способам контекстного описания видео [10,11] был составлен алгоритм обнаружения аномального поведения субъекта:
Модель поведения исследуемых объектов может быть:
Исходя из описанного в источнике [5] принятие решения может осуществляться с помощью экспертных продукционных правил, а так же путем вычисления расстояний между векторами [13] (Кульбака - Лейблера Евклида, Махаланобиса).
Описанный выше алгоритм отражает трудоемкость решения проблемы автоматического обнаружения аномального поведения на основе полученного видеоряда. Однако для частных случаев задачи, таких как распознавание аномальной траектории движения объектов и аномальных событий [4,5], выявления аномального движения на основе информации, заложенной в видео компрессии [7], распознавание аномальных жестов и походки [8] уже существуют некоторые методы решения (реализации).
Задача распознавания аномального эмоционального состояния
и уровня напряженности
является актуальной и требует нахождения комплексного решения.
Одним из направлений исследования в сфере распознавания образов является анализ выражения лица. В основном сложности возникают на этапе получения точных признаков и выражений лица. Все дело в том, что разница в изменении положения характерных точек между различными выражениями лица может быть незначительной, к примеру: открытый рот не обязательно будет обозначать удивление, это может быть плач или смех. Проанализированные далее методы, как правило, развились из методов распознавания лица, но могут применяться и для распознавания эмоций.
Во-первых, существующие методы распознавания используют три основных признака для распознавания - это уровень серого, частоты и движение. Различные эмоции имеют разные уровни серого на цифровом изображении лица пользователя, из-за изменения рельефа лица. Однако для нормализации входного изображения перед началом анализа необходимо осуществлять предварительную обработку изображения. Характерный признак: движение, использует информацию об изменении положения определённых точек на лице. Характерный признак: частоты, использует разницу между различными цифровыми изображениями лица в частотной области.
С другой стороны, методы распознавания можно разделить на три области [17-24] (таблица 1): холистические (целостные) и локальные распознавания, экстрагирования деформации и движении (методы, вычисляющие динамику объектов), геометрические характеристики и характеристика внешности (методы вычисляющие форму объектов).
Так методы целостных распознаваний анализируют эмоции человеческого лица в целом, чтобы затем можно было найти разницу мещду разными изображениями: Principal Component Analysis (PCA), Independent Component Analysis (ICA), Fisher’s Linear Discriminants (FLD), Local Feature Analysis (LFA), Fisher Actions, Hidden Markov Models, и кластерный анализ.
В свою очередь методы локальных распознаваний анализируют отдельные части лица: глаза, брови и рот. Типичные методы: Facial Actions Code System (FACS), Local PCA, Вейвлеты и Нейронные сети.
В основе методов экстрагирования деформации и движений лежит изменения формы органов на лице, когда меняются различные выражения: Active Shape Model (ASM), Point Distribution Model (PDM).
Методы, основанные на геометрических характеристиках, полагаются на форму и положение различных частей лица человека, чтобы извлечь характерные векторы, которые представляют геометрические характеристики лица.
Холистические методы | Локальные методы | |
---|---|---|
Методы, вычисляющие форму | Классификаторы: ANN [17], SVM [21,22], Random forrest [20], LVQ [20], Adaboosl [19] Вейвлеты и фильтры Габора [20] Преобразовали е Xaфa [20] 2D Модели лица: AAM [20], ASM [19], EBGM [20] | Классификаторы: ANN [18], SVM [20], GA [18], Классификатор Байеса [20], Adaboost [20] Геометрически е модели лица [17] Собственные вектора: PCA [20], LDA [14] Локальные гистограммы: HoG [13], LBP [19,24] |
Методы, вычисляющие динамику | Оптический поток [20] Динамические модели [17] | 3D динамические модели [17] Статистически е модели: HMM [20], DBN [20] |
Описание аббревиатур, используемых в таблице 1 представлено ниже:
Сейчас для автоматического распознавания эмоций в основном применяют комплексные подходы, общий принцип которых приведен на рисунке 1 и включает в себя следующие общие:
В таблице 2 представлены краткие сведения о некоторых подходах, реализующих данный принцип и показавших наиболее точные результаты.
Извлечение особенностей | Классификатор | Точность | Эмоции | Авторы |
---|---|---|---|---|
ASM + Мимические признаки | ANN | 77-93% | Экман | Кашапович и др. [17] |
PCA + Фильтр Габора | SVM | 71-90% | Экман + нейтральная эмоция + уровни напряженности | N. Agraw cal et al. [20] |
Оптический поток | SVM | 74-90% | Экман | K. Andero on eti ale. [20] |
Преобразование Хафа | Random Forest | 60-100% | Экман | G. Fanelli et al. [20] |
Для проведения дальнейших исследований предлагается использование метода ASM + Мимические признаки + ANN
. В этом методе на третьем шаге производится вычисление мимических признаков на основе ключевых точек лица. Данный метод позволяет классифицировать не только эмоции, но и также уровни напряженности.
Недостатки метода ASM + Мимические признаки + ANN
:
Достоинства метода ASM + Мимические признаки + ANN
:
В статье представлен краткий обзор современных методов автоматизированного распознавания эмоционального состояния человека, выбран наиболее подходящий комбинированный метод, выделены общие принципы построения системы и предложен комплексный алгоритм решения задачи.
Предложенное решение основано на распознавании аномального поведения человека по его текущему эмоциональному состоянию и уровню напряженности.
В последующих работах планируется описание реализации, изложение и анализ результатов работы системы основанной на методе вычисления мимических признаков и их классификации с помощью перцептронной нейронной сети и наличием блока принятия решений.