Система рапознавания лжи по мимике человека на основе видео

Лютый В.А., Секирин А.И.
Материалы студенческой секции X Международной научно-технической конференции Информатика, управляющие системы, математическое и компьютерное моделирование (ИУСМКМ–2019). – Донецк: ДОННТУ, 2019. – С.189 [Ссылка]
В статье приведено описание современных методов обработки видеоинформации для определения и распознавания факта лжи человека по его мимике. Произведен сравнительный анализ существующих методов, для решения поставленной задачи, а также выявлены основные проблемы, возникающие при обработке видеоданных для подобного рода задач.
распознавание лжи, методы обработки изображения, искусственный интеллект, классификатор, нейронные сети, эмоции, микро-выражения.

Введение

В повседневной жизни ложью называют намеренную передачу информации с целью вызвать в другом человеке убеждение, которое сам передающий считает не соответствующим истине. Ложными могут быть факты и сведения, ошибки в которых могут нанести ущерб разного рода областей деятельности людей. Истинность или ложность информации может быть неточной из-за недостатка данных. Ложь приобретает особое значение когда речь касается политики, судебной процессии, медицины, рабочего процесса и т.д.

Для проведения анализа мимики человека на оценку достоверности информации эксперты пользуются правилами и мимическими картами, полученных с помощью психофизиологических исследований в области психологии человека, что является недостатком применения его в разных сферах деятельности, т.к. специализирующих экспертов в данной области не так много.

Первым техническим конкурентом стал всем известный полиграф. Использование полиграфа имеет свою достаточно длительную историю. Родоначальником полиграфа являются США, где проблеме его применения уделялось значительное внимание на различных уровнях (федеральном, региональном) и различными инстанциями, вплоть до конгресса США, президента, Верховного суда США и др. Статистика результатов работы полиграфа поражает: фактическая оценка работы (95%) превышает заявленную теоретическую (80%). То есть лишь 5-7 человек из ста способны пройти полиграф так, что результат будет «непонятным» [1].

Однако при всех достоинствах использования полиграфа, у него есть ряд недостатков и самые значительные из них – дорогостоящее оборудование (порядка 200 тыс. рублей), невозможность использования без осведомления субъекта допроса, необходим сертифицированный эксперт для анализа показаний устройства. В конце можно сказать, что на ровне с развитием компьютерной техники, роста вычислительных мощностей и методов обучения искусственного интеллекта и полиграф нельзя назвать технологией XXI века.

Постановка задачи

Проблеме обнаружения и распознавания лжи и обмана по внешним признакам с помощью обработки видеоряда посвящено множество работ, однако в целом онаещё далека от разрешения. Основные трудности заключаются в том, чтобы можно было распознать объект исследования (человек) независимо от его внешних особенностей (пол, национальность, возраст, физические и врожденные повреждения и т.д.), ракурс и условия освещённости при съёмке, а также при различных изменениях, связанных с причёской, одеждой, татуировками и т.д [2].

Распознавание признаков обмана по выражению лица является сложным психофизиологическим процессом и является крайне сложным для понимания необученного человека в этой области. Однако даже сертифицированные эксперты в области анализа физиогномики не всегда может правильно распознать признаки обмана и это может занимать достаточно большое количество времени, а это означает, что для систем автоматического распознавания данная задача является куда сложнее.

Цель исследования — провести анализ существующих математических подходов для распознавания и классификации лжи по мимике человека на видеокадрах.

Обобщенный алгоритм системы

Основной алгоритм автоматического распознавания лиц и мимики на изображениях видеопоследовательности состоит из следующих этапов:

  1. Регистрация изображения.
  2. Первичная обработка изображения с целью повышения эффективности работы алгоритмов распознавания.
  3. Выделение лица на изображении.
  4. Выделение частей лица.
  5. Выделение ключевых точек на лице.
  6. Отслеживание изменения контрольных точек с объектом на последовательности кадрах.
  7. Классифицировать с помощью признаков полученные данные трекинга на предмет лжи.

Обработка изображения

Первичная или предварительная обработка изображения включает в себя удаление шумов, геометрические и цветовые преобразования. Источниками шума могут быть конструктивные недостатки средств регистрации изображений, плохое освещение сцены, механические воздействия на оборудование, положение объектов интереса, помехи в каналах передачи информации и др. Для удаления шумов можно применить усредняющие фильтры или фильтры, основанные на порядковых статистиках. К усредняющим фильтрам относятся, например, фильтры, основанные на вычислении среднего арифметического, среднего геометрического, среднего гармонического, среднего контргармонического. К фильтрам, основанным на порядковых статистиках, относятся, например, медианный фильтр, фильтр максимума, фильтр минимума.

Обнаружение и распознавание объектов в кадре

В первую очередь после получения очередного кадра, требуется выделить на нем объекты, представляющие интерес, а именно фигуры людей, и затем уточнить тип найденного объекта

Для решения данной задачи существует множество различных подходов, а именно сегментация, детектирование признаков, категориальное распознавание и т.д., для дальнейшего анализа были выделены следующие группы методов: методы с применением сегментации, методы с сопоставлением с шаблоном и методы с извлечением признаков объектов.

Сегментация по цветовой составляющей

Методы поиска лиц одни по их близости к цветовому спектру человеческой кожи самые распространенные методы, так как они просты в реализации и отличаются низкими затратами на вычисления. Разные методы, из данной категории, используют разные цветовые системы, поэтому итоговый результат может меняться, относительно используемой системы. Основные цветовые системе в которых часто используют поиск лиц это RGB и TSL.

Но также встречаются методы с применением хроматических компонент цвета, которые показывают вполне не плохие результаты по обнаружению кожного покрова на изображении. При статистических сборах информации видно, в хроматических компонентах цвета (YCbCr) кожи разных людей, разных национальностей находится в двух областях, которые можно использовать как классификатор [4].

Главным недостатком методов этой группы является вычисление порога яркости и есть всегда есть большая вероятность, что он не идеальный.

Поиска объекта по шаблону

Данная группа методов работает по следующему принципу: требуется два компонента — исходное изображение и изображение-шаблон. Чтобы определить сходный участок, необходимо наложить шаблон на снимок и попиксельно двигать его, слева направо, сверху вниз. В каждом положении вычисляется метрика, которая показывает, совпадают картинки или нет. Для каждого положения шаблона метрика заносится в результирующую матрицу R. Каждое положение (x,y) в R содержит метрику совпадений.

После окончания сравнения лучшие совпадения находятся в глобальных минимумах (при использовании метода наименьших квадратов) или максимумах (при использовании метода корреляции или метода кросс-корреляции) [4].

Поиск объектов по шаблону хорошо применяема при анализе сцен, в которых камера статична, а все экземпляр искомых объектов выглядят одинаково. На практике данные методы накладывают серьезные ограничения на ракурс съемки и на изменчивость объектов. Можно находить объекты конкретного типа, но не классы.

Категориальное распознавание объектов

Чтобы избежать вышеописанных проблем, современные системы распознавания объектов пользуются альтернативным подходом, а именно поиском фигур людей с помощью обученного классификатора. Использование классификатора подразумевает выделение некоторых характерных признаков на изображении, машинное обучение классификатора на наборе позитивных и негативных образцов, на которых заведомо присутствуют или отсутствуют объекты искомого класса, и применение классификатора к очередному изображению с целью поиска объектов на нем [2].

Среди наиболее популярных методов данной группы можно выделить следующие: метод гибкого сравнения на графах, метод главных компонент, сверточные нейросети [3].

Сравнительная характеристика алгоритмов, принадлежащих каждому из описанных выше подходов представлена в таблице .

СвойствоАлгоритм Метода главных компонент Сверточная нейронная сеть Метод гибкого сравнения на графах
Устойчивость к положению лица + + +
Устойчивость к положению лица + +
Может использоваться для идентификации + +
Добавление нового лица без переобучения + +
Быстрое распознавание + +

Анализ динамического изменения мимики лица в кадре

Следующим шагом является нахождение ключевых точек выделенных элементов лица. Рассмотрим существующие методы трекинга объектов.

  1. Отслеживание точек может быть сформулировано как зависимость обнаруженных объектов, представленная точками во всех кадрах. Соответствие объектов в методах отслеживания точек обычно определяется с помощью комбинации ограничений:
    • близость местоположения объекта от одного кадра к другому;
    • максимальная скорость, ограничивающая окрестность вокруг объекта;
    • плавность движения, значащая что направление и скорость объекта не меняются кардинально;
    • общее движение, предполагающее что скорость объектов в малой окрестности должна быть одинаковой;
    • жесткость, обозначающая что расстояние между любыми двумя точками на объекте останутся без изменений.
  2. Представление объектов на основе простых геометрических форм вычисляемое движение неявно определяет область объекта, его ориентацию в следующем кадре, расположение объекта определяется с помощью оценочной модели движения объекта. На основе представления внешнего вида объекта эти методы можно разделить на две подкатегории, использующие шаблон вида объекта и использующие несколько видов объекта.
  3. Отслеживание силуэта используется, когда требуется трекинг объектов сложной формы. Методы отслеживания контура можно разделить на две категории, а именно соответствия формы и эволюция контура. Методы соответствия формы похожи на методы шаблона вида объекта. Поиск выполняется путем вычисления схожести объекта с генерированной моделью из предполагаемых силуэтов, основанных на предыдущем кадре.

Методы эволюции контура последовательно развивают начальный контур в новую позицию в текущем кадре с помощью моделей пространства состояний или прямой минимизации функции энергии.

Сравнительная характеристика методов отслеживания представлена в таблице 2.

Метод Достоинства Недостатки
Отслеживание точек Подходят как для отслеживания очень маленьких объектов, так и для больших, для описания которых необходимо множество точек В контексте отслеживания объектов с использованием нескольких точек важной проблемой является кластеризация точек, необходимая для отличия между несколькими объектами и между объектами и фоном.
Примитивные геометрические фигуры Простота использования, низкая вычислительная стоимость, подходят для применения в реальном времени. Части объектов могут быть оставлены за пределами определенной формы, в то время как часть фона может находится внутри него.
Отслеживание силуэта Гибкость при работе с большим разнообразием форм объектов. Не позволяют отслеживать изменения топологии, а именно раскол региона или слияния.

Анализ методов отслеживания объектов показал, что в настоящее время остро стоит проблема обеспечения непрерывного трекинга. Важным фактором, влияющим на эффективность применения метода, является выбранный способ описания объекта.

Определить мимический признак можно на основе анализа нескольких ключевых точек. Например, на рис. 1 показаны комбинации точек бровей и рта (рис. 1, а – изображения бровей и рта; рис. 1, б – комбинация ключевых точек бровей и рта, соответствующая их изображениям; рис. 1, в – комбинация ключевых точек, соответствующая другим положениям рассматриваемых элементов на изображениях)[6].

Ключевые точки элементов лица
Ключевые точки элементов лица

Выделение ключевых точек осуществляется следующим образом:

  1. преобразование цветного изображения к полутоновому виду;
  2. преобразование из полутоновой формы к бинарному виду;
  3. применение к бинарному изображению градиентной маски;
  4. локализация ключевых точек. Переход от цветного изображения к полутоновому выполняется на этапе выделения лица.

Для получения бинарного изображения используется адаптивный порог. Применение градиентной маски к бинарному изображению позволяет получить контурное представление анализируемого элемента. Локализация ключевых точек заключается в определении заданного количества точек, лежащих на контуре элемента. Процесс выделения ключевых точек проиллюстрирован на рис. 2 (a – полутоновое изображение, б – бинарное изображение, в – применение градиентной маски, г – локализация ключевых точек) [6].

Выделение ключевых точек
Выделение ключевых точек лица

После выделения ключевых точек можно выполнить классификацию признаков лжи по известным правилам физиогномики [7]: Lip biting, Micro-expressions, Frequent swallowing, Sips of the tongue, Joint/merged expressions, Asymmetry in the face, Duration of the expression, Dilated pupils, Fewer facial movements, Blink rate.

Заключение

В статье исследуется процесс анализа мимики человека на предмет выявления в ней признаков лжи и обмана. Проведен сравнительный анализ существующих категорий методов решения поставленной задачи, выявлены достоинства и недостатки. Определены направления в решении подзадачи распознавания и классификации. В процессе исследования предметной области были выявлены существенные проблемы, которые могут возникнуть при обработке потока видеоданных, а именно сложность распознавания человека из-за индивидуальных особенностей внешности, изменения положения тела и лица на видеопотоке

Литература

  1. Culjak I., Abram D., Pribanic T., Dzapo H., Cifrek M. A brief introduction // 2012 Proceedings of the 35th International Convention MIPRO. Opatija, Croatia. 2012. P. 1725-1730.
  2. Kalman R.E. A new approach to linear filtering and prediction problems // Journal of Basic Engineering, Vol. 82(1), 1960. P. 35-45.
  3. Cristianini N., Shawe-Taylor J. An Introduction to Support Vector Machines and Other Kernel based Learning Methods. New York: Cambridge University Press, 2000.
  4. Dalal N., Triggs B. Histograms of oriented gradients for human detection // Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2005. Vol. 1. P. 886-893.
  5. Amos B., Ludwiczuk B., Satyanarayanan M. Openface: A general-purpose face recognition library with mobile applications, CMU School of Computer Science, Pittsburgh, Pennsylvania, United States, CMU-CS-16-118, 2016.
  6. Viola P., Jones M. Rapid Object Detection using a Boosted Cascade of Simple Features // Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Kaiai, Hawaii, USA. 2001. Vol. 1. P. 511-518.
  7. Bay H., Ess A., Tuytelaars T., Van Gool L. Speeded-Up Robust Features (SURF) // Computer Vision and Image Understanding. June 2008. Vol. 110(3). P. 346-359.