Моделювання та аналіз мімічних проявів емоцій на обличчі людини
Зміст
- Вступ
- 1. Постановка задачі
- 1.1 Актуальність теми
- 1.2 Мета і завдання дослідження, плановані результати
- 1.3 Передбачувана наукова новизна і практична значущість
- 2. ОГЛЯД ДОСЛІДЖЕНЬ І РОЗРОБОК
- 2.1 Огляд міжнародних джерел
- 2.2 Огляд національних джерел
- 3. ОПИС ВИКОРИСТОВУЮТЬСЯ МЕТОДІВ І АЛГОРИТМІВ
- 3.1 Опис етапу отримання контурів основних частин обличчя
- Висновок
- Перелік посилань
Вступ h2>
Особа є своєрідним дзеркалом, в якому, в більшій чи меншій мірі, відображається динаміка актуальних переживань людини. Завдяки цьому особа виконує сигнальну і регулятивну функції, виступаючи як один з каналів невербальної комунікації.
В останні роки невербальне, мімічне поведінку людини стало предметом інтенсивних досліджень. Проведені дослідження дозволили запропонувати своєрідні «формули» деяких мімічних виразів, тим самим був зроблений не тільки важливий крок на шляху суворого експериментального дослідження відображення експресії, а й була поставлена проблема диференційованості сприйняття міміки обличчя.
Недостатня розробленість питання про диференційований сприйнятті міміки обличчя досить різко контрастує з практичними потребами (криміналістика, віртуальна реальність, подібний комп'ютер і т.д.), і ініціювала проведення цих досліджень.
В роботі [1] авторами була запропонована формальна психологічна модель емоцій. Також, в цій роботі запропоновано використовувати NURBS-криві для подання контурів основних частин обличчя. З огляду на, що немає необхідності в кратності керуючих вершин для даного завдання, NURBS-криві можна спростити до B-сплайн кривих. Спираючись на результати дослідження, отримані в роботі [1], можна створити систему для відновлення фрагментів особи на основі інформації, отримано з його мімічних зображень.
1. Постановка задачі h2>
1.1 Актуальність теми
Методи і алгоритми аналізу та синтезу емоційного стану особи людини є складовою частиною систем і засобів штучного інтелекту, спрямованих на дослідження, створення та впровадження алгоритмічних і програмно-апаратних систем і комплексів з елементами штучного інтелекту на основі моделювання інтелектуальної діяльності людини. Моделювання та розпізнавання емоцій, як одного з каналів невербальної сигнальної і регулятивної комунікації, відтворює динаміку актуальних переживань людини, є актуальним і важливим напрямком досліджень з метою створення систем комп'ютерного розпізнавання і синтезу зорових образів. Невербальна мімічна передача інформації людиною стала предметом інтенсивних досліджень. Проведені дослідження дозволили виділити деякі підходи до формалізації емоцій: моделі емоцій в психології, еволюційна теорія емоцій Дарвіна, «асоціативна» теорія Вундта, «периферична» теорія Джемса-Ланге, теорія Кеннона-Барда, психоаналітична теорія емоцій, судинна теорія вираження емоцій Уейнбаума і її модифікація, біологічна теорія емоцій Анохіна, фрустрационное теорії емоцій, когнітівістского теорії емоцій, інформаційна теорія емоцій Симонова, теорія диференціальних емоцій Изарда, система кодування зі тояній особи або FACS система, запропонована Екманом і інші. В результаті був зроблений важливий крок на шляху суворого експериментального дослідження відображення експресії і поставлена проблема диференційованості сприйняття міміки обличчя.
Засоби аналізу і синтезу людського обличчя, емоцій на ньому, досліджуються і розробляються в провідних наукових організаціях світу, зокрема, в Массачусетському технологічному інституті, Оксфордському, Кембриджському, Стенфордському, Московському, Санкт-Петербурзькому університетах тощо. В Україні дослідженням таких проблем займаються в інституті кібернетики імені Глушкова, Міжнародному науково-навчальному центрі інформаційних технологій та систем, Київському національному університеті імені Тараса Шевченка та в інших установах.
В даній магістерській дисертації формальна модель емоцій, запропонована психологами, використовувалася для розпізнавання емоцій на обличчі людини і моделювання контурів особи з нейтральною мімікою. Результати цього дослідження можуть бути використані для моделювання інтелектуальної діяльності людини, для застосування в системах штучного інтелекту.
1.2 Мета і завдання дослідження, плановані результати
Метою даної магістерської дисертації є дослідження і розробка методів, алгоритмів і програмного забезпечення для відновлення фрагментів особи за її міміці. Для досягнення поставленої мети були сформульовані наступні завдання:
- проаналізувати проведені національні та зарубіжні дослідження, в яких розглядається задача розпізнавання та моделювання міміки на обличчі людини;
- розглянути підходи формалізації емоцій, проаналізувати їх мімічне прояв на обличчі людини;
- розробити методи і алгоритми для автоматичного знаходження контурів основних частин обличчя, визначення емоції на зображенні, перетворення В-сплайн кривих до контурів особи з нейтральною мімікою;
- на підставі розроблених методів і алгоритмів розробити програмне забезпечення для відновлення фрагментів особи за її міміці.
Предмет дослідження: методи, алгоритми та програмне забезпечення для аналізу і подальшого синтезу мімічних проявів емоцій на фотографічному зображенні обличчя людини.
Об'єкт дослідження: фотографічне зображення обличчя людини з різними мімічними проявами емоцій.
1.3 Передбачувана наукова новизна і практична значущість
Науковою новизною даної роботи є розробка мультимедійної технології та засоби штучного інтелекту для аналізу і синтезу мімічних проявів емоцій, а також створення програмного продукту для відновлення особи по мімічним зображень.
Розроблений в даній магістерській дисертації програмний продукт може знайти застосування в державних і приватних охоронних структурах, правоохоронних органах, наприклад, для відстеження людей, які перебувають в гніві або в агресивному стані з метою запобігання злочинам. Можливе використання розробленого засоби штучного інтелекту для підвищення ефективності систем ідентифікації особистостей, за рахунок переходу до зображення з нейтральною мімікою, яке простіше порівнювати з базою еталонів. Також можливе використання програмного продукту в якості засобу спостереження за роботою операторів диспетчерських систем. Крім того, можливо використання програмного продукту для моделювання емоцій на 3D моделях людського обличчя.
2. ОГЛЯД ДОСЛІДЖЕНЬ І РОЗРОБОК
2.1 Огляд міжнародних джерел
Більшість зарубіжних методів аналізу мімічних проявів особи засновані на використанні FACS. Після отримання FACS-безлічі використовується набір правил і словник емоцій для аналізу емоційного виразу обличчя.
Але для аналізу і моделювання міміки необхідно розібратися в механізмі її створення. М'язи обличчя - основний механізм, який визначає міміку. Вираз обличчя визначається одинадцятьма головними м'язами. Насправді особа формують більше двадцяти м'язів. Однак багато хто з них виконують тільки роль м'язової опори і не виявляють прямого впливу на вираз обличчя. До головних м'язам особи відносять:
- жувальний м'яз;
- м'яз, яка піднімає верхню губу;
- велика вилична м'яз;
- м'яз, що опускає куточок рота;
- м'яз, що опускає нижню губу;
- м'яз підборіддя;
- круговий м'яз рота;
- м'яз, яка морщить брови;
- круговий м'яз ока;
- лобовий м'яз;
- м'яз сміху (підшкірний м'яз шиї).
В [10] автор, вивчивши анатомію людської особи, визначив які саме м'язи і яким чином беруть участь в певних експресивних змінах особи. Щоб змоделювати емоційне вираз обличчя, необхідно спочатку визначити більш детально їх залежність від руху м'язів обличчя. В [2, 3] описана система для опису всіх візуально помітних рухів на обличчі. Система, яка називається Facial Action Coding System або FACS, базується на перерахунку всіх «одиниць рухів» (action units) особи, які викликають мімічні рухи. Деякі м'язи викликають більше ніж одну одиницю руху, тому відповідність між одиницями руху і рухом м'язів приблизне.
В FACS є 46 одиниць руху, які реєструють зміни у виразі обличчя і 12 одиниць, які описують зміни в орієнтації голови і погляду. FACS-кодування виповнюється людьми, які навчені класифікувати вираз обличчя, базуючись на анатомії руху особи, тобто навчені визначати, як м'язи окремо і в комбінації змінюють міміку обличчя. FACS-кодування розділяє на секції виразу обличчя, розкладаючи його в певні одиниці руху, які і привели до міміки. Визначення одиниць руху в FACS є описовим і незалежним від емоцій, які відтворюються на обличчі.
2.2 Огляд національних джерел
Варто звернути увагу на дослідження, проведені в країнах СНД, зокрема Росії та Україні. Засобам аналізу і синтезу людського обличчя і емоцій на ньому присвячено багато наукових робіт та дисертаційних досліджень, серед яких роботи Ю. Кривоноса, Ю. Крака, О. Бармака, В. Леонтьєва, Т. Лугуева та інших.
На основі класифікації емоцій [4], в роботі [1] була запропонована формальна психологічна модель емоцій. В роботі [5], ця модель була розширена для моделювання та розпізнавання мімічних проявів емоційних станів людини. P>
Для формалізації емоцій, щоб уникнути двозначності при їх феноменологическом описі, пропонується перейти до вивчення ситуацій, в яких виникають ці емоції [4]. Тобто, при визначенні емоцій в найбільш загальному вигляді описується ситуація, в якій вони виникають.
Автором пропонується подання базових емоцій у вигляді трьох бінарних ознак:
- ознака ξ1 вказує на знак емоції (позитивна 1 або негативна 0);
- ознака ξ2 вказує на час виникнення емоції щодо події (ПРЕДСКАЗ 0 або констатуюча 1);
- ознака ξ3 вказує на спрямованість емоції (спрямована на себе 1 або на зовнішні об'єкти 0).
У запропонованій моделі [6], базис простору мімічних ознак емоційних станів будується на основі досвіду експериментатора, вимагає певної кваліфікації і, відповідно, дає неоднозначні результати, так як констатація одного і того ж м'язового прояви у різних людей відрізняється.
Для того щоб перейти від феноменологічного визначення характеристичних мімічних ознак до певної їх формалізації в [1] запропоновано використовувати NURBS-криві [7]. У такому вигляді зберігалися і оброблялися брови, повіки і губи. На рисунку 2.1 представлені вісім базових емоцій для конкретної людини. На рисунку 2.2 представлений приклад NURBS-кривої для правої брови при емоції радість. Виходячи з того, що опорні точки NURBS-кривих однозначно визначають саму криву, в розгляд бралися лише вектори опорних точок. Таке уявлення значно спрощує обробку. На рисунку 2.3 зображені вісім базових емоцій для конкретної людини з накладеними NURBS-кривими.
Отримавши координати всіх необхідних опорних точок для всіх восьми базових емоцій конкретної людини можна автоматично визначити його довільне емоційний стан за допомогою запропонованої математичної моделі в [1, 6]. Наприклад, для емоційного стану вина, були отримані такі коефіцієнти комбінації базових станів: α1 = α3 = α4 = α6 = α7 = α8 = 0, α2 = 0.7, α5 = 0.3, де αi - відповідають наступним базовим емоціям: радість, горе, надія , страх, задоволення, гнів, інтерес, презирство. Згідно [4], стан, який складається з комбінації задоволення (α5 = 0.3) і горя (α2 = 0.7), відповідає емоції вина.
3. ОПИС ВИКОРИСТОВУЮТЬСЯ МЕТОДІВ І АЛГОРИТМІВ
Завдання розпізнавання і моделювання емоцій на обличчі складний процес, що включає в себе ряд підзадач [8, 9]. При вирішенні задачі відновлення фрагментів особи за її міміці можна виділити чотири основні етапи: знаходження контурів основних частин обличчя, приведення цих контурів до виду B-сплайн кривих, визначення емоції на обличчі, приведення контурів частин особи до нейтрального стану. На рисунку 3.1 можна побачити послідовність дій для вирішення даної задачі на високому рівні. Нижче буде детально розглянуто кожен етап рішення задачі.
3.1 Опис етапу отримання контурів основних частин обличчя
Так як положення голови на знімках рідко буває постійним, на самому початку вхідне зображення необхідно нормалізувати. Нормалізація дає можливість перейти до однієї системи координат з однаковим кроком розмірної сітки для всього набору фотографій. Зазвичай процес нормалізації проводиться на підставі центрів зіниць, а відстань між ними служить в якості одиниці вимірювання. Для знаходження координат центрів зіниць існує не мало методів. Однак більшість з них націлені на пошук краю зіниці, а завдання знаходження центру є другорядною. Завдання знаходження краю зіниці є одним з проміжних кроків в завданню ідентифікації людини за райдужною оболонкою. Але в задачі розпізнавання і моделюванні емоцій, немає необхідності знаходити край зіниці, достатньо лише його центру. Тому був розроблений метод знаходження саме центру зіниці, що злегка полегшує обчислювальну складність завдання.
Маючи координати центрів, можна визначити нахил голови щодо лінії горизонту, а також приблизне уявлення про становище особи людини на зображенні. На підставі різниці координат центрів зіниць по осі ординат, вираховується кут повороту голови, після чого зображення повертається на обчислене значення. Виконання цього повороту дозволяє уникнути помилок в подальшій локалізації частин обличчя.
Також, відстань між зіницями використовується для масштабування вихідного зображення. На основі цієї відстані виконується локалізація основних частин обличчя на зображенні, що дозволяє знизити трудомісткість пошуку їх контурів. Локалізація виконується виходячи з апріорних знань про приблизний будові особи людини. Для знаходження центрів зіниць був розроблений алгоритм, основні кроки якого можна побачити на рисунку 3.2.
Після того як були отримані точки центрів зіниць, можна приступити до пошуку контурів основних частин обличчя, а це повіки, брови і рот (рисунок 3.3).
Контури століття знаходяться окремо для кожного ока. Причому спочатку знаходяться контури верхньої повіки, а потім нижнього. Спочатку вихідна область згладжується гауссовским і медіанного фільтрами, що дозволить позбутися від шуму і частково вій. Контур верхньої повіки отримаємо, використовуючи диференційний оператор Собеля. Нижню ж кордон складно отримати, грунтуючись на аналізі країв зображення, тому ця межа була аппроксимирована двома прямими. Спочатку необхідно знайти точку краю центру століття, для чого також використовувався оператор Собеля. Потім з'єднавши крайню ліву і крайню праву точку верхньої повіки з отриманим центром нижньої повіки, можна отримати досить точне наближення нижньої повіки.
Контури брів також знаходимо окремо. Попередньо застосовуємо гауссовский і медіанний фільтра, так як структура брови часто неоднорідна. Для отримання контурів брови скористаємося оператором Собеля. Але контур брови досить масивний і надлишковий, тому його потрібно скелетізіровать (привести в вид лінії шириною в 1 піксель). Будемо вважати центр між верхньою і нижньою межею лінією брови.
Контур рота недостатньо виразний, тому методи на основі аналізу краю не застосовні для цього завдання. Для знаходження рота використовувався підхід на основі колірної сегментації. У колірному просторі RGB складно домогтися чіткого поділу зображення на класи губа / НЕ губа. Тому після застосування гауссовского і медіанного фільтрів необхідно перейти до колірного простору R / G, попередньо нормалізувати канали R і G. В отриманому колірному просторі набагато простіше знайти губи. Для цього застосовується порогова сегментація.
Висновок
Запропонована математична модель і цілісна інформаційна технологія для автоматичного визначення довільного емоційного стану конкретної людини як опуклою комбінації деяких базових станів. Для цього за допомогою математичної моделі і оригінального програмного забезпечення створюється базовий простір емоційних станів конкретної людини. Надалі довільний емоційний прояв цієї людини розкладається як опукла комбінація емоційних станів в цьому просторі. Для побудови базису простору емоційних станів використовуються гнучкі шаблони контурів основних зон особи. Гнучкі шаблони описуються за допомогою NURBS-кривих. Налаштування шаблону на точковий контур конкретного зображення проходить за допомогою B-сплайн апроксимації, шляхом вирішення перевизначені неоднорідної системи лінійних рівнянь. Запропонована технологія має практичну цінність в системах візуального контролю за операторами складних виробництв (атомна енергетика і т.п.) для автоматичного контролю за їх емоційним станом.
Перелік посилань
- Кривонос Ю.Г. Моделирование и анализ мимических проявлений эмоций / Ю.Г. Кривонос, Ю.В. Крак, А.В. Бармак // Доклады НАНУ, 2011. - №12. - С. 51-55.
- Ekman P. Learning to Make Facial Expressions / P. Ekman, W.V. Friesesen. – Part II. – Palo Alto, 2009. Режим доступа: http://mplab.ucsd.edu/wp-content/uploads/wu_icdl20091.pdf
- Ekman P., Facial Action Coding System. / P. Ekman, W.V. Friesesen. – Part II. – Palo Alto, 2006. Режим доступа: https://pdfs.semanticscholar.org/99bf/8ac8c131291d771923d861b188510194615e.pdf
- Леонтьев В.О. Классификация эмоций / В.О. Леонтьев. – Одесса : ИИЦ, 2006. – 84 с.
- Ефимов А.Н. Моделирование и распознавание мимических проявлений эмоций на лице человека / Г.М. Ефимов // Искусственный интеллект, 2009. - C. 532-542.
- Крак Ю.В. Синтез мимических выражений эмоций на основе формальной модели / Ю.В. Крак, А.В. Бармак, М. Ефимов // Искусственный интеллект, 2007. - №2 - C. 22-31.
- Piegl L. The NURBS Book / Les Piegl, Wayne Tiller. – [2nd Edition]. – Berlin : Springer-Verlag, 1996. – 646 p.
- Ekman P. Cross–cultural studies of facial expression / P. Ekman, W.V. Friesesen // Darwin and facial expression: A century of research in review. – N.Y : Academic, 2010. – P. 196-222.
- Ekman P. Measuring facial movement / P. Ekman, W. Friesen // Environmental Psychology and nonverbal Behavior, 1976. – Р. 56-75. Режим доступа: https://link.springer.com/article/10.1007/BF01115465
- Изард К. Эмоции человека / К. Изард. – М. : Изд–во МГУ, 2010. – 439 с.
- L. Olsson / “From unknown sensors and actuators to actions grounded in sensorimotor perceptions” / L. Olsson, C. Nehaniv, and D. Polani – Connection Science, vol. 18, no. 2, pp. 121–144, 2006.