А.А. Суханов, О.И. Федяев - ОЦЕНКА КАЧЕСТВА РАСПОЗНАВАНИЯ ЛИЦ ЛЮДЕЙ ИСКУССТВЕННОЙ НЕЙРОННОЙ СЕТЬЮ VGGFACE

Авторы: Суханов А.А. Федяев О.И.
Источник: VIII Всероссийская научно-техническая конференция «Современные информационные технологии в образовании и научных исследованиях СИТОНИ-2023» — Донецк: ДонНТУ, 2023.

Суханов А.А., Федяев О.И. Оценка качества распознавания лиц людей искусственной нейронной сетью VGGFace. Предложена схема видеорегистрации студентов при входе в аудиторию с помощью компьютерного зрения. Признаки лица человека формируются предобученной свёрточной нейронной сетью VGGFace. Выполнена оценка качества распознавания людей нейросетью VGGFace путём проведения ряда экспериментов по распознаванию лиц в условиях разного вида помех. Ключевые слова: нейронная сеть, свёрточная нейронная сеть, VGGFace, распознавание лиц, качество распознавания.

Введение

Областью исследований в данной работе является теория искусственных нейронных сетей и применение моделей нейросетей в реализации компьютерного зрения. Объектом исследований выступает система распознавания человека по изображению его лица с помощью нейронной сети. Технологии распознавания лиц развиваются уже достаточно давно, но за последние годы произошёл существенный скачок в области разработки и обучения нейронных сетей [1]. В настоящее время большие перспективы в решении задач распознавания связывают с применением глубоких нейронных сетей, которые успешно используются, например, в известных системах распознавания лиц: FaceNet [2], Face ID на iPhone, DeepFace от Facebook, Face++ от китайской компании Megvii [3] и др. Тем не менее, компьютерному зрению ещё далеко до уровня живого человека, однако в настоящее время системы такого класса целесообразно разрабатывать и применять для решения каких-то узких точечных задач.

На наш взгляд такой задачей, которую можно успешно решать современными средствами компьютерного зрения, является задача автоматической видеорегистрации присутствия студентов в аудитории с помощью нейросетевого распознавания лиц [4]. Конечно, подобные системы можно использовать только с учётом действующего законодательства в отношении конфиденциальности и приватности личных данных. При использовании этой системы правовые нормы, связанные с видеорегистрацией учащихся, будут соблюдены путём письменного согласия участников учебного процесса.

Распознавание лиц в этой системе осуществляется с помощью многослойной свёрточной нейронной сетью VGGFace, которая является модификацией более ранней модели VGG16, разработанной в 2013 году специалистами K. Simonyan и A. Zisserman из Оксфордского университета [5]. Так как модель VGGFace является предобученной нейронной сетью, то возникает естественный вопрос - насколько качественно она будет распознавать студентов, лица которых не участвовали в её обучении.

Поэтому предметом исследований в данной работе является оценка качества нейронной сети VGGFace при решении задачи распознавания лиц людей на изображениях, поступающих из видеопотока.

1. Схема компьютерного распознавания человека по его лицу

Рассматривается решение конкретной задачи, которая посвящена оперативному визуальному контролю присутствия студентов на учебных занятиях. На рисунке 1 приведена функциональная схема видеорегистрации студентов при входе в аудиторию с помощью компьютерного зрения. Методами машинного обучения решаются задачи локализации лиц на снимках с видеокамеры и их распознавание, а также формирование электронного журнала группы.

Рисунок 1 - Видеорегистрация студентов при входе в аудиторию с помощью компьютерного зрения

В реальном масштабе времени с помощью веб-камеры формируется видеопоток изображений, на которых могут быть расположены лица людей. В кадрах видеопотока выделяются и локализуются лица, входящих в аудиторию людей. Эту функцию выполняет алгоритм детектирования лиц на принятом изображении. В результате формируется изображение локализованного лица и после нормализации подаётся на следующий блок системы. В работе локализация лиц выполняется методом Виола-Джонса. К достоинствам данного метода относят высокую степень правильной локализации лица, малое число ложных срабатываний, высокую скорость работы. Он в меньшей степени чувствителен к освещённости. Точность выделения лиц на снимке по алгоритму Виола-Джонса в идеальных условиях достигает 90-95%, что вполне приемлемо для решения практических задач. Все изображения выделенных лиц нормируются к стандартному размеру 224×224 пикселей, каждый из которых представлен в виде трёх составляющих в формате RGB.

Далее изображение лица передаётся в блок формирования вектора признаков, который реализует распознавательную функцию f: X→Y, где X - множество входных изображений лиц; Y - множество векторов признаков для лиц из X. Таким образом, нейросетевая функция f каждому выделенному лицу x∈X ставит в соответствие вектор признаков y∈Y (y=f(x)), которыми характеризуется данное лицо.

При настройке системы необходимо предварительно сформировать базу данных лиц для всех распознаваемых людей, представленных конечным множеством соответствующих фамилий L. С этой целью для ∀x с помощью нейросетевой распознавательной функции f определяется множество правильных пар

где X - множество подготовленных фотографий распознаваемых лиц, т.е. эталоны изображений распознаваемых лиц; y – вектор признаков изображения лица x∈X; l - фамилия человека, фотография которого изображена на снимке x. Всё множество пар (y,l) заносится в базу данных векторов признаков лиц.

В штатном режиме работы системы, т.е. при распознавании, в блоке сравнения вектор признаков распознаваемого лица, полученный с выхода свёрточной нейронной сети, сравнивается со всеми векторами базы данных персон. Процедура сравнения основывается на методе вычисления косинусного сходства вектора распознаваемого лица с каждым вектором-эталоном из базы данных по формуле 2

где Y и Y – вектора признаков соответственно распознаваемого лица и лица-эталона из базы данных; n = 2622.

Распознаваемое лицо считается соответствующим эталону, если полученный коэффициент сходства выше определённого значения (в работе использовалось значение 0,7).

2. Архитектура свёрточной нейронной сети VGGFace

Многослойная архитектура VGGFace состоит из свёрточных слоёв (convolution layers) и субдискретизирующих слоёв (subsampling layers или pooling layers, слоёв подвыборки), которые чередуются друг с другом (см. рис. 2).

Рисунок 2 - Структура многослойной нейронной сети VGGFace

Последовательная работа слоёв нейросети организована таким образом, чтобы осуществлялся переход от конкретных особенностей изображения к более абстрактным деталям, и далее к ещё более абстрактным. В этом процессе ключевую роль играет операция свёртки (см. форм. 3):

где А – матрица размером (nx times; ny); В – матрица (ядро свёртки) размера (mx times; my); С – результирующая матрица размера [(nx-mx+1)times;(ny-my+1)]; i=1,2,…, nx-mx+1; j=1,2,…, ny-my+1, f() – функция активации. Подвыборочный слой также как свёрточный имеет карты, но их количество совпадает с предыдущим (свёрточным) слоем. Его задача – уменьшить размерность карт предыдущего слоя.

Для выработки признаков лица свёрточная нейронная сеть предварительно была обучена её создателями на примерах фотографий 2622-х человек (по 1000 фотографий на человека) [4, 5]. Сеть настроена на классификацию распознаваемого лица, используя в качестве классов лица из обучающего множества. Поэтому результатом работы сети является 2622-мерный вектор, каждый элемент которого представляет собой вероятность сходства лица с одним из обучающего множества. Считается, что два изображения лица относятся к одному человеку, если они в одинаковой мере похожи на каждое лицо из обучающего множества. Для этого вектора признаков этих изображений в пространстве лиц из обучающего множества должны образовывать между собой достаточно острый угол.

3. Оценка качества распознавания лиц при наличии помех

Оценка качества процесса распознавания, основанного на использовании нейросети VGGFace, проводилась путём проведения ряда экспериментов с последующим анализом результатов. Чтобы обеспечить чистоту экспериментов, они проводились на одной технике, с использованием одной камеры и системы. Технические характеристики веб-камеры:

разрешение в pix: 640*480;
тип матрицы: CMOS;
фокусное расстояние: 2,8 мм.;
частота кадров: до 30 кадров/секунду при разрешении в 640*480.

Технические характеристики компьютерной системы:

процессор: Intel Core i5-9400F CPU 2.90GHz;
оперативная память: 16 ГБ;
тип системы: 64-разрядная операционная система, процессор x64;
видеокарта: NVIDIA GeForce RTX 4060 TI;
система: Windows.

Всего было проведено четыре эксперимента. Первый эксперимент связан с распознаванием человека по лицу, удалённому от камеры на некотором расстоянии. Эксперимент проводился в одной комнате при одинаковом освещении. Распознавание образов проводилось на расстоянии от 0,5 м. до 3 м. от камеры. Результаты эксперимента приведены в таблице 1, значение 0 означает что программа не распознала образ, 1 что распознала.

Таблица 1. Результаты первого эксперимента

Некоторые результаты данного эксперимента приведены в таблице 1 и показаны на рисунке 3.

Рисунок 3 – Примеры первого эксперимента

Второй эксперимент связан с влиянием помех на локализацию лица и результат распознавания. В эксперименте в качестве помех использованы различные элементы одежды и аксессуары. Результаты представлены в таблице 2.

Таблица 2. Результаты второго эксперимента

Примеры эксперимента представлены на рисунке 4.

Рисунок 4 – Примеры второго эксперимента

В третьем эксперимента ставилась задача, как поворот головы влияет на захват лица и его распознавание. Результаты эксперимента представлены в таблице 3.

Таблица 3. Результаты третьего эксперимента

Некоторые примеры расположения головы при проведении третьего эксперимента показаны на рисунке 5.

Рисунок 5 – Положения головы при распознавании в третьем эксперименте

Четвертый эксперимент связан с влиянием освещения на захват лица и качество его распознавания. Эксперимент проводился в одной комнате при разном освещении, от тусклого освещения с окна без включения света, до яркого освещения в комнате и за окном. Результаты эксперимента приведены в таблице 4.

Таблица 4. Результаты четвертого эксперимента

Вывод

Объектом исследований в данной работе является система распознавания человека по изображению его лица с помощью нейронной сети. В частности рассматривается задача автоматической видеорегистрации присутствия студентов в аудитории с помощью нейросетевого распознавания лиц. Предложена схема видеорегистрации студентов при входе в аудиторию с помощью компьютерного зрения. Признаки лица человека формируются предобученной свёрточной нейронной сетью VGGFace. Выполнена оценка качества распознавания людей нейросетью VGGFace путём проведения ряда экспериментов по распознаванию лиц в условиях разного вида помех.

Литература

1. Блог Faceter. Технология распознавания лиц: принцип работы и актуальность [Электронный ресурс] / Интернет-ресурс. Режим доступа: https://faceter.cam/ru/blog/.... – Загл. с экрана.
2. FaceNet — пример простой системы распознавания лиц с открытым кодом Github [Электронный ресурс] / Интернет-ресурс. Режим доступа: https://neurohive.io/ru/tutorial/.... – Загл. с экрана.
3. Training Data. Распознавание лиц для машинного обучения технологии, процесс обучения [Электронный ресурс] / Интернет-ресурс. Режим доступа: https://trainingdata.solutions/metodic/.... – Загл. с экрана.
4. Федяев О.И., Коломойцева И.А. Автоматическая регистрация присутствия студентов на учебном занятии с помощью компьютерного зрения // XXI Национальная конференция по искусственному интеллекту с международным участием КИИ-2023 (Смоленск, 16-20 октября 2023 г.). Труды конференции. В 2-х томах. Т.1. – Смоленск: Принт-Экспресс, 2023. – С. 294-303.
5. Blog. Great Learning. Introduction to VGG16 | What is VGG16? [Электронный ресурс] / Интернет-ресурс. Режим доступа: https://www.mygreatlearning.com/blog/.... – Загл. с экрана.