Модель эволюционирующей нейронной сети для верификации личности на основе сочетаний речи и изображений

Авторы статьи: Akbar Ghobakhlou, David Zhang, and Nikola Kasabov

Автор перевода: А.И. Мартыненко

Источник: An Evolving Neural Network Model for Person Verification Combining Speech and Image

Аннотация

Эта статья вводит метод, основанный на Эволюции Связной Системы (ECOS) для задач верификации личности. Метод позволяет развитие моделей лиц и их постоянной корректировки на основе новых речевых и лицевых изображений. Некоторые экспериментальные модели верификации человека, основанные на речевых и лицевых особенностях разработаны на основе этого метода, где речевая информация и информации по изображению лица интегрирована на уровне художественного моделирования каждого человека. Показано, что интеграция речевых и графических функций значительно улучшает точность человеческой верификационной модели, когда идет сравнение с использованием только данных изображения лица или речи.

1. Введение

Биометрическая верификация может быть определена как процесс уникальной идентификации человека по оценке одного или нескольких отличительных биологических черт. Уникальные идентификаторы включают отпечатки пальцев, геометрию руки, сетчатки, узоры радужной оболочки, изображения лица и голоса. Есть много биометрические особенностей, которые отличают лица друг от друга, таким образом, много различных методов считывания были разработаны [5]. Эти идентификаторы могут быть использованы по отдельности, о чем свидетельствует система сканирования радужной оболочки в банковском секторе и в настоящее время проходящую испытания для обеспечения безопасности аэропорта [6].

За последние несколько лет, интерес в использовании множественной модальности для решения задачи автоматической идентификации человека значительно вырос. Мотивация для использования множественной модальности является многопрофильной. В первом случае различные модальные измерения дополнительной информации и этим мультимодальные системы могут достичь более высокой производительности, чем отдельных модальностей. Единственная черта, возможно, не в состоянии быть точным достаточным количеством для отождествления индивидуумов.

В этой статье мы предлагаем верификационный модуль личности, основанный на ECOS[1]. Модели верификации личности разработаны на основе речевых и лицевых изображений и интегрированными чертами. Каждый человек моделируется путем размещения узлов в процессе обучения. Из предыдущей работы [2], было показано, что ECOS может быть использован для создания адаптивных систем распознавания речи. ECOS использует локальный алгоритм обучения, где каждый нейрон в слое эволюционирующей сети представляет данные в небольшом регионе от проблемной области.

Следующие разделы описывают использованный метод и экспериментальную систему, основанную на демонстрации метода. Вначале, предварительная обработка и методы извлечения особенностей описаны, а затем классификационные принципы ECOS представлены и проиллюстрированы на простой проблеме.

2. Обработка сигнала речевого и лицевого изображения

2.1 Дискретизация и обработка речевого сигнала

При верификации модели говора, был построен текст-зависимый модуль. Речевые данные были взяты с помощью микрофон, расположенного близко ко рту. Речь отбиралась на 22,05 кГц и квантовалась в 16 разрядное число. Для того, чтобы извлечь частотный коэффициент (MFCC), как акустические особенности, спектральный анализ речевого сигнала проводился над 20 мс с окном Хэмминга и 50% перекрытием. Дискретного косинусного преобразования (ДКП) наносили на MFCC от целого слова для получения входных векторных признаков [2].

2.2 Обработка лицевого изображения

При проверке модели лица, образцы были получены с помощью веб-камеры с разрешением 320х240. После получения нового изображения, особенности были извлечены с помощью композитного технического профиля. Композитные функции профиля состоят из среднего значения столбцов в изображении с последующим средним значением строк в изображении. Это важная особенность для характеристики симметричных и круглых моделей, или моделей, изолированных в однородном фоне. Эта особенность может быть полезна для проверки выравнивания объектов. Для того чтобы уменьшить количество функций, методика интерполяции была применена к 60 функциям.

3. ECOS для динамического моделирования и классификации

Здесь мы используем реализацию моделей ЭКОС называемых Функция Эволюционирующего Классификатора (ECF) [1]. Алгоритм ECF классифицирует входные данные в ряде классов и находит свои классовые центров в исходном n-мерном пространстве путем размещения управляющие узлы в эволюционирующем слое. Каждое управляющий узел связан с классом и областью влияния, представляющей собой часть n-мерного пространства вокруг управляющего узла. Вообще, такие влияющие поля в n-мерном пространстве - это гипер-сфера. По сути каждый клиент смоделирован рядом управляющих узлов, которые изображают клиента.

Есть два различных режима работы ECF, обучение и распознавание. Подробности оригинального алгоритма этих двух режимов были приведены в [1]. В этой статье, алгоритм распознавания из ECF был изменен для решения задачи верификации личности. Соответственно, мы называем его алгоритм верификации. Алгоритм верификации состоит из следующих шагов:

• С обученным модулем ECF, когда новый тестовый образец I представлен, сначала проверяется, попадает ли в поле влияния управляющих узлов, представляющих заявленную личность образца I. Это достигается путем расчета евклидова расстояние между этим образцом и соответствующих управляющих узлов, с последующим сравнением этого расстояния Di с соответствующей областью воздействия Infi. Образец I проверяется как человек i, если соотношение (1) выполнено.

Art21

• Если образец I не упал в поле влияния любого существующего управляющего узла, то:

1) Находим управляющий узел, который имеет кратчайшее расстояние к этому образцу, обратите внимание, это расстояние помечено как Dmin;

2) Если это расстояние Dmin меньше заданного приемлемого порога θ, образец I проверяется, как личность i. В противном случае, этот образец отвергается этой проверкой модуля.

Этот алгоритм верификации применен для распознавания речи, изображения лица и интегрированных верификационных модулей. Рисунок 1 иллюстрирует общий процесс адаптивной системы верификации личности.

Art22

Рисунок 1 – Алгоритм верификации личности

4. Интеграция речи и изображения лица на изобразительном уровне

Речь и изображение лицевой информация были использованы для задачи верификации личности. Отдельные модули ECF были построены для речевой под-сети и для под-сети изображения лица. Кроме того, особенности получены из речи и изображения лица клиентов были объединены в интегрированные функции ввода. Есть различные стратегии объединения мультимодальных источники информации. При таком подходе речь и информация из изображения лица были интегрированы на уровне функций. Есть 100 входных функций в образце речи и 64 входных функции в образце изображения лица. Эти два набора функций были объединены, чтобы сформировать интегрированные функции ввода.

5. Реализация и экспериментальные результаты

Система верификации личности - это, по существу, два класса решения задачи, где система может сделать два типа ошибок. Первая ошибка ложный допуск, где самозванец принят. Вторая ошибка является ложным отказом, где подлинный клиент был отклонен. Принятие Ложного Допуска (FAR) и Ставка Ложного Отказа(FRR) рассчитываются в соответствии со следующими уравнениями:

Art23

где IA количество самозванцев, классифицированных как истинные заявители, IT общее количество представленных самозванцев, CR - количество подлинных клиентов, классифицированных как самозванцы и CT общее количество подлинных клиентов. Торговля между этими ошибками скорректированы, пользуясь акцептным порогом θ.

5.1 Подготовка данных

В этом исследовании, речевые данные были взяты из 8 членов института KEDRI [3]. Так как модуль речи текст зависим, всех выступающих просили сказать слово безопасность речи на основе акустической верификации. Пять образцов из каждого динамика были собраны, чтобы сформировать учебный набор данных. Еще 5 образцов из каждой из этих колонок были использованы для формирования набора данных тестирования. Аналогичным образом были отобраны изображения лиц тех же кандидатов для подготовки обучения и тестирования данных. Наконец, входные функции от речи и изображение лица были объединены в соответствии с методом, описанным в разделе 4.

5.2 Эксперименты и результаты

Адаптивный верификационный речевой модуль. Двигатель ECF нейронной сети был построен на основе обучения речевых данных. Каждый динамик был смоделирован путем выделения управляющих узлов время тренировки. Число управляющих узлов, предназначенных для каждого канала, определяется максимальной областью влияния. Рисунок 2 иллюстрирует эффективность ECF для тестированного набора данных.

Как показано на рисунке 2, значения поля Maximum Inference Field тем меньше, чем больше управляющих узлов выделяется для каждого клиента. Это приводит к высокой правильной скорости приема 92% и к небольшим FRR и FAR ошибкам в 1%.

Art24

Рисунок 2 – Характеристики ECF для задачи верификации речи. (a) Количество управляющих узлов к верификациям влияния значений полей (b) Правильная скорость принятия к принятому порогу. (с) FAR к принятым порогам. (d) FRR к принятым порогам.

Адаптивная верификация модуля изображения лица. Система верификации изображения была построена и проверена. Аналогичным образом, как и в верификации речевой модели, каждый человек был смоделирован посредством выделения управляющих узлов во время тренировки. Число управляющих узлов, предназначенных для каждого клиента определяется по максимальной области влияния. Рисунок 3 иллюстрирует характеристики ECF для тестированного набора данных.

Art25

Рисунок 3 – Характеристики ECF для задачи изображения лица. (a) Количество управляющих узлов к верификации влияния значений полей (b) Правильная скорость принятия к принятому порогу. (с) FAR к принятым порогам. (d) FRR к принятым порогам.

Как показано на рисунке 3, значения поля Maximum Inference Field тем меньше, чем больше управляющих узлов выделяется для каждого клиента. Лучшее исполнение ECF было достигнуто с 18 управляющими узлами с правильной скоростью приема 85% и FAR ошибки чуть более 2%.

Модуль верификации личности, основанный на интегрировании голоса и изображении лица. Учебный набор данных для этого эксперимента, получен путем конкатенации учебного речевого набора данных и учебного набора данных по изображению лица, как описано в разделе 4. Каждый интегрированный образец имеет 164 входных функции. Модель ECF была построена с использованием интегрированного учебного набора данных и теста на интегрированные учебные наборы данных А и В. Результаты испытаний показаны на рисунке 4. обучение набор данных.

Art26

Рисунок 4 – Характеристики ECF для интегрированных функий. (a) Количество управляющих узлов к верификации влияния значений полей (b) Правильная скорость принятия к принятому порогу. (с) FAR к принятым порогам. (d) FRR к принятым порогам.

Результаты на рисунке 4 показывают, значения поля Maximum Inference Field тем меньше, чем больше управляющих узлов выделяется для каждого клиента. Лучшее исполнение ECF было достигнуто с правильной скоростью приема 97% и FAR ошибки меньше, чем 0,5%.

6. Выводы и будущие исследования

Эта статья представила метод, основанный на Эволюционирующей Связной Системе ECF для решения задач верификации личности. Характеристики ECF индивидуальных и комплексных модулей, показывают возможность ECF при моделировании каждого человека путем размещения управляющих узлов, чтобы создать модель верификации личности. Модуль верификации основан на интегрированных голосовых и лицевых чертах превзошел обоих одиночных модулей, показав улучшение в правильном размере приема скорости и снижение FAR и FRR ошибок. Эволюционирование свойств ECF [1] позволяет новым лицам быть добавленными или удаленными из системы. Дальнейшие эксперименты и анализ необходимо сделать, чтобы оценить эффективность данной методики в отношении лиц, которые не участвовали в процессе обучения.