ВЫБОР ПРИЗНАКОВ ДЛЯ АУТЕНТИФИКАЦИИ ПО ГОЛОСУ В КОМПЬЮТЕРИЗИРОВАННОЙ СИСТЕМЕ КОНТРОЛЯ ДОСТУПА



Авторы: Кулибаба О.В., Привалов М.В.

Источник: Інформаційні управляючі системи та комп'ютерний моніторинг (ІУС та КМ-2010)/ Матеріали I всеукраїнської науково-технічної конференції студентів, аспірантів та молодих вчених — 19-21 травня 2010 р., Донецьк, ДонНТУ — 2010, с. 33-37.




Аннотация
Привалов М.В., Кулибаба О.В. Выбор признаков для аутентификации по голосу в компьютеризированной системе контроля доступа. Рассматриваются преимущества системы аутентификации по голосу. Анализируется использование акустических признаков дикторов в различных системах. Предлагается выбор оптимального набора признаков.
Ключевые слова: аутентификация по голосу, акустические признаки, кластеризация, ошибки первого и второго рода.

       Актуальность.
       Информация в наше время — самый дорогой и востребованный товар. Она дает власть над людскими массами или позволяет обогнать конкурентов. На защиту информации мобилизованы самые высокие технологии. Первейшая их задача — не допустить к ней постороннего человека, то есть надежно распознать, кто «свой», а кто нет. Но так, если карту доступа элементарно можно украсть, а PIN-коды не особенно удобны, их приходится запоминать и каждый раз вводить. Очевидный выход — использовать биометрическую аутентификацию. Среди различных биометрических систем аутентификация по голосу демонстрирует очевидные преимущества:

  • привычный для человека способ аутентификации;
  • голос не отчуждаем от человека;
  • для аутентификации по голосу не требуются дорогостоящие считыватели биометрической информации.
       Согласно международной конференции, посвященной «голосовой биометрии», которая ежегодно проводится в США, аутентификация по голосу стремительно развивается и с каждым годом пользуется все большим спросом [1]. Однако до сих пор нерешенным вопросом остается выбор оптимального набора признаков, которые бы минимизировали ошибки первого и второго рода.

       Анализ последних исследований и публикации по рассматриваемому вопросу.
       На сегодняшний день созданы десятки различных систем аутентификации по голосу, имеющих различные параметры и требования к процессу идентификации в зависимости от конкретных задач [2—4]. К сожалению, на сегодняшний день разработанные программы чаще всего применяются как дополнительные средства проверки подлинности там, где необходимо обеспечить высокую степень надежности систем аутентификации. Поэтому продолжаются работы по правильному выбору и обоснованию признаков, которые затем определяют принцип построения систем аутентификации.
       В настоящий момент существует достаточно много различных методов расчета признаков, характеризующих личность диктора. Для вычисления признаков, связанных с физиологическими особенностями речевого тракта, наиболее часто используются методы спектрально—временного анализа. Такие методы анализа речевого сигнала адекватны природному механизму восприятия речи, что делает понятной тенденцию многих исследователей искать индивидуальные особенности в мгновенных спектральных распределениях отдельных фонем и в распределениях текущего спектра. В основе таких методов лежит классический Фурье—анализ [5] или параметрический авторегрессионый анализ (линейное предсказание как частный случай) [6]. Тесно связан со спектральным представлением речевого сигнала довольно часто применяемый в последнее время гомоморфный метод [7]. Что касается параметров сигнала возбуждения, то они могут быть рассчитаны одним из широко известных методов выделения частоты основного тона[8], но они обладают невысокой точностью и сильно зависят от формантной структуры самого сигнала. Существуют также методы определения собственно формы артикуляторного тракта[9], но они достаточно громоздки и обладают малой точностью

       Постановка задач исследования.
       Для построения компьютеризированной системы контроля доступа с использованием аутентификации по голосу необходимо решить следующие задачи:

  • анализ уникальных индивидуальных признаков, характеризующих личность говорящего;
  • обоснование и выбор этих признаков.

       Решение задачи.
       Аутентификация диктора — способ проверки подлинности, позволяющий достоверно убедиться в том, что субъект действительно является тем, за кого он себя выдает, на основании сравнения голоса с хранящимся в системе эталоном.
       Под голосовой аутентификацией понимается следующая ситуация. Диктор произносит фразу, а компьютеризированная система распознавания характеристик голоса должна подтвердить или отвергнуть индивидуальность говорящего. В принципе произнести фразу может как истинный пользователь, так и злоумышленник. Задаваясь стоимостью возможных потерь в случае возможного несанкционированного доступа злоумышленника можно (для данной системы) рассчитать вероятность, с которой система не должна пропускать чужого.
       Схема аутентификации представлена на рис. 1:

Рисунок 1 — Схема аутентификации по голосу

       Задачей начального этапа аутентификации по голосу является преобразование в речевой сигнал генерируемых речевой системой человека звуков. Звук, как известно, представляет собой механические колебания, распространяющиеся в окружающей среде (средой распространения служит воздух). Давление звуковой волны воспринимается микрофоном и преобразуется им в электрический аналоговый сигнал.
       Для дальнейшей обработки необходимо провести преобразование информационного образа речи из аналогового сигнала в дискретный. Эту задачу решает аналого—цифровой преобразователь (АЦП), который осуществляет дискретизацию и квантование речевого сигнала.
       Важнейшим параметром систем аутентификации является коэффициент надежности — вероятность ошибок первого и второго рода:
  • ошибка первого рода (FRR — False Rejection Rate) — «не узнать своего», т.е. принимается решение «чужой», хотя на самом деле субъект присутствует в списке зарегистрированных пользователей;
  • ошибка второго рода (FAR — False Acceptance Rate) — «пропустить чужого», т.е. принимается решение «свой», хотя, на самом деле, субъект отсутствует в списке зарегистрированных пользователей.
       Каждая данная система может перестраиваться таким образом, что ошибки одного рода могут быть уменьшены за счет увеличения ошибок другого рода (даже при сохранении всех других факторов, влияющих на вероятность ошибки: длительность и характер речевого сообщения, помехи и т.п.). Изменение соотношения ошибок первого и второго рода достигается за счет изменения порога принятия решения и выбора набора признаков.
       Таким образом, важнейшим элементом успешного распознавания дикторов является выбор информативных признаков (речевых параметров), способных эффективно представлять информацию об особенностях речи конкретного диктора.
       К ним предъявляются следующие требования:
  • эффективность представления информации об особенностях речи конкретного диктора;
  • простота измерения;
  • стабильность во времени;
  • частое и естественное появление в речи;
  • невосприимчивость к имитации.
       В качестве уникального вектора признаков можно использовать одномерный частотный вектор кепстральных коэффициентов, а также вектор, составленный из его производных.
       Кепстральные коэффициенты определяются в соответствии со схемой, представленной на рис. 2:

Рисунок 2 — Общая схема кепстрального анализа сигнала (FFT — блок быстрого преобразования Фурье сигнала, LOG — блок логарифмирования спектра, IFFT — блок обратного быстрого преобразования Фурье)

       Линейное предсказание является одним из наиболее эффективных методов при оценке основных параметров речевого сигнала, таких как, например, период основного тона, функция площади речевого тракта и т.п. Важность метода обусловлена высокой точностью получаемых оценок и относительной простотой вычислений.
       Основной принцип метода линейного предсказания состоит в том, что текущий отчет речевого сигнала можно аппроксимировать линейной комбинацией предшествующих отчетов. Коэффициенты предсказания при этом определяются однозначно минимизацией среднего квадрата разности между отчетами речевого сигнала и их предсказанными значениями (на конечном интервале).
       Для нахождения коэффициентов предсказывающего фильтра используем автокорреляционный метод построения авторегрессионной модели [10]. Полученный фильтр может не предсказывать сигнал точно — даже в том случае, если он действительно является авторегрессионным процессом нужного порядка. Дело в том, что автокорреляционный метод неявно стробирует исходные данные, предполагая, что отсчеты сигнала за пределами входного вектора x равны нулю.
       Нужно найти решение, дающее минимальную среднеквадратичную ошибку в системе уравнений:
(1)
(2)
       где m — длина последовательности x.
       Поиск решения, оптимального по критерию минимума среднеквадратической ошибки, приводит к нормальным уравнениям:
(3)
(4)
       Еще в качестве вектора признаков можно использовать коэффициенты отражения. Физический смысл коэффициентов отражения состоит в определении величины волны, отраженной на границе двух акустических труб.
       Коэффициенты отражения рассчитываются путем преобразования вектора коэффициентов предсказывающего фильтра a в коэффициенты отражения соответствующей решетчатой структуры по следующему рекурсивному алгоритму:
(5)
(6)
       Данные формулы основаны на рекурсивном алгоритме Левинсона. Для его реализации в цикле перебираются элементы вектора a, начиная с последнего и заканчивая вторым.
       Иногда используются также функции от коэффициентов отражения — логарифмические отношения площадей (Log—Area Ratio — LAR) [12]:
(7)
где ki — коэффициенты отражения.
       Еще одним признаком являются площади поперечных сечений акустических труб. Голосовой тракт можно представить в виде последовательности р акустических труб одинаковой длины и различных диаметров, имеющие площади поперечных сечений Ai [5]. Представление голосового тракта в виде последовательности труб изображено на рис.3.
       Площади поперечных сечений Ai акустических труб вычисляется через коэффициенты отражения:
(8)
где р — порядок линейного предсказателя,
ki — коэффициенты отражения.
(A2 ,..., Ap+1) — вектор признаков, основанный на площадях акустической трубы.

Рисунок 3— Представление голосового тракта ввиде последовательности труб

       Заметим, что коэффициенты отражения определяют соотношение площадей соседних секций. Таким образом, площади поперечного сечения не определяются абсолютно точно, но все—таки эти площади часто бывают сходными с конфигурацией голосового тракта, используемого человеком при речеобразовании.
       Для выполнения этапа кластеризации выберем алгоритм Fuzzy c—means. Он хорошо работает с большим набором числових данных и обладает нечеткостью при определении объектов, находящихся на границе, в кластеры [13]. Именно эти условия необходимы для решения нашей задачи.
       Алгоритм Fuzzy c—means разделяет множество векторов Uk=(k=1,2..K) на с нечетких кластеров, находит центры кластеров, минимизируя целевую функцию. При нечетком разбиении матрица принадлежности М принимает значения из интервала [0,1]. Целевая функция вычисляется:
(9)
где mik — значение функции принадлежности, которое лежит в интервале от 0 до 1,Ci — центр i—го кластера, dik — Евклидово расстояние между i—м центром кластера и k—ой точкою вектора и q — экспоненциальный вес.
       Существует два необходимых условия для достижения минимума целевой функции:
(10)
(11)

       Экспериментальные исследования и анализ результатов.
       Аутентификация по голосу с применением алгоритма кластеризации Fuzzy c—means проводилась следующим образом. Эксперимент проводился на голосовых сообщениях 18 дикторов. Исходная информация хранится в файлах .wav с форматом аудио PCM, 22050 кГц, 16 бит, моно. Для обучающей выборки были рассчитаны кепстральные коэффициенты, коэффициенты отражения, логарифмические отношения площадей (LAR) и площади поперечных сечений акустических труб по формулам (1) — (8). Показатель нечеткости в алгоритме Fuzzy c—means был выбран q=2, а начальные значения центров кластеров задавались как координаты центроидов.
       Таблица 1 Сравнение ошибок FRR и FAR для различных признаков
Название признака FRR FАR
Кепстральные коэффициенты 23% 37,5%
Коэффициенты отражения 20% 35%
LAR 18% 35%
Площади поперечных сечений акустических труб 33% 55%
       Анализ результатов экспериментов показал, что наиболее эффективными признаками оказались коэффициенты отражения и функции от коэффициентов отражения — логарифмические отношения площадей (LAR). При этом неплохие результаты дали и коэффициенты отражения, но они, в отличии от двух предыдущих, слишком долго обрабатываются. Что касается площади поперечных сечений акустических труб, то этот признак неплохо работает только на маленьких выборках.

       Выводы.
       В данной работе были рассмотрены различные уникальные признаки, характеризующие личность дикторов. Был проведен эксперимент по кластеризации голосовых сообщений различных дикторов с применением алгоритма Fuzzy c—means. В результате исследований наилучшие результаты (наименьшие ошибки первого и второго рода) были получены при использовании признака LAR .
       На основании полученных экспериментальных данных выяснено, что результат является удовлетворительным, как по времени выполнения, так и по значениям FRR и FАR, и его можно использовать для построения компьютеризированной системы контроля доступа с использованием аутентификации по голосу.
      
      

Литература

  1. Г.Н. Зубов, М.В.Хитров, Состояние и перспективы голосовой биометрии [Электронный ресурс]: Режим доступа: URL:  http://www.chip—news.ru/archive/chipnews/200710/Article_12.pdf
  2. Ю.Н. Хитрова, Применение речевой биометрии в системах ограничения доступа. [Электронный ресурс]: Режим доступа: URL: http://www.e—expo.ru/docs/sp/cat/data/media/18_ru.pdf
  3. В.А. Свириденко, П.В.Мартынович, Системы верификации и идентификации диктора от SPIRIT Corp. [Электронный ресурс]: Режим доступа: URL: http://www.dancom.ru/rus/AIA/Archive/RUII_SPIRIT_ DOKLAD_R.pdf
  4. Официальный сайт американской компании Nuance Technology. [Электронный ресурс]: Режим доступа: URL:www.nuance—tech.com
  5. Л.Р. Рабинер, Р.В. Шафер, Цифровая обработка речевых сигналов, М.: Радио и связь, 1981. — 495с
  6. Mарпл—мл. С.Л. Цифровой спектральный анализ и его приложение / Пер. с англ. М.: Мир, 1990.
  7. Маркел Дж., Грей А.Х. Линейное предсказание речи / Пер. с англ. М.: Связь, 1980.
  8. Арлазаров В.Л., Богданов Д.С., Розанов А.О., Финкельштейн Ю.Л. Методы выделения периодов основного тона в речевом сигнале. [Электронный ресурс]: Режим доступа: URL: http://www.cognitive.ru/innovation/sbornic/rozanov.doc
  9. J.Shroeter, M.M.Soudhi “Techniques for Estriruation Vocal—Tract Shape from Speech Signal” IEEE Trans.SAP—2, N1, pp.133—150(1994)
  10. Консультационный центр MATLAB компании Softline.[Электронный ресурс]: Режим доступа: URL: http://matlab.exponenta.ru/
  11. Ljung, L., System Identification: Theory for the User, Prentice—Hall, 1987, pp. 278—280.
  12. А.С. Алексеев, Е.Е. Федоров, Количественный анализ систем признаков и методов идентификации, Штучний інтелект, Институт проблем искусственного интеллекта, г.Донецк, № 3, 2005. [Электронный ресурс]: Режим доступа: URL: http://www.iai.dn.ua/ public/JournalAI_2005_3/Razdel7/02_Alekseev_Fedorov.pdf
  13. Jan Jantzen “Neurofuzzy Modelling”. [Электронный ресурс]: Режим доступа: URL: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.68.390&rep=rep1&type=pdf

© ДонНТУ 2010, Кулибаба О.В.