РАЗРАБОТКА КОПЬЮТЕРИЗИРОВАННОЙ СИСТЕМЫ КОНТРОЛЯ ДОСТУПА С ИСПОЛЬЗОВАНИЕМ АУТЕНТИФИКАЦИИ ПО ГОЛОСУ



Авторы: Кулибаба О.В., Привалов М.В.

Источник: Наукові праці Донецького національного технічного університету. Серія: «Обчислювальна техніка та автоматизація», Донецьк: 2010 – випуск 16 (131)




       Аннотация
       Привалов М.В., Кулибаба О.В. Разработка компьютеризированной системы контроля доступа с использованием аутентификации по голосу. Предлагается структура системы контроля доступа с использованием аутентификации по голосу. Рассмотрено различные признаки. Предлагается выбор оптимального набора признаков.

       Актуальность. Перед любым предприятием в современном мире остро стоит проблема защиты от несанкционированного доступа к своим материальным (помещения, здания) и виртуальным (компьютерные базы данных) ресурсам. Биометрическое решение этой проблемы - наиболее надежная и комплексная технология, из имеющихся в мире технологий, в области разработки решений по аутентификации пользователей, ведь карты доступа элементарно можно украсть, а PIN-коды не особенно удобны, их приходится запоминать и каждый раз вводить. Среди различных биометрических систем аутентификация по голосу демонстрирует очевидные преимущества:

  • привычный для человека способ аутентификации;
  • голос не отчуждаем от человека;
  • для аутентификации по голосу не требуются дорогостоящие считыватели биометрической информации.

       Анализ последних исследований и публикации по рассматриваемому вопросу. Рассматривая различные отечественные и зарубежные системы аутентификации по голосу, можно выделить, что их общими недостатками являются высокая стоимость и закрытый исходный код. Существуют также и другие недостатки. Например, в системе Voice Key Service [1], разработанной российской компанией «Центр речевых технологий», и SPIRIT SV-системе, разработанной российской компанией SPIRIT Corp, нет возможностей устанавливать пороговые значения ошибок первого и второго рода [2]. Во второй также отсутствует возможность дополнительной аутентификации (проверки введенного неречевого пароля, например, с клавиатуры) для увеличения уровня надежности. А система Speech Secure американской компании Nuance Technology обладает избытком функций, вследствие чего имеет сложную настройку [3]

       Постановка задач исследования. Для построения компьютеризированной системы контроля доступа с использованием аутентификации по голосу необходимо решить следующие задачи:

  • анализ уникальных индивидуальных признаков, характеризующих личность говорящего;
  • обоснование и выбор этих признаков;
  • выбор структуры компьютеризированной системы контроля доступа с использованием аутентификации по голосу.

       Решение задачи. Аутентификация диктора - способ проверки подлинности, позволяющий достоверно убедиться в том, что субъект действительно является тем, за кого он себя выдает, на основании сравнения голоса с хранящимся в системе эталоном.
       Под голосовой аутентификацией понимается следующая ситуация. Диктор произносит фразу, а компьютеризированная система распознавания характеристик голоса должна подтвердить или отвергнуть индивидуальность говорящего. В принципе произнести фразу может как истинный пользователь, так и злоумышленник. Структура компьютеризированной системы контроля доступа с использованием аутентификации по голосу представлена на рис. 1.

Рисунок 1 – Структура компьютеризированной системы контроля доступа с использованием аутентификации по голосу

       Данная система состоит из двух основных подсистем: подсистемы ввода речевого сигнала и подсистемы аутентификации. Первая расположена на стороне клиента и обеспечивает ввод речевого сообщения пользователя через микрофон, которое записывается в файл .wav с форматом аудио PCM, 22050 кГц, 16 бит, моно. Сформированный сигнал из этой подсистемы направляется на серверную подсистему аутентификации, которая состоит из базы данных, блока параметризации, обучения, кластеризации и принятия решений. В блоке параметризации происходит выделение признаков, характеризующих личность диктора. Блок кластеризации использует данные блока обучения и текущий параметризованный сигнал. На основе данных классификации и порогового значения блок принятия решения формирует решение: диктор свой или чужой. Сформированный результат поступает (в зависимости от конкретных задач) или на исполнительное устройство, или в подсистему авторизации.
       Важнейшим параметром подсистемы аутентификации является коэффициент надежности – вероятность ошибок первого и второго рода:
  • ошибка первого рода (FRR – False Rejection Rate) – «не узнать своего», т.е. принимается решение «чужой», хотя на самом деле субъект присутствует в списке зарегистрированных пользователей;
  • ошибка второго рода (FAR – False Acceptance Rate) – «пропустить чужого», т.е. принимается решение «свой», хотя, на самом деле, субъект отсутствует в списке зарегистрированных пользователей.
       Каждая данная система может перестраиваться таким образом, что ошибки одного рода могут быть уменьшены за счет увеличения ошибок другого рода (даже при сохранении всех других факторов, влияющих на вероятность ошибки: длительность и характер речевого сообщения, помехи и т.п.). Изменение соотношения ошибок первого и второго рода достигается за счет изменения порога принятия решения и выбора набора признаков.
       Таким образом, важнейшим элементом успешного распознавания дикторов является выбор информативных признаков (речевых параметров), способных эффективно представлять информацию об особенностях речи конкретного диктора.
       К ним предъявляются следующие требования:
  • эффективность представления информации об особенностях речи конкретного диктора;
  • простота измерения;
  • стабильность во времени;
  • частое и естественное появление в речи;
  • невосприимчивость к имитации.
       В качестве уникального вектора признаков можно использовать одномерный частотный вектор кепстральных коэффициентов, а также вектор, составленный из его производных.
       Кепстральные коэффициенты определяются в соответствии со схемой, представленной на рис. 2:

Рисунок 2 – Общая схема кепстрального анализа сигнала (FFT – блок быстрого преобразования Фурье сигнала, LOG – блок логарифмирования спектра, IFFT – блок обратного быстрого преобразования Фурье)

       Линейное предсказание является одним из наиболее эффективных методов при оценке основных параметров речевого сигнала, таких как, например, период основного тона, функция площади речевого тракта и т.п. Важность метода обусловлена высокой точностью получаемых оценок и относительной простотой вычислений.
       Основной принцип метода линейного предсказания состоит в том, что текущий отчет речевого сигнала можно аппроксимировать линейной комбинацией предшествующих отчетов. Коэффициенты предсказания при этом определяются однозначно минимизацией среднего квадрата разности между отчетами речевого сигнала и их предсказанными значениями (на конечном интервале) [4].
       Еще в качестве вектора признаков можно использовать коэффициенты отражения. Физический смысл коэффициентов отражения состоит в определении величины волны, отраженной на границе двух акустических труб.
       Коэффициенты отражения рассчитываются путем преобразования вектора коэффициентов предсказывающего фильтра a в коэффициенты отражения соответствующей решетчатой структуры по следующему рекурсивному алгоритму:
(1)
(2)
       Данные формулы основаны на рекурсивном алгоритме Левинсона. Для его реализации в цикле перебираются элементы вектора a, начиная с последнего и заканчивая вторым.
       Иногда используются также функции от коэффициентов отражения - логарифмические отношения площадей (Log-Area Ratio - LAR) [5]:
(3)
где ki – коэффициенты отражения.
       Еще одним признаком являются площади поперечных сечений акустических труб. Голосовой тракт можно представить в виде последовательности р акустических труб одинаковой длины и различных диаметров, имеющие площади поперечных сечений Ai [6]. Представление голосового тракта в виде последовательности труб изображено на рис.3.
       Площади поперечных сечений Ai акустических труб вычисляется через коэффициенты отражения:
(4)
где р – порядок линейного предсказателя,
ki – коэффициенты отражения.
(A2 ,..., Ap+1) – вектор признаков, основанный на площадях акустической трубы.

Рисунок 3– Представление голосового тракта ввиде последовательности труб

       Заметим, что коэффициенты отражения определяют соотношение площадей соседних секций. Таким образом, площади поперечного сечения не определяются абсолютно точно, но все-таки эти площади часто бывают сходными с конфигурацией голосового тракта, используемого человеком при речеобразовании.
       Для выполнения этапа кластеризации выберем алгоритм Fuzzy c-means. Он хорошо работает с большим набором числових данных и обладает нечеткостью при определении объектов, находящихся на границе, в кластеры [7]. Именно эти условия необходимы для решения нашей задачи.
       Алгоритм Fuzzy c-means разделяет множество векторов Uk=(k=1,2..K) на с нечетких кластеров, находит центры кластеров, минимизируя целевую функцию. При нечетком разбиении матрица принадлежности М принимает значения из интервала [0,1]. Целевая функция вычисляется:
(5)
где mik – значение функции принадлежности, которое лежит в интервале от 0 до 1, Ci – центр i-го кластера, dik – Евклидово расстояние между i-м центром кластера и k-ой точкою вектора и q – экспоненциальный вес.
       Существует два необходимых условия для достижения минимума целевой функции:
(6)
(7)

       Выводы.
       В данной работе были рассмотрены различные уникальные признаки, характеризующие личность дикторов. Был проведен эксперимент по кластеризации голосовых сообщений 18 дикторов с применением алгоритма Fuzzy c-means. В результате исследований наилучшие результаты (наименьшие ошибки первого и второго рода) были получены при использовании признака LAR .
       На основании полученных экспериментальных данных выяснено, что результат является удовлетворительным, как по времени выполнения, так и по значениям FRR и FАR, и его можно использовать для построения компьютеризированной системы контроля доступа с использованием аутентификации по голосу.

Литература

  1. Ю.Н. Хитрова, Применение речевой биометрии в системах ограничения доступа. [Электронный ресурс]: Режим доступа: URL: http://www.e-expo.ru/docs/sp/cat/data/media/18_ru.pdf
  2. В.А. Свириденко, П.В.Мартынович, Системы верификации и идентификации диктора от SPIRIT Corp. [Электронный ресурс]: Режим доступа: URL: http://www.dancom.ru/rus/AIA/Archive/RUII_SPIRIT_ DOKLAD_R.pdf
  3. Официальный сайт американской компании Nuance Technology. [Электронный ресурс]: Режим доступа: URL:  www.nuance-tech.com
  4. Маркел Дж., Грей А.Х. Линейное предсказание речи / Пер. с англ. М.: Связь, 1980.
  5. А.С. Алексеев, Е.Е. Федоров, Количественный анализ систем признаков и методов идентификации, Штучний інтелект, Институт проблем искусственного интеллекта,г.Донецк, № 3, 2005. [Электронный ресурс]: Режим доступа: URL: http://www.iai.dn.ua/ public/JournalAI_2005_3/Razdel7/02_Alekseev_Fedorov.pdf
  6. Л.Р. Рабинер, Р.В. Шафер, Цифровая обработка речевых сигналов, М.: Радио и связь, 1981. - 495с
  7. Jan Jantzen "Neurofuzzy Modelling". [Электронный ресурс]: Режим доступа: URL: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.68.390&rep=rep1&type=pdf

© ДонНТУ 2010, Кулибаба О.В.