РАЗРАБОТКА КОПЬЮТЕРИЗИРОВАННОЙ СИСТЕМЫ КОНТРОЛЯ ДОСТУПА С ИСПОЛЬЗОВАНИЕМ АУТЕНТИФИКАЦИИ ПО ГОЛОСУ Авторы: Кулибаба О.В., Привалов М.В. Источник: Наукові праці Донецького національного технічного університету. Серія: «Обчислювальна техніка та автоматизація», Донецьк: 2010 – випуск 16 (131)        Аннотация        Привалов М.В., Кулибаба О.В. Разработка компьютеризированной системы контроля доступа с использованием аутентификации по голосу. Предлагается структура системы контроля доступа с использованием аутентификации по голосу. Рассмотрено различные признаки. Предлагается выбор оптимального набора признаков.        Актуальность. Перед любым предприятием в современном мире остро стоит проблема защиты от несанкционированного доступа к своим материальным (помещения, здания) и виртуальным (компьютерные базы данных) ресурсам. Биометрическое решение этой проблемы - наиболее надежная и комплексная технология, из имеющихся в мире технологий, в области разработки решений по аутентификации пользователей, ведь карты доступа элементарно можно украсть, а PIN-коды не особенно удобны, их приходится запоминать и каждый раз вводить. Среди различных биометрических систем аутентификация по голосу демонстрирует очевидные преимущества:
       Анализ последних исследований и публикации по рассматриваемому вопросу. Рассматривая различные отечественные и зарубежные системы аутентификации по голосу, можно выделить, что их общими недостатками являются высокая стоимость и закрытый исходный код. Существуют также и другие недостатки. Например, в системе Voice Key Service [1], разработанной российской компанией «Центр речевых технологий», и SPIRIT SV-системе, разработанной российской компанией SPIRIT Corp, нет возможностей устанавливать пороговые значения ошибок первого и второго рода [2]. Во второй также отсутствует возможность дополнительной аутентификации (проверки введенного неречевого пароля, например, с клавиатуры) для увеличения уровня надежности. А система Speech Secure американской компании Nuance Technology обладает избытком функций, вследствие чего имеет сложную настройку [3]        Постановка задач исследования. Для построения компьютеризированной системы контроля доступа с использованием аутентификации по голосу необходимо решить следующие задачи:
       Решение задачи. Аутентификация диктора - способ проверки подлинности, позволяющий достоверно убедиться в том, что субъект действительно является тем, за кого он себя выдает, на основании сравнения голоса с хранящимся в системе эталоном. Рисунок 1 – Структура компьютеризированной системы контроля доступа с использованием аутентификации по голосу        Данная система состоит из двух основных подсистем: подсистемы ввода речевого сигнала и подсистемы аутентификации. Первая расположена на стороне клиента и обеспечивает ввод речевого сообщения пользователя через микрофон, которое записывается в файл .wav с форматом аудио PCM, 22050 кГц, 16 бит, моно. Сформированный сигнал из этой подсистемы направляется на серверную подсистему аутентификации, которая состоит из базы данных, блока параметризации, обучения, кластеризации и принятия решений. В блоке параметризации происходит выделение признаков, характеризующих личность диктора. Блок кластеризации использует данные блока обучения и текущий параметризованный сигнал. На основе данных классификации и порогового значения блок принятия решения формирует решение: диктор свой или чужой. Сформированный результат поступает (в зависимости от конкретных задач) или на исполнительное устройство, или в подсистему авторизации.       Важнейшим параметром подсистемы аутентификации является коэффициент надежности – вероятность ошибок первого и второго рода:
       Таким образом, важнейшим элементом успешного распознавания дикторов является выбор информативных признаков (речевых параметров), способных эффективно представлять информацию об особенностях речи конкретного диктора.        К ним предъявляются следующие требования:
       Кепстральные коэффициенты определяются в соответствии со схемой, представленной на рис. 2: Рисунок 2 – Общая схема кепстрального анализа сигнала (FFT – блок быстрого преобразования Фурье сигнала, LOG – блок логарифмирования спектра, IFFT – блок обратного быстрого преобразования Фурье)        Линейное предсказание является одним из наиболее эффективных методов при оценке основных параметров речевого сигнала, таких как, например, период основного тона, функция площади речевого тракта и т.п. Важность метода обусловлена высокой точностью получаемых оценок и относительной простотой вычислений.       Основной принцип метода линейного предсказания состоит в том, что текущий отчет речевого сигнала можно аппроксимировать линейной комбинацией предшествующих отчетов. Коэффициенты предсказания при этом определяются однозначно минимизацией среднего квадрата разности между отчетами речевого сигнала и их предсказанными значениями (на конечном интервале) [4].        Еще в качестве вектора признаков можно использовать коэффициенты отражения. Физический смысл коэффициентов отражения состоит в определении величины волны, отраженной на границе двух акустических труб.        Коэффициенты отражения рассчитываются путем преобразования вектора коэффициентов предсказывающего фильтра a в коэффициенты отражения соответствующей решетчатой структуры по следующему рекурсивному алгоритму:
       Иногда используются также функции от коэффициентов отражения - логарифмические отношения площадей (Log-Area Ratio - LAR) [5]:
       Еще одним признаком являются площади поперечных сечений акустических труб. Голосовой тракт можно представить в виде последовательности р акустических труб одинаковой длины и различных диаметров, имеющие площади поперечных сечений Ai [6]. Представление голосового тракта в виде последовательности труб изображено на рис.3.        Площади поперечных сечений Ai акустических труб вычисляется через коэффициенты отражения:
ki – коэффициенты отражения. (A2 ,..., Ap+1) – вектор признаков, основанный на площадях акустической трубы. Рисунок 3– Представление голосового тракта ввиде последовательности труб        Заметим, что коэффициенты отражения определяют соотношение площадей соседних секций. Таким образом, площади поперечного сечения не определяются абсолютно точно, но все-таки эти площади часто бывают сходными с конфигурацией голосового тракта, используемого человеком при речеобразовании.       Для выполнения этапа кластеризации выберем алгоритм Fuzzy c-means. Он хорошо работает с большим набором числових данных и обладает нечеткостью при определении объектов, находящихся на границе, в кластеры [7]. Именно эти условия необходимы для решения нашей задачи.        Алгоритм Fuzzy c-means разделяет множество векторов Uk=(k=1,2..K) на с нечетких кластеров, находит центры кластеров, минимизируя целевую функцию. При нечетком разбиении матрица принадлежности М принимает значения из интервала [0,1]. Целевая функция вычисляется:
       Существует два необходимых условия для достижения минимума целевой функции:
       Выводы. Литература
© ДонНТУ 2010, Кулибаба О.В. |