ru ua eng

ДонНТУ


Портал магістрів ДонНТУ


Магістр ДонНТУ Кулібаба Ольга Володимирівна

Кулібаба Ольга Володимирівна

Факультет: Комп'ютерні науки та технології

Кафедра: Автоматизовані системи управління

Спеціальность: Інформаційні управляючі системи та технології

Тема випускної роботи:

Розробка комп'ютеризованої системи контролю доступу з використанням аутентифікації по голосу

Науковий керівник: к.т.н., доцент Привалов Максим Володимирович

РЕФЕРАТ

кваліфікаційної роботи магістра

«Розробка комп'ютеризованої системи контролю доступу з використанням аутентифікації по голосу»

ВСТУП

ВВЕДЕНИЕ

  1. АКТУАЛЬНІСТЬ ТЕМИ РОБОТИ
  2. МЕТА І ЗАДАЧІ
  3. ПЛАНОВАНА НАУКОВА НОВИЗНА
  4. ОГЛЯД ДОСЛІДЖЕНЬ І РОЗРОБОК ЗА ТЕМОЮ
    4.1 На національному рівні
    4.2 На глобальному рівні
  5. ОПИС ОБ'ЄКТА КОМП’ЮТЕРИЗАЦІЇ
  6. АНАЛІЗ УНІКАЛЬНИХ ІНДИВІДУАЛЬНИХ ОЗНАК, ЩО ХАРАКТЕРИЗУЮТЬ ОСОБУ ДИКТОРА
  7. ВИБІР СТРУКТУРИ КОМП’ЮТЕРИЗОВАНОЇ СИСТЕМИ КОНТРОЛЮ ДОСТУПУ З ВИКОРИСТАННЯМ АУТЕНТИФІКАЦІЇ ПО ГОЛОСУ
  8. ЗАПЛАНОВАНІ ПРАКТИЧНІ РЕЗУЛЬТАТИ
ВИСНОВКИ
СПИСОК ЛІТЕРАТУРИ



ВСТУП



Інформація у наш час – найдорожчий та найпотрібніший товар. Вона дає владу над людськими масами або дозволяє обігнати конкурентів. На захист інформації мобілізовані найвищі технології. Найперше їхнє завдання – не допустити до неї сторонньої людини, тобто надійно розпізнати, хто «свій», а хто ні. Та, якщо карту доступу можна елементарно вкрасти, а PIN-коди не особливо зручні, їх доводиться запам'ятовувати і кожного разу вводити. Очевидний вихід – використовувати для ідентифікації саме людське тіло, його параметри, по-науковому звані біометричними.

Серед різних біометричних систем голосова аутентифікація має наступні переваги:

  • звичний для людини спосіб аутентифікації;
  • голос невід’ємний від людини (на відміну від ключа, магнітної картки і навіть пальця з його відбитками), його неможливо вкрасти або забути вдома;
  • особистість автора мови може бути визначена без безпосереднього контакту з пропускною системою (як це необхідно для відбитка пальця, долоні, підпису), можливо використання телефонного каналу;
  • можливість проводити приховану аутентифікацію, що неможливо для інших біометричних систем;
  • для аутентифікації по голосу не потрібні складні дорогі зчитувачі біометричної інформації.



1 АКТУАЛЬНІСТЬ ТЕМИ РОБОТИ



Перед будь-яким підприємством у сучасному світі гостро стоїть проблема захисту від несанкціонованого доступу до своїх матеріальних (приміщення, будівлі) і віртуальних (комп'ютерні бази даних) ресурсів. Біометричне рішення цієї проблеми – найбільш надійна і комплексна технологія, з існуючих у світі технологій, в галузі розробки рішень по аутентифікації користувачів.

Згідно міжнародної конференції, присвяченої «голосовій біометрії», яка щорічно проводиться в США, аутентифікація по голосу стрімко розвивається і з кожним роком користується все більшим попитом [1]. Проте до сих пір невирішеним питанням залишається вибір оптимального набору ознак, які б мінімізували помилки першого і другого роду.



2 МЕТА І ЗАДАЧІ



Метою магістерської роботи є мінімізація помилок 1-го і 2-го роду і збільшення швидкості аутентифікації в комп'ютеризованій системі контролю доступу з використанням аутентифікації по голосу.

Для досягнення мети магістерської роботи необхідно вирішити наступні задачі:

  1. Аналіз унікальних індивідуальних ознак, що характеризують особу диктора.
  2. Обгрунтування і вибір цих ознак.
  3. Обгрунтування і вибір методів класифікації дикторів.
  4. Розробка структури комп'ютеризованої системи контролю доступу з використанням аутентифікації по голосу.
  5. Розроблення забезпечувальної частини даної комп'ютеризованої системи.
  6. Тестування системи.



3 ПЛАНОВАНА НАУКОВА НОВИЗНА



Планована наукова новизна магістерської роботи: мінімізація помилок 1-го і 2-го роду за рахунок вибору ефективної комбінації методів виділення унікальних ознак та їх класифікаторів.



4 ОГЛЯД ДОСЛІДЖЕНЬ І РОЗРОБОК ЗА ТЕМОЮ



4.1 На національному рівні

У нашій країні, на відміну від країн зарубіжжя, практично відсутні дослідження і розробки по даній темі. В Україні даною темою займаються в Інституті проблем штучного інтелекту [2], Харківському національному університеті радіоелектроніки [3], Національному технічному університеті України «Київському політехнічному інституті» [4].

4.2 На глобальному рівні

Розглянемо наступні закордонні системи:

  • Voice Key Service;
  • SPIRIT SV-система;
  • Speech Secure.

Voice Key Service – система голосової біометричної аутентифікації, розроблена російською компанією «Центр мовних технологій» (ЦМТ) [5].

Технологія Voice Key використовує унікальні характеристики фізіологічної будови мовного тракту кожної людини. В її основі лежить запатентований компанією ЦМТ алгоритм, що використовує спектрально-формантний метод виділення і порівняння біометричних ознак.

Переваги:

  • два рівні захисту (порівняння біометричних даних + перевірка пароля);
  • верифікація у телефонному каналі;
  • можливість працювати у зашумлених умовах;
  • незалежність від національної мови або діалекту.

Недоліки:

  • висока собівартість;
  • система не володіє можливістю встановлення параметрів для кожної програми.

SPIRIT SV-система – система аутентифікації, розроблена російською компанією SPIRIT Corp [6].

Ця система здатна працювати у різних умовах: від аутентифікації диктора для локальних систем безпеки до віддаленої аутентифікації по телефону, що може бути застосовано, наприклад, для банківських служб та електронної комерції. Конкретне рішення може бути зроблено SPIRIT Corp., включаючи портінг системи на задану платформу та забезпечення телекомунікаційної підтримки.

Введений диктором мовний сигнал (після запиту системи) зазнає наступної обробки: попередня фільтрація; еквалайзінг для компенсації лінійних спотворень в мікрофоні і телефонної лінії; виключення ділянок сигналу, що не містять мови; інтелектуальне детектування найменш зашумленних ділянок мовного сигналу; виділення інформативних ознак із зазначених ділянок мовного сигналу (як правило, це спектральні ознаки, зокрема, кепстральних коефіцієнти або їх модифікації). Інформативні ознаки містять інформацію про текст парольної фрази та особливості її вимови конкретним диктором. Потім відбувається класифікація мовного зразку. При аутентифікації здійснюється оцінка близькості зразка до еталону (моделі цього диктора) і робиться порівняння цієї оцінки з порогом.

Прийняття рішення відбувається по мінімуму відстані між пропонованим зразком і найближчою моделлю з набору моделей голосів дикторів, що входять в задану групу. Відбір на предмет приналежності до групи здійснюється шляхом порівняння зазначеної відстані з порогом.

Система виконана на платформі WINTEL з наступними мінімальними вимогами: платформа Win32 (Windows 98SE/2000), процесор Intel Pentium MMX 200 MHz або вище, ОЗУ 32 Мб, звукова карта, мікрофон, навушники, середа MS Visual C + + 6.0.

Переваги:

  • можливість аутентифікації у телефонному каналі;
  • можливість працювати у зашумленних умовах;
  • незалежність від мови і словників;
  • здатна працювати у текстозалежному режимі і у режимі підказок.

Недоліки:

  • висока собівартість;
  • для надійної роботи вимагає обмеження на 10-15 користувачів, що не підходить для використання в умовах більшої чисельності користувачів системи доступу;
  • відсутня можливість додаткової аутентифікації (перевірки введеного пароля, наприклад, з клавіатури) для збільшення рівня надійності;
  • система не володіє можливістю встановлення параметрів для кожної програми.

Speech Secure – система ідентифікації голосу, розроблена американською компанією Nuance Technology [7].

Спочатку в процесі реєстрації, система за спеціальними алгоритмами, створює модель голосу, використовуючи унікальні характеристики голосу того, хто телефонує. Система зберігає моделі голосу (опис структури голосу і особливостей голосового тракту) як частину профілю абонента. Під час аутентифікації (ідентифікації) ці моделі використовуються для визначення рівня відповідності голосу того, хто телефонує голосам записаних раніше людей. На основі цієї інформації система приймає рішення щодо проведення операції.

Система доступна через веб-інтерфейс.

Повна версія включає:

  • Машину аутентифікації. Біометричний додаток ідентифікує людину за унікальною голосовою моделлю.
  • Сервер. Веб-сервіси для використання з будь-якою голосовою платформою з управлінням базою даних голосових моделей.

Переваги:

  • легко інтегрується в систему будь-якої архітектури;
  • можливість працювати у зашумлених умовах;
  • зменшує ймовірність фальсифікацій і шахрайства при використанні бази даних підозрілих голосів, і перемиканні підозрілих абонентів на службу безпеки.

Недоліки:

  • висока собівартість;
  • володіє надлишком функцій, внаслідок чого має складне налаштування.



5 ОПИС ОБ'ЄКТА КОМП’ЮТЕРИЗАЦІЇ



Об'єктом комп'ютеризації у даній роботі є система контролю доступу з використанням аутентифікації по голосу.

Аутентифікація диктора – спосіб перевірки автентичності, який дозволяє достовірно переконатися в тому, що суб'єкт дійсно є тим, за кого він себе видає, на підставі порівняння голосу з еталоном.

Під голосовою аутентифікацією полягає наступна ситуація [8]. Диктор вимовляє фразу, а комп'ютеризована система розпізнавання індивідуальних характеристик голосу повинна підтвердити або спростувати індивідуальність того, хто говорить. Взагалі вимовити фразу може як істинний користувач, так і зловмисник. Задаючись вартістю витрат у випадку можливого несанкціонованого доступу зловмисника, можна (для даної системи) розрахувати ймовірність, з якою система не повинна пропускати чужого.

Завданням початкового етапу аутентифікації диктора за тембром голосу є перетворення в мовний сигнал звуків, що генеруються речовою системою людини [9]. Звук, як відомо, являє собою механічні коливання, що поширюються в навколишньому середовищі (середовищем розповсюдження служить повітря). Тиск звукової хвилі сприймається мікрофоном і перетворюється їм в електричний аналоговий сигнал.

Для подальшої обробки необхідно провести перетворення інформаційного образу мови з аналогового сигналу в дискретний. Це завдання вирішує аналого-цифровий перетворювач. АЦП здійснює дискретизацію і квантування мовного сигналу.

Дискретизація полягає в розбитті безперервного сигналу на ряд дискретних відліків, кожен з яких представляє значення аналогового сигналу у відповідний момент часу. Дискретизація дозволяє скоротити кількість інформації, що підлягає подальшій обробці, до необхідного мінімуму. Однак частота дискретизації, тобто число відліків у секунду, повинна бути достатньо великою, інакше можуть бути пропущені важливі зміни сигналу, присутні у його аналогової формі. Згідно теоремі Котельникова частота дискретизації F0 повинна бути, як мінімум, у два рази вище максимальної частоти даного сигналу Fmах. При меншій частоті дискретизації починає губитися інформація, яка активно використовується при розпізнаванні. Особливо це важливо для розпізнавання в умовах шумів. Але сильно збільшувати частоту дискретизації немає сенсу: при незначному збільшенні корисної інформації починає збільшуватися кількість непотрібної інформації (шумів). На практиці частоту дискретизації треба обирати навіть дещо більше, ніж рекомендує теорема Котельникова, так як в теоремі розглядається ідеалізований випадок. Частотний діапазон мови знаходиться в діапазоні 100-4000 Гц. Оскільки максимальна частота мови Fmах=4 кГц, то F0 має бути дещо більше, ніж 3*Fmах=12 кГц. У нашому випадку ми використовуємо частоту дискретизації F0 =22050 Гц.

Квантування полягає в округленні заміряного аналогового сигналу з точністю до молодшого розряду АЦП. Таким чином, квантований сигнал може приймати тільки фіксовані значення з кроком, рівним ціні молодшого розряду, в той час, як вихідний сигнал був безперервним і міг приймати будь-яке значення. Необхідна кількість розрядів АЦП n можна визначити з виразу:

D = 6n + 1,8 (5.1)

де D - необхідний динамічний діапазон в дБ. Інтенсивність звуку під час промови змінюється приблизно від 20 дБ (шепіт) до 70 дБ (голосна розмова), таким чином динамічний діапазон може досягати 50 дБ. Виходячи з цього кількість розрядів АЦП має бути не менше 8. У нашому випадку ми використовуємо розрядність 16 біт.

Найважливішим параметром систем аутентифікації є коефіцієнт надійності – ймовірність помилок 1-го і 2-го роду.

Помилки виникають в результаті того, що при порівнянні реального ідентифікатора та ідентифікатора в базі даних існує складність досягнення ідеальної відповідності (100% збігу). Тому вводиться поріг, який однозначно повинен визначити відсоток відповідності, при якому ідентифікатор буде визнаний відповідним. Запровадження такого порогу може призвести до помилок:

  • Помилка першого роду (FRR – False Rejection Rate) – «не впізнати свого», тобто приймається рішення «чужий», хоча насправді суб'єкт присутній у списку зареєстрованих користувачів.
  • Помилка другого роду (FAR – False Acceptance Rate) – «пропустити чужого», тобто приймається рішення «свій», хоча, насправді, суб'єкт відсутній у списку зареєстрованих користувачів.

Кожна дана система може перебудовуватися таким чином, що помилки одного роду можуть бути зменшені за рахунок збільшення помилок іншого роду (навіть при збереженні всіх інших факторів, що впливають на ймовірність помилки: тривалість і характер мовного повідомлення, перешкоди і т.п.). Зміна співвідношення помилок першого і другого роду досягається за рахунок зміни порогу прийняття рішення та вибору набору ознак.



6 АНАЛІЗ УНІКАЛЬНИХ ІНДИВІДУАЛЬНИХ ОЗНАК, ЩО ХАРАКТЕРИЗУЮТЬ ОСОБУ ДИКТОРА



Найважливішим елементом успішного розпізнавання дикторів є вибір інформативних ознак (мовних параметрів), здатних ефективно представляти інформацію про особливості мови конкретного диктора.

До них пред'являються наступні вимоги:

  • ефективність представлення інформації про особливості мови конкретного диктора;
  • простота вимірювання;
  • стабільність у часі;
  • часта поява у мові;
  • несприйнятливість до імітації.

У якості унікального вектора ознак можна використовувати одномірний частотний вектор кепстральних коефіцієнтів, а також вектор складений з його похідних [10].

Кепстральні коефіцієнти визначаються відповідно до схеми, представленої на рис. 6.1:

Рисунок 6.1 – Загальна схема кепстрального аналізу сигналу (FFT – блок швидкого перетворення Фур'є сигналу, LOG – блок логарифмування спектру, IFFT – блок зворотного швидкого перетворення Фур'є)

Лінійне передбачення є одним з найбільш ефективних методів при оцінці основних параметрів мовного сигналу, таких як, наприклад, період основного тону, функція площі мовного тракту і т.п. Важливість методу обумовлена високою точністю одержаних оцінок і відносною простотою обчислень.

Основний принцип методу лінійного передбачення полягає в тому, що поточний відлік мовного сигналу можна апроксимувати лінійною комбінацією попередніх відліків. Коефіцієнти передбачення при цьому визначаються однозначно мінімізацією середнього квадрата різниці між відліками мовного сигналу і їх передбаченими значеннями (на кінцевому інтервалі) [11].

Ще в якості вектора ознак можна використовувати коефіцієнти відбиття. Фізичний сенс коефіцієнтів відбиття полягає у визначенні величини хвилі, відбитої на кордоні двох акустичних труб.

Коефіцієнти відбиття розраховуються шляхом перетворення вектора коефіцієнтів фільтра передбачення a в коефіцієнти відбиття відповідної решітчастої структури по наступному рекурсивному алгоритму:

k(n)=an(n)

(6.1)
(6.2)

Дані формули базуються на рекурсивному алгоритмі Левінсона. Для його реалізації у циклі перебираються елементи вектора a, починаючи з останнього і закінчуючи другим.

Іноді використовуються також функції від коефіцієнтів відбиття – логарифмічні співвідношення площ (Log-Area Ratio – LAR) [12]:

(6.3)

де ki – коефіцієнти відбиття.

Ще однією ознакою є площі поперечних перерізів акустичних труб. Голосовий тракт можна представити у вигляді послідовності р акустичних труб однакової довжини і різних діаметрів, які мають площі поперечних перерізів Ai [13]. Площі поперечних перерізів Ai акустичних труб обчислюється через коефіцієнти віддзеркалення:

(6.4)

де р – порядок лінійного передбачення, ki – коефіцієнти відбиття. (A2 ,..., Ap+1) – вектор ознак, що базується на площах акустичної труби.

Зауважимо, що коефіцієнти відбиття визначають співвідношення площ сусідніх секцій. Таким чином, площі поперечного перерізу не визначаються абсолютно точно, але все ж таки ці площі часто бувають подібними з конфігурацією голосового тракту, який використовується людиною при мовотворення.



7 ВИБІР СТРУКТУРИ КОМП’ЮТЕРИЗОВАНОЇ СИСТЕМИ КОНТРОЛЮ ДОСТУПУ З ВИКОРИСТАННЯМ АУТЕНТИФІКАЦІЇ ПО ГОЛОСУ



Структура комп'ютеризованої системи контролю доступу з використанням аутентифікації по голосу представлена на рис. 7.1.

Рисунок 7.1 – Структура комп'ютеризованої системи контролю доступу з використанням аутентифікації по голосу (анімація: об'єм – 50 756 байт; розмір – 779х459; складається з 4 кадрів; затримка між останнім і першим кадрами – 1 500 мс; затримка між кадрами – 800 мс; цикл повторення – безперервний)

Ця система складається з двох основних підсистем: підсистеми введення мовного сигналу і підсистеми аутентифікації. Перша розташована на стороні клієнта і забезпечує введення мовного повідомлення користувача через мікрофон, який записується у файл .wav з форматом аудіо PCM, 22050 кГц, 16 біт, моно. Сформований сигнал з цієї підсистеми направляється на серверну підсистему аутентифікації, яка складається з бази даних, блоку параметризації, навчання, кластеризації та прийняття рішень. У блоці параметризації відбувається виділення ознак, що характеризують особу диктора. Блок кластеризації використовує дані блоку навчання і поточний параметризований сигнал. На основі даних класифікації та порогового значення блок прийняття рішення формує рішення: диктор свій чи чужий. Сформований результат надходить (в залежності від конкретних задач) або на виконавчий пристрій, або у підсистему авторизації.



8 ЗАПЛАНОВАНІ ПРАКТИЧНІ РЕЗУЛЬТАТИ



Після аналізу унікальних індивідуальних ознак, що характеризують особу диктора, а також методів класифікації дикторів, на підставі практичних результатів досліджень виберемо ті ознаки (у поєднанні з певним ефективним класифікатором), які будуть мати найкращі показники, тобто найменші помилки першого і другого роду. При цьому швидкість аутентифікації повинна бути не більше 30 сек.

Далі планується розробка забезпечувальної частини даної комп'ютеризованої системи з використанням найбільш ефективної ознаки або їх комбінації та обраного методу класифікації. Потім буде проведено тестування системи і необхідне налаштування.



ВИСНОВКИ



У ході виконання науково-дослідницької роботи були проаналізовані існуючі комп'ютеризовані системи контролю доступу з використанням аутентифікації по голосу та виявлено їх недоліки.

Після аналізу унікальних індивідуальних ознак, що характеризують особу диктора, вибрали ті ознаки, які прості у вимірюванні та дають уявлення про особливості мови конкретного диктора.

Також запропонована структура комп'ютеризованої системи контролю доступу з використанням аутентифікації по голосу.



СПИСОК ЛІТЕРАТУРИ



  1. Г.Н. Зубов, М.В.Хитров, Состояние и перспективы голосовой биометрии, 2007. [Электронный ресурс]: Режим доступа: URL:  http://www.chip-news.ru/archive/chipnews/200710/Article_12.pdf
  2. А.С. Алексеев, Е.Е. Федоров, Количественный анализ систем признаков и методов идентификации, Штучний інтелект, Институт проблем искусственного интеллекта,г.Донецк, № 3, 2005. [Электронный ресурс]: Режим доступа: URL:  http://www.iai.dn.ua/ public/JournalAI_2005_3/Razdel7/02_Alekseev_Fedorov.pdf
  3. Научная библиотека ХНУРЭ. [Электронный ресурс]: Режим доступа: URL:  http://lib.kture.kharkov.ua/ua/bibllist/2.php
  4. Научная электронная библиотека «ВЕДА». [Электронный ресурс]: Режим доступа: URL:  http://www.lib.ua-ru.net/diss/cont/15579.html
  5. Ю.Н. Хитрова, Применение речевой биометрии в системах ограничения доступа. [Электронный ресурс]: Режим доступа: URL: http://www.e-expo.ru/docs/sp/cat/data/media/18_ru.pdf
  6. В.А.Свириденко, П.В.Мартынович, Системы верификации и идентификации диктора от SPIRIT Corp. [Электронный ресурс]: Режим доступа: URL:  http://www.dancom.ru/rus/AIA/Archive/RUII_SPIRIT_ DOKLAD_R.pdf
  7. Официальный сайт американской компании Nuance Technology. [Электронный ресурс]: Режим доступа: URL: www.nuance-tech.com
  8. В.И. Галунов, Верификация и идентификация говорящего, С-Петербургский государственный университет, 2007.[Электронный ресурс]: Режим доступа: URL:  http://www.auditech.ru/article/cntrid/click.php?action=download&id=21
  9. Кучерявый А.А. Бортовые информационные системы: Курс лекций / Под ред. В.А. Мишина и Г.И. Клюева. - 2-е изд. перераб. и доп. - Ульяновск: УлГТУ, 2004. - 504 с.
  10. Т.В.Шарий, О проблеме параметризации речевого сигнала в современных системах распознавания речи, Вісник Донецького національного університету,Сер.А:Природничі науки, № 2, 2008. [Электронный ресурс]: Режим доступа: URL: http://www.nbuv.gov.ua/ portal/Natural/VDU/a/2008_2/Control%20systems/9_Shariy.pdf
  11. Маркел Дж., Грей А. Х. Линейное предсказание речи / Пер. с англ. М.: Связь, 1980.
  12. David Chow, Waleed H. Abdulla Robust Speaker Identification Based on Perceptual Log Area Ratio and Gaussian Mixture Models. Auckland, New Zealand, 2002
  13. Л.Р. Рабинер, Р.В. Шафер, Цифровая обработка речевых сигналов, М.: Радио и связь, 1981. - 495с



При написанні даного автореферату магістерська робота ще не завершена. Остаточне завершення: грудень 2010 р. Повний текст роботи й матеріали по темі можуть бути отримані в автора або його керівника після зазначеної дати.

© ДонНТУ 2010, Кулібаба О.В.

ДонНТУ >> Портал магістрів ДонНТУ
Автобіографія| Реферат