АЛГОРИТМ РОБОТИ ДЕТЕКТОРА МОВИ ЗАСНОВАНОМУ НА ЕНТРОПІЙНОМУ МЕТОДІ З ВИКОРИСТАННЯМ АПАРАТУ WAVELET-ПЕРЕТВОРЕННЯ

Будішевский Д.С., магистрант, Дегтяренко І.В., доц.
(Донецький національний технічний університет, г. Донецк, Украина)

This paper describes a voice activity detector (VAD), which uses mathematical tools of wavelet analysis. Entropy method is applied to make a decision about the presence of voice or noise in the frame, which is received by VAD.

Найважливішою якістю для послуги VoIP є безпомилкова передача мови, навіть при наявності оточуючих шумів. Отже, звідси виникає задача якісного детектування мови у зашумленому сигналі. Для цього використовується пристрій VAD (Voice Activity Detection) – детектор мови. Для опису локальних особливостей неоднорідних сигналів, к яким належить мовний сигнал, останнім часом ефективно використовується вейвлет-перетворення, яке забезпечує рухоме частотно-часове вікно аналізу та адаптовано до локальних властивостей сигналу [2,3].

Звідси, метою дослідження є підвищення вірогідності детектування мовного сигналу в каналі VoIP за рахунок розробки алгоритму VAD, що використовує математичний апарат вейвлет-перетворення.

Модель VAD з використанням вейвлет-перетворення була розроблена в середовищі matlab. На вхід моделі поступає зашумлений звуковий wavсигнал з частотою дискретизації 44100 Гц – це слова “you’ll see very soon”, вимовлені жіночим голосом. На блок “Навчання системи” надходить вхідний зашумлений сигнал f(t). В якості шуму використовується Гаусів білий шум. Відомо, що перші п’ять фреймів сигналу не містять мови і являють собою шум. На цьому етапі визначається середнє значення спектральної ентропії H(f_threshold)перших п’яти фреймів і позначається як граничне.

У блоці “Прийняття рішення” розраховується спектральна ентропія наступних фреймів і порівнюється за граничним значенням:

де – спектральна щільність k-ої компоненти спектру, Хk – спектральні коефіцієнти БПФ.

де n – спектральна ентропія n-го фрейму.

В блоці “Фінальна обробка” відбувається віднімання деталізуючих коефіцієнтів шуму з вхідного сигналу.

В якості критерію ефективності в роботі виступає ймовірність вірного визначення фрейму, що містить голос, при заданому рівні відношення сигнал-шум:

де N_voice – кількість вірно визначених голосових фреймів, N_overall – загальна кількість фреймів, що містять голос.

Рисунок 1 – Графік залежності ймовірності вірного визначення голосового фрейму P_voiceвід відношення сигнал-шум (SNR)

Висновки

Як видно з результатів дослідження, виграш застосування вейвлет-перетворення замість швидкого перетворення Фур’є в ентропійному методі розпізнавання мови становить до 20%. Цей виграш помічається при відносно шумному сигналі – при відношенні сигнал-шум менш, ніж 15 dB.

Список літератури

1. Гольдштейн Б.С. IP-телефония./ Радио и связь. – Москва.–2001. – 335 с.
2. Kung-Ching Wang. Robust Voice Activity Detection Based on Discrete Wavelet./ Department of Information Technology & Communication. – Shin Chien University. – 2007. – 13 p.
3. R. Venkatesha Prasad, AbhjeetSangwan, Vishal Guarav. Comparsion of Voice Activity Detection Algorithms for VoIP./ CEDT. – Indian Institute of Science. – 2002. – 6 p.
4. Добеши И. Десять лекций по вейвлетам./ Регулярная и хаотическая динамика. – Ижевск. – 2001. – 464 с.
5. Смоленцев Н.К. Основытеориивейвлетов. Вейвлеты в Matlab./ – ДМК. – Москва. – 2005. – 304 с.