Назад

Стояновский С.Ю.

Сжатие речевых сигналов с использованием ортогональных и биортогональных вейвлет-функций/Світ інформації та телекомунікацій - 2005. Матеріали ІІ міжнародної науково-технічної конференції студенства та молоді. Київ 2005, 174 с.

 

Развитие современных телекоммуникационных сетей характеризуется увеличением доли мультимедийного трафика. Важной составляющей мультимедийного трафика является аудио информация, и в частности речевая информация. Таким образом, актуальной является задача сжатия речевой информации.

На сегодняшний день известны следующие методы сжатия[2,3]:

1. Кодирование формы сигнала – ИКМ, дельта модуляция, ДИКМ, АДИКМ, дискретное косинусное преобразование, субполосное кодирование и т.д.

2. Кодирование параметров речевого сигнала – вокодирование.

3. Гибридное или параметрическое кодирование - полувокодеры.

Наиболее эффективные методы сжатия речевых сигналов основаны на декомпозиции исходного сигнала на компоненты и кодировании этих компонент. Речевые сигналы относятся к классу нестационарных сигналов, что во многом затрудняет их корректную декомпозицию, т.к. большинство методов разложения сигналов, например метод спектрального разложения, построены на предположении о стационарности разлагаемого сигнала.

Одним из эффективных современных методов декомпозиции нестационарных сигналов является метод вейвлет анализа. Он основан на разложении исходного сигнала на элементарные компоненты (вейвлеты) имеющие локализацию как в частотной так и во временной области [1,4]. В данной работе, для проведения исследований, использовался алгоритм Малла (быстрое вейвлет-преобразование) [1,4].

На рисунке 1 представлена диаграмма реализации быстро­го многошагового алгоритма Малла на основе вейвлет-фильтрации. Для нагляд­ности здесь сигнал представлен 1000 отсчетами и схематично показаны АЧХ согласованных фильтров нижних частот (L) и верхних частот (Н). Из этой диаграммы легко проследить за процессом декомпозиции и реставрации сигнала.

Рис 1. Структура многошагового алгоритма Малла при декомпозиции
и реставрации сигнала

 

Рис 2. Структура вейвлет-представления сигнала

В результате этого процесса исходный сигнал S раскладывается на вейвлет-компоненты вплоть до заданного уровня декомпозиции, после чего, в ходе реконструкции, восстанавливается до приближенного сигнала S'. Сте­пень приближения зависит от уровня декомпозиции и реконструкции. Нулевой уровень соответствует точному восстановлению сигнала S. Рисунок 2 пока­зывает обычную диаграмму разложения (сверху-вниз) и реко нструкции (снизу- вверх) сигнала S .

На этой диаграмме коэффициенты аппроксимации сигнала обозначены как А, а детализирующие коэффициенты как D. Цифры указывают на уровень декомпозиции и реконструкции сигнала (нулевой уровень отдельно не указыва­ ется, это есть сам сигнал S).

Также для исследований были подобраны материнские вейвлет-функции наиболее подходящие для исследования голосовых сигналов. Исходя из свойств голосовых сигналов, были выбраны вейвлеты двух следующих семейств: ортогональные вейвлеты с компактным носителем и биортогональные парные вейвлеты с компактным носителем.

В качестве исследуемых сигналов, на разных стадиях, были взяты два следующих голосовых сигнала:

1. Первый сигнал – “раз, два, три”: длительность 1,8583 сек., 16 бит, с частотой дискретизации 8000 Гц, 14866 отсчетов. Временная реализация данного сигнала изображена на рисунке 3.

Рис. 3. Исходный голосовой сигнал для первоначальных исследований

2. Второй сигнал – “понятие “вейвлет” появилось сравнительно недавно – его ввели Гроссман и Морле в середине 80-х годов в связи с анализом свойств сейсмических и акустических сигналов ”: длительность 11 секунд, 16 бит, частота дискретизации 8000 Гц, 94508 отсчетов. Временная реализация данного сигнала изображена на рисунке 4.

Рис. 4. Исходный голосовой сигнал для третьего исследования.

Первое исследование было направлено на выбор наиболее подходящих материнских вейвлетов по критерию степени сжатия и качества воспроизведения декомпрессированного сигнала. На этом этапе мы взяли 17 разнообразных вейвлетов. Также на первом этапе исследовались вейвлеты различных порядков. Разложение осуществлялось на 10 уровней. Экспертная оценка качества воспроизведения декомпрессированного сигнала осуществлялась по 10 бальной шкале. Предпочтение в большей степени отдавалось вейвлетам, которые наиболее подходят по форме к элементам голосового сигнала.

После проведенного исследования были выбраны следующие вейвлеты: bior3.5, bior3.7, db7, rbio3.5, rbio5.5, coif5, sym7. При использовании данных материнских вейвлетов был достигнут коэффициент сжатия около 80% с нормальной разборчивостью декомпресированного сигнала (7 баллов).

Второе исследование было направлено на нахождение оптимального глобального порога по критерию наилучшего качества воспроизведения для определения лучшего вейвлета. Для этого был взят тот же сигнал (рисунок 3) и выбранные после первого исследования вейвлеты. В данном же исследовании изменялось количество не информативных компонент (нулей), в массиве коэффициентов, от 0 до 92 процентов.

Во время проведения исследования выяснилось, что при выставлении процента нулей от 0 до 60, воспроизведенный сигнал практически идентичен исходному, поэтому основное внимание акцентировалось на промежутке от 60 до 92%, где уже более явно проявлялись искажения в большей или меньшей степени. Рассматривая данный промежуток, можно сказать, что все сигналы изменялись практически одинаково. Однако мы все-таки выделили один вейвлет, который в очень незначительной степени проявляет лучшие качества, чем остальные. Такие выводы были сделаны исходя из анализа обоих исследований. Это вейвлет bior3.5.На рисунке 5 показан вейвлет bior3.5.

Рис. 5. Вейвлет bior3.5.

Как видно из рисунка 5 данный вейвлет содержит в себе как низкочастотные, так и высокочастотные компоненты. Это свойство наиболее подходит для исследования голосовых сигналов, т.к. эти сигналы состоят из высокочастотных и низкочастотных компонент.

 

В третьем исследовании использовался сигнал изображенный на рисунке 4. Оно было направлено на определение оптимального коэффициента сжатия при заданном качестве воспроизведения и нахождение оптимального способа задания локальных порогов. Локальные пороги представляют собой уровни чувствительности к изменению детализирующих коэффициентов. Разложение проводилось на 10 уровней, при этом был получен оптимальный коэффициент сжатия, который составляет 80% и оптимальный способ выставления локальных порогов, показанный на рисунке 6.

В данной работе показано, что возможно использование ортогональных и биортогональных вейвлет-функций для сжатия речевых сигналов. Проведенные исследования показали, что наибольшую эффективность с точки зрения коэффициента сжатия и качества декомпрессированного сигнала является В-сплайновый биортогональный вейвлет порядка 3.5. Также были произведены исследования по подбору локальных пороговых значений для различных уровней декомпозиции сигнала. В результате коэффициент сжатия достиг 80% при удовлетворительном качестве восстановленного сигнала.

Список литературы

1. Дьяконов В.П. Вейвлеты. От теории к практике. –М.: СОЛОН-Р, –2002. 448 с.

2. Ковалгин Ю.А., Вологдин Э.И. Цифровое кодирование звуковых сигналов. – СПб.: КОРОНА-принт, 2004. – 240 с., ил.

3. Рафинер Л.Р., Шафер Л.В. Цифровая обработка речевых сигналов. – М.: Радио и связь, 1981. – 496с., ил.

4. Смоленцев Н.К. Основы теории вейвлетов. Вейвлеты в MATLAB. – М.: ДМК Пресс, 2005. – 304 сл., ил.

 

Назад

ВВЕРХ