Библиотека

 

 

 

Ссылки

 

 

 

Магистерская

 

работа

 

 

 

Результаты

 

поиска

 

 

 

Индивидуальное

 

задание

 

 

 

Сайт ДонНТУ

 

 

 

Магистры ДонНТУ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Тема магистерской работы: "Розработка и исследование алгоритма сжатия голосовых данных с использованием вейвлет-преобразований"

 

Руководитель: профессор кафедры АТ - Хорхордин А.В.

 

 

 

 

Актуальность

 

В последнее десятилетие в мире возникло и оформилось новое научное направление, связанное с т ак называемым вейвлет-преобразованием. Слово < wavelet >, являющееся переводом с французского « ondelette », означает небольшие волны, следующие друг з a другом.

Вейвлеты по существу являются новыми математическими понятиями и объектами, применение которых может теоретически строго и впрямь прибли­зить любую функцию или любой сигнал. Поэтому они весьма перспективны в ре­шении многих математических задач приближения (интерполяции, аппрокси­мации, регрессии и т. д.) функций, сигналов и изображений. Вейвлет-обработка сигналов обеспечивает возможность весьма эффективного сжатия сигналов и их восстановления с малыми потерями информации, а также решение задач филь­трации сигналов. Таким образом, вейвлеты существенно пополняют (а вовсе не опустошают) привычный гардероб традиционных средств обработки сигналов и изображений.

Но особенно важна принципиальная возможность вейвлетов представлять нестационарные сигналы, например, состоящие из разных компонент, действую­щих в разные промежутки времени, модулированные сигналы и т. д. Такие сиг­налы в наше время находят куда более широкое применение, чем стационарные или квазистационарные (искусственно сводящиеся к стационарным) сигналы, а также процессы и системы их порождающие. Как известно, ряды и преобразова­ния Фурье в классическом виде непригодны для представления нестационарных сигналов, процессов и систем. Поэтому возможность их представления вейвлетами трудно переоценить.

Поистине неисчерпаемы возможности вейвлетов в обработке сигналов и изо­бражений, например, для Интернета с его ограниченной пропускной способ­ностью каналов передачи информации, или в минимизации объема звуковых и видео файлов. Они включены и в расширения новейших систем компьютерной математики (СКМ), таких как MATLAB , Mathcad и Mathematica .

 

Механизм образования голосовых сигналов

  Для того чтобы научиться применять методы цифровой обра­ботки сигналов в задачах связи, надо хорошо представлять ос­новные положения как теории речеобразования, так и теории циф­ровой обработки сигналов. В данной подглаве приведен обзор особенностей образования голосового сигнала и различные способы представления голоса.

Голосовой сигнал состоит из последовательности звуков. Звуки и переходы между ними служат символическим представлением информации. Порядок следования звуков (символов) определяется правилами языка. Изучение этих правил и их роли в общении между людьми составляет предмет лингвистики, анализ и классификация самих звуков речи — предмет фонетики. Однако при обработке голосовых сигналов с целью повышения их информативного содержа­ния либо для выделения содержащейся в сигнале информации по­лезно располагать как можно большим количеством сведений о структуре сигнала, например о способе кодирования информации в сигнале. Таким образом, прежде всего необходимо рассмотреть основ­ные группы звуков речи.

Звуки речи могут быть разделены на три четко выраженные группы по типу возбуждения. Вокализованные звуки образуются проталкиванием воздуха через голосовую щель, при котором пе­риодически напрягаются и расслабляются голосовые связки и воз­никает квазипериодическая последовательность импульсов потока воздуха, возбуждающая голосовой тракт. Фри­кативные или невокализованные звуки генерируются при сужении голосового тракта в каком-либо месте (обычно в конце рта) и проталкивании воздуха через суженное место со скоростью, доста­точно высокой для образования турбулентного воздушного пото­ка. Таким образом, формируется источник широкополосного шума, возбуждающего голосовой тракт. При произнесении взрывных звуков голосовой тракт полностью за­крывается (обычно в начале голосового тракта). За этой смычкой возникает повышенное сжатие воздуха. Затем воздух внезапно высвобождается. Голосовой тракт и носовая полость показа­ны на рис. 1.2 в виде труб с переменной по продольной оси пло­щадью поперечного сечения.

 

 

Рис. 1 Схематическое изображение звукообразующих органов человека

 

При прохождении звуковых волн че­рез эти трубы их частотный спектр изменяется в соответствии с частотной избирательностью трубы. Этот эффект похож на резо­нансные явления, происходящие в трубах органов и духовых му­зыкальных инструментов. При описании образования голосовых сигналов резо­нансные частоты трубы голосового тракта называют формантными частотами или просто формантами. Формантные частоты зави­сят от конфигурации и размеров голосового тракта: произвольная форма тракта может быть описана набором формантных частот. Различные звуки образуются путем изменения формы голосового тракта. Таким образом, спектральные свойства голосового сигнала изменяются во времени в соответствии с изменением формы голосового тракта.

 

Цифровое кодирование речи

 

По мере того как развивается цифровая техника и становится более экономичной в результате большой интеграции микросхемотехники, возобновился интерес к эффективным методам кодирования и передачи речи в цифровом виде. Основная цель-это передача речи с максимально возможным качеством при наименьшей загрузке канала и с наименьшей стоимостью. Намерение решить эту задачу при помощи цифровых методов основано на сравнительно низкой стоимости цифровой аппаратуры.

Обычно стоимость речевого кодирования находится в прямом соответствии со сложностью кодера. Сложность кодера, в свою очередь, пропорциональна эффективности кода и использованию канала. Изучение сложных (и потенциально эффективных) кодов часто сдерживается высокой стоимостью. Однако успехи в области цифровой обработке сигналов, современные методы представления речевых сигналов в цифровом виде меняют эти взгляды.

В данной главе дипломной работы проведен анализ существующих методов кодирования речи.

Методы речевого кодирования могут быть классифицированы по трем различным видам:

- кодирование формы сигнала;

- кодирование параметров речевого сигнала;

- гибридное или параметрическое кодирование;

Данные методы применяются в зависимости от используемых основных свойств образования и восприятия речи.

1. Образование речи.

а) Изменения длительные во времени

- изменения амплитуды,

- деление речи на звонкие, глухие звуки и зоны молчания,

- особенности языковой и фонетической структуры,

б) Кратковременные изменения.

- кратковременная корреляция (особенности формантной структуры),

- особенности структуры тона звука (звонкие звуки),

- особенности структуры шума (глухие звуки).

2. Восприятие речи

- локальный спектральный динамический диапазон,

- слуховое маскирование.

Если не используется ни одно из свойств можно применять простые методы кодирования формы сигнала для получения хорошего качества речи при скоростях свыше 64 Кбит/сек. Далее, принимая во внимание и используя статистические или динамические спектральные характеристики (локальная во времени корреляция) речи, можно достигнуть хорошего качества на скорости 24-32 Кбит/сек. И, наконец, учитывая свойства образования речи и образования шума, можно достичь хорошего качества на скоростях пере­дачи ниже или около 10 Кбит/сек. Ниже данной скорости при методах коди­рования формы сигнала качество речи быстро падает как функция скорости передачи, и достичь лучшего качества практически невозможно.

При моделировании источников звука, скорость передачи информа­ции может быть снижена до 2 Кбит/сек с сопутствующим при этом синте­тическим или "машинным" качеством. Такое качество является следствием моделирования сигналов в вокодерах. В диапазоне 4-10 Кбит/сек выделя­ются методы, которые основаны на комбинациях методов кодирования фор­мы сигнала и вокодирования (гибридные методы).

 

Быстрое вейвлет-преобразование и

алгоритм Малла

 

Для ортогональных вейвлетов существует быстрое вейвлет-преобразова­ние ( Fast Wavelet Transform ), называемое также алгоритмом Малла ( Mallat algorithm ). Оно реализует основанный на фильтрации итерационный алгоритм, причем число итераций N может быть произвольным.

Прежде всего, отметим, что быстрое вейвлет-преобразование можно осуще­ствлять, вычисляя аппроксимирующие и детализирующие коэффициенты в формуле реконструкции (3.3.3.2.4) по формулам:

 

---------------------------------------------------

 

при

 

 

Классическая схема Малла, однако, предполагает рекурсивное примене­ние процедуры реконструкции сигнала в частотной области без явного вычисления a и d . Коэффициенты фильтров при этом соответствуют приведенным ниже обозначениями:

 

Тип фильтра

НЧ

ВЧ

Декомпозиция

Lo_D

Hi_D

Реконструкция

Lo_R

Hi_R

 

Первый шаг алгоритма Малла поясняется следующей диаграммой вейв-лет-декомпозиции сигнала:

 

Сигнал s подается на фильтры декомпозиции низких и высоких частот, по­сле чего с помощью операции децимации v2 (уменьшения числа частотных со­ставляющих вдвое) можно получить коэффициенты аппроксимации на выходе фильтра низких частот и детализирующие коэффициенты на выходе фильтра высоких частот. Далее этот алгоритм может быть продолжен по схеме:

 

 

В результате мы получим полный набор аппроксимирующих и детализи­рующих коэффициентов, вплоть до уровня декомпозиции j +1. Это и есть вейв-лет-декомпозиция сигнала. По этому набору коэффициентов мы может постро­ить вейвлет-спектрограмму сигнала, например для оценки его особенностей.

Теперь перейдем к диаграмме быстрой вейвлет-реконструкции. Используя операцию, обратную децимации, ^2 (увеличение числа вдвое составляющих путем добавления нулевых компонентов вперемежку с имеющимися компонентами), можно получить диаграмму понижения уровня коэффициентов аппроксимации:

 

 

Смысл операции ^, обратной децимации, поясняет рис.2.

Понижение уровня коэффициентов аппроксимации означает постепенное приближение к исходному сигналу. В целом, несколько упрощенно (обозначе­ние | i | указывает на итерационный характер вычислений), процесс декомпози­ции-реконструкции можно представить общей диаграммой вейвлет-преобразо-ваний:

 

 

На рис. 3 представлена более наглядная диаграмма реализации быстро­го многошагового алгоритма Малла на основе вейвлет-фильтрации. Для нагляд­ности здесь сигнал представлен 1000 отсчетами и схематично показаны АЧХ фильтров. Из этой диаграммы легко проследить за процессом декомпозиции вейвлет-фильтров и сигналов и затем за процессом реставрации сигнала. ВЧ-фильтры обозначены как Н, а НЧ-фильтры как L .

 

Рис 2. Иллюстрация операции ^, обратной децимации

 

 

Рис 3. Структура многошагового алгоритма Малла при декомпозиции и реставрации сигнала

 

 

Рис 4. Структура вейвлет-представления сигнала

 

Итак, в результате этого процесса исходный сигнал s раскладывается на вейвлет-компоненты вплоть до заданного уровня декомпозиции, после чего, в ходе реконструкции, восстанавливается до приближенного сигнала se>s. Сте­пень приближения зависит от уровня декомпозиции и реконструкции. Нулевой уровень соответствует точному восстановлению сигнала (se=s). Рис. 4 пока­зывает обычную диаграмму разложения (сверху-вниз) и реко нструкции (снизу- вверх) сигнала s .

На этой диаграмме коэффициенты аппроксимации сигнала обозначены как А, а детализирующие коэффициенты как D . Цифры указывают на уровень декомпозиции и реконструкции сигнала (нулевой уровень отдельно не указыва­ ется, это есть сам сигнал s ).

Исследования и обработка голосовых сигналов в данной работе будет осуществляться именно с помощь алгоритма Малла.

 

Сравнение вейвлетов разного типа

 

Сейчас выбор вейвлетов довольно обширен. Только в пакете Wavelet Toolbox 2.0/2.1 представлено полтора десятка базовых типов вейвлетов и множество вариантов для ряда базовых типов вейвлетов. Однако, необоснованное применение того или иного типа вейвлета способного приве сти к разочарованию. Поэтому ниже обобщены основные свойства вейвлетов раз­личного типа. Их учет позволяет подбирать наиболее подходящие типы вейвле­тов для решения конкретных задач обработки сигналов и изображений.

Такой выбор надо рассматривать как «пробу пера». Разумеется, при реше­нии серьезных задач в области обработки сигналов и изображений желательно применение хотя бы нескольких типов вейвлетов с последующим сравнением ре­зультатов и выбором наилучших из них.

Именно так мы и поступим.

Грубые (Crude) вейвлеты

К «грубым» вейвлетам относятся вейвлеты Гауссова типа ( gaus ), Морле ( morlet ) и «мексиканской шляпы» ( mexihat ). Они обладают минимумом свойств, которыми должны обладать вейвлеты, обеспечивающие полноценные возмож­ности в технике преобразования сигналов:

•  функция phi у них отсутствует;

•  анализ не является ортогональным;

•  psi не имеет компактного носителя;

•  возможность реконструкции не гарантирована;

•  возможна непрерывная декомпозиция;

•  главные свойства: симметричность, функция psi задается явно;

•  быстрые алгоритмы преобразований и точная реконструкция невозможны.

 

Бесконечные регулярные вейвлеты

 

К бесконечным регулярным вейвлетам принадлежат вейвлеты Мейера ( meyr ). Они имеют следующие свойства:

•  имеют функцию phi и их анализ ортогональный;

•  функции не определены явно psi и phi ;

•  функции psi и phi не имеют компактного носителя;

•  вейвлеты симметричны и регулярны в бесконечности;

•  быстрый алгоритм преобразований не поддерживается.

У этих веивлетов возможны следующие методы анализа:

•  непрерывные преобразования;

•  дискретные преобразования, но без FIR фильтров.

Еще один вейвлет этого типа — дискретный вейвет Мейера ( dmey ). Его свойства:

•  аппроксимация фильтром класса FIR ;

•  поддержка непрерывного и дискретного преобразований.

Ортогональные вейвлеты с компактным носителем

К этим вейвлетам относятся вейвлеты Добеши ( dbN ), Симлета ( symN ) и Койфлета ( coifN ). Их основные свойства:

•  функция phi имеется и анализ относится к ортогональному типу;

•  функции имеют определенное число моментов исчезновения;

•  функции psi и phi имеют компактный носитель;

•  возможны непрерывные преобразования и дискретные преобразования с при­менением быстрого вейвлет-преобразования;

•  обеспечивается принципиальная возможность реконструкции сигналов и функций.

Некоторые трудности: недостаточная периодичность. Специфические про­блемы:

•  вейвлеты dbN несимметричны;

•  вейвлеты symN : близки с симметричным;

•  вейвлеты coifN : отсутствие симметрии, функций phi и psi , наличие моментов исчезновения.

Биортогональные вейвлеты с компактным носителем

К ним относятся В-сплайновые биортогональные вейвлеты ( biorNr . Nd и rbioNr . Nd ). Они имеют следующие свойства:

•  функция phi имеется, и анализ относится к биортогональному типу;

•  обе функции psi и phi для декомпозиции и реконструкции имеют компакт­ный носитель;

•  phi и psi для декомпозиции имеют моменты исчезновения;

•  psi и phi для реконструкции могут иметь периодичность.

Возможные виды анализа: непрерывное преобразование и дискретное пре­образование с использованием алгоритма быстрого вейвлет-преобразования.

Наиболее существенные достоинства: симметрия с фильтрами, желаемые свойства для разложения и восстановления разделены, возможно их хорошее распределение. Наиболее существенные трудности: отсутствие ортогональности.

 

Комплексные вейвлеты

 

К комплексным относится довольно большая группа вейвлетов: Гаусса ( cgauN ), Морле ( cmorFb - Fc ), Шенона ( shanFb - Fc ) и частотные В-сплайновые вейвлеты ( fbspM - Fb - Fc ). Они обладают минимальными свойствами:

•  функция phi отсутствует;

•  анализ не ортогональный;

•  функция psi не имеет компактного носителя;

•  свойства реконструкции не гарантируются;

•  возможен анализ типа комплексной декомпозиции.

Трудности применения: быстрый алгоритм и реконструкция невозможны.

 

Заключение

 

В ходе данной работы были произведены исследования алгоритма сжатия речевых сигналов. В качестве данного алгоритма был взят алгоритм Малла (быстрое вейвлет-преобразование).

В качестве исследуемых сигналов, на разных стадиях, были взяты два следующих голосовых сигнала:

1. Первый сигнал: длительность 1,8583 сек., 16 бит, с частотой дискретизации 8000 Гц, 14866 отсчетов. Состав сигнала – три слова “раз”, “два”, “три”.

 

 

2. Второй сигнал: длительность 11 секунд, 16 бит, частота дискретизации 8000 Гц, 94508 отсчетов. Сигнал состоит из следующего предложения: “понятие “вейвлет” появилось сравнительно недавно – его ввели Гроссман и Морле в середине 80-х годов в связи с анализом свойств сейсмических и акустических сигналов”.

 

 

Используя первый, более простой сигнал, был найден наиболее подходящий материнский вейвлет. Им оказался вейвлет bior 35.

Второй сигнал использовался в последнем исследовании, которое было направлено на определение оптимального коэффициента сжатия при заданном качестве воспроизведения и нахождение оптимального способа задания локальных порогов. Разложение проводилось на 10 уровней, при этом был получен оптимальный коэффициент сжатия, который составляет 80%.

 

 

 

КОНЕЦ