Тема магистерской работы:
Библиотека
Источник: Рабинер Л. Гоулд Б. "Теория и применение цифровой обработки сигналов." - Пер. с англ. Зайцева А.Л. Назаренко Э.Г. - М: Мир, 1978. - 835с.
ГЛАВА 12
ЦИФРОВАЯ ОБРАБОТКА РЕЧЕВЫХ СИГНАЛОВ
12.1. Введение
Одной из наиболее важных областей применения цифровых методов является обработка речевых сигналов. Фактически зна теоретических результатов, составляющих основу цифровых методов обработки сигналов, была получена исследователями, изучавшими речевые сигналы.
В главу включены примеры как аппаратурной, так и программной реализации систем обработки речи. Прежде чем перейти к конкретным примерам, будет дан обстоятельный обзор моделей образования речи.
12.2. Модель образования речи
На фиг. 12.1. изображена схема, описывающая механизм образования речи в человеческом организме. При разговоре грудная клетка расширяется и сжимается, прокачивая поток воздуха из легких по трахее через голосовую щель. Если голосовые связки напряжены, как при образовании звонких звуков типа гласных, то они вибрируют подобно релаксационному генератору. Если голосовые связки расслаблены, воздух свободно проходит через голосовую щель, не подвергаясь модуляции. Воз проходит через глоточную полость мимо основания языка и в зависимости от положения мягкого нёба — через ротовую и (или) носовую полости. Поток воздуха выходит наружу через рот или нос (или обоими путями) и воспринимается как речь. В случае глухих звуков, таких, как s в слове snow или р в слове pit, голосовые связки расслаблены.
Фиг. 12.1. Схема механизма образования речи (по Фланагану)
При этом возможны два режима: либо образуется турбулентный поток, когда воздух прохо короткий взрывной процесс, вызванный повышенным давлением воздуха за точкой перекрытия голосового трак положения артикуляторов (губ, языка, челюсти, мягкого нёба) во время произнесения непрерывной речи форма отдельных полостей голосового тракта существенно меняется. На рентгеновском снимке (фиг. 12.2) голосового тракта мужчины показано положение некоторых артикуляторов и пунктиром обведены контуры отдельных полостей.
Голосовой тракт человека представляет собой неоднородную акустическую трубку, простирающуюся от голосовой щели до губ.
Фиг. 12.2. Рентгеновский снимок голосового тракта мужчины (по Фланагану).
1 — язык; 2 — рот; з — ноздри: 4 — мягкое небо; 5 — надгортанный хрящ; б — кольцеобразный хрящ; f — голосовая щель; s — трахея.
У взрослого мужчины она имеет длину около 17 см и частота ее первого (четвертьволнового) резонанса равна:
(12.1)
Площадь поперечного сечения акустической трубки неодинакова и зависит от положения артикуляторов, изменяясь от 0 до 20 см2. Голосовой тракт имеет некоторые устойчивые виды резонансных колебаний, называемые формантами. Профили голосового тракта для некоторых гласных и типичные для них значения частот представлены на рисунке 12.3. Спектры этих гласных показаны на фиг. 12.4. Они содержат отчетливые резонансы. Полезно отметить, что при восприятии звука основную роль играют только первые три форманты, хотя высшие форманты и необходимы для обеспечения качества звучания.
Фиг. 12.3. Схематические профили голосового тракта и таблица формантных частот для некоторых гласных (по Фланагану).
Фиг. 12.4. Спектры некоторых гласных (по Фланагану).
На этом факте основана работа нескольких систем сжатия полосы речевого сигнала, которые будут рассмотрены ниже.
Как уже упоминалось, существуют три основных механизма возбуждения голосового тракта.
Предположение о независимости вида источника возбуждения и характеристик голосового тракта является основным почти для всех систем обработки речи. Именно эта независимость источника и тракта и позволяет ввести передаточную функцию голосового тракта и рассматривать его возбуждение любым из трех источников.
Фиг. 12.5. Цифровая модель образования речи (по Шаферу).
В большинстве случаев это предположение вполне допустимо. Однако в некоторых случаях (например, для глухих взрывных зву слове pot) оно неверно. Генератор импульсов через каждые N_0 отсчетов вырабатывает импульс, соответствующий очередной порции воздуха. Интервал между импульсами называется периодом основного тона. Он равен величине, обратной частоте следования порций воздуха или частоте колебания голосовых связок.
Каждый из источников (или оба) может быть соединен со входом линейного цифрового фильтра с переменными параметрами, моделирующего голосовой тракт. При этом коэффициенты фильтра отражают свойства голосового тракта в зависимости от времени при непрерывной речи. В среднем через каждые 10 мс коэффициенты фильтра изменяются, отражая тем самым изменение состояния голосового тракта.
Регулировка усиления, введенная между источниками и фильтром, позволяет управлять громкостью выходного сигнала. Последовательность на выходе фильтра эквивалентна речевому сигналу, дискретизованному с соответствующей частотой.
Для управлении такой моделью неооходимо знать зависимость соответствующих параметров (частоты основного тона, положения переключателя, громкости и коэффициентов фильтра) от времени. Основной задачей почти всех систем анализа речи является оценка параметров модели по реальной речи. Задача большинства систем синтеза речи состоит в том, чтобы, используя эти параметры, полуискусственный речевой сигнал, неотличимый на слух от настоящей речи. В системах анализа—синтеза эти две задачи решаются совместно с общей целью увеличения эффективности (т. е. понижения частоты дискретизации в системе синтеза до величины, меньшей, чем при обычном представлении речевых сигналов) и гибкости (т. е. возможности изменять речь некоторым желаемым образом путем управления параметрами модели). В последующих разделах этой главы обсуждаются различные аспекты нескольких систем, разработанных с учетом этих соображений.
12.3. Кратковременный спектральный анализ
Преобразование Фурье последовательности х (nТ), -inf<n<inf, определяется
(12.2)
Как было показано в гл. 6, для нестационарных сигналов типа речевых сигналов преобразование Фурье не имеет смысла, так как спектр речи изменяется во времени. Более полезной характеристи является преобразо вание Фурье на коротком интервале, определяемое как
(12.3)
Равенство (12.3) можно рассматривать как фурье-преобразование речевого сигнала на бесконечном интервале, если выделить вблизи момента времени nТ участок конечной длины с помощью весо (nТ) (фиг. 12.6). Исполь зуя свертку, равенство (12.3) можно записать иначе:
(12.4)
Левую часть равенства (12.3) можно представить в виде
(12.5)
Фиг. 12.6. Представление кратковременного спектрального анализа.
где а (w, nТ) и b (w, nТ) — действительная и мнимая части кратко временного фурье-преобразования, равные
(12.6)
Из этих формул вытекает простой способ измерения кратковременных преобразований, который иллюстрируется на фиг. 12.7. Обычно преобразование Фурье от h {nТ}, выбирают таким образом, чтобы аппроксимировать идеальный фильтр нижних частот с частотой среза Wc, показанный на фиг. 12.8. Тогда X соответствует энергии речевого колебания на частоте со в момент времени nТ. Точнее, энергия измеряется в полосе частот от W — Wc до W + Wc.
В большинстве систем для спектрального анализа речи кратко временное преобразование желательно измерять на N частотах, которые обычно располагаются в полосе 0 < wT < 2*pi равномерно. С этой целью описанные выше измерения проводятся для каждой из N частот. Если h (nТ) является импульсной характеристикой
Фиг. 12.7. Простой метод анализа речевого сигнала, основанный на кратко временном спектральном анализе.
Фиг. 12.8. Идеальный фильтр нижних частот для кратковременного спектрального анализа.
КИХ-фильтра, а частоты распределены равномерно, одновременные измерения могут быь выполнены весьма эффективно с применением алгоритма БПФ. Чтобы показать это, положим, что h(nT) отлично от нуля при 0<n<M-1 и что центральные частоты анализа равны:
(12.7)
Тогда (12.3) можно переписать следующим образом:
(12.8)
где [M/N] означает целую часть от M/N. Положив l == n — mN — r, получим
(12.9)
Подстановка Wk из (12.7) дает
(12.10)
Здесь заменено единицей. Формулу (12.10) можно переписать в виде
(12.11)
где
Соотношение (12.11) показывает, что X (Wk, nТ) можно получить, перемножив последовательность и ДПФ последовательности g (l, n).
На фиг. 12.9 иллюстрируется процесс почленного получения последовательности g (l, n) из исходных последовательностей х (rТ) и h (rT).
Таким образом, кратковременный фурье-анализ речевых сигна использованием гребенки цифровых фильтров, либо косвенно с применением БПФ.
Фиг. 12.9. Формирование g (r, т)n из х (nТ) и h (nТ).
...
© ДонНТУ, Снисарь Николай Александрович, 2008