Магистр ДонНТУ Снисарь Николай Александрович

Снисарь Николай Александрович

Донецкий национальный технический университет
Факультет компьютерных информационных технологий и автоматики, група ЭлС-07

Тема магистерской работы:

Передача данных посредством голосового канала GSM сети в системах коммерческого учета электроэнергии.

Научный руководитель: к.т.н. доц. кафедры «ЭТ» Кочин А. Е.

Библиотека

Источник: Макрел Д. Д., Грэй. А. Х. "Линейное предсказание речи." - Пер. с англ. / Под ред. Прохорова Ю.Н. и Звездина В.С. – М.: Связь, 1980. - 308с.

 

     8. ОЦЕНИВАНИЕ ЧАСТОТЫ ОСНОВНОГО ТОНА


8.1. ВВЕДЕНИЕ

     При акустическом исследовании речи основным параметром является частота основного тона F0. Для низкоскоростных систем кодирования речи F0 представляет собой также и параметр, подлежащий обязательной передаче. Обычно считается, что основной тон — это одна из акустических характеристик, определяющая восприятие речевой интонации. Если частота основного тона диктора постоянна, то речь будет восприниматься как машинная и монотонная. У возбужденного диктора частота основного тона его речи обычно высока. Эта акустическая характеристика связана с частотой открывания и закрывания (или вибрации) голосовых связок. Если связки вибрируют быстро, это соответствует более высокой частоте основного тона. В линейной модели речеобразования основной тон представляет собой частоту, с которой импульсы воздушного потока от голосовой щели подаются в голосовой тракт, т. е. функция возбуждения модели является периодической с периодом l/F0. Величина, обратная частоте основного тона, называется периодом основного тона Р. Последний определяется временным интервалом между последовательными циклами раскрытия и закрытия голосовых связок.
      Несмотря на то что величина основной частоты (усредненная по некоторому соответствующим образом выбранному временному интервалу) может быть непосредственно оценена по спектру речевого колебания, обычно средний период основного тона Р оценивается по некоторому отрезку последовательности отсчетов речевого сигнала. Соответствующая величина основной частоты для анализируемого сегмента тогда определяется как 1/Р. Даже в тех случаях, когда может возникнуть путаница, будет использоваться обозначение F0(k) и F0(k—1), где k — номер сегмента. Подробное обсуждение всех известных методов оценивания основной частоты пли периода ОТ заняло бы, вероятно, такой же объем, как и вся эта книга. Поэтому в данной главе рассматриваются только методы, основанные на линейном предсказании. Вначале обсуждается свойство выравнивания спектра при линейном предсказании с позиций оценивания частоты основного тона. Далее обсуждаются корреляционные методы автоматического оценивания периода ОТ на основе обработки сигнала с выравненным спектром в явном п неявном виде. В заключение подробно описывается эффективный метод оценивания ОТ на основе линейного предсказания для ограниченного диапазона изменения основной частоты.

8.2. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА СИГНАЛА НА ОСНОВЕ ВЫРАВНИВАНИЯ СПЕКТРА

     К настоящему времени предложено много различных методов предварительной обработки для устранения или уменьшения ошибок, вызванных взаимодействием между первой формантной и основной частотой. Все они могут быть разделены на три группы — выравнивание [148], центральное клиппирование [148] и возведение сигнала в третью степень |4]. В этом параграфе обсуждается применение линейного предсказания для выравнивания спектра сигнала. В следующем параграфе будут рассмотрены корреляционные методы оценивания периода ОТ. В качестве исходных данных здесь используется корреляционная функция, которая не зависит от фазового спектра сигнала.
     Сущность выравнивания спектра состоит в следующем. Если амплитуды всех гармоник основной частоты сделать одинаковыми, а начальные фазы — нулевыми, то сигнал во времени будет представлять собой короткие импульсы с периодом следования, равным периоду основного тона. Формантная структура между импульсами исчезнет. На интервалах, соответствующих невокализованным звукам, периодической последовательности импульсов не будет, а форма сигнала с выравненным спектром будет иметь случайный характер. Сондхи предложил несколько процедур, основанных на обработке речи с помощью набора полосовых фильтров. Результирующая точность оценивания ОТ зависит от числа полосовых фильтров и их характеристик.
      Методы линейного предсказания можно легко использовать для достижения тех же самых целей, но при этом не требуется проводить анализ с помощью полосовых фильтров или изменять фазо-вые соотношения в сигнале.

8.2.1 АНАЛИЗ ВОКАЛИЗИРОВАННОЙ РЕЧИ С ПЕРИОДИЧЕСКИМ СПЕКТРОМ

     Атал и Ханауэр предложили следующий метод выравнивания спектра. Вначале вычисляются коэффициенты предсказывающего фильтра с характеристикой F(z). Далее речевой сигнал пропускается через обратный фильтр с характеристикой A(z) = l—F(z) (рис. 8.1).

     Рис. 8.1. Схема вычисления сигнала погрешности предсказания при линейном предсказании

     Выходной сигнал {е(n)} затем подается на фильтр НЧ с частотой среза 1 кГц и используется для оценки периода ОТ. В гл. 6 было показано, что все методы, которые приводят к обратным фильтрам путем решения автокорреляционных уравнений, максимизируют спектральную равномерность сигнала для фиксированного числа коэффициентов фильтра.
     Несмотря на то что спектральный критерий для расчета обратного фильтра не используется при ковариационном методе или при построении фильтра Калмана, конечные результаты этих методов очень близки. Результирующим фильтр будет действовать так же, как и обратный фильтр в том смысле, что если речевой сигнал проходит через него, то спектр выходного сигнала будет представлять собой сигнал с выравненным спектром. Приведем несколько примеров, иллюстрирующих во временной и частотной областях характер необработанного сигнала и выравненного по спектру сигнала. На рис. 8.2 показаны речевой сиг нал и сигнал ошибки для сегмента /che/ из слова shade, произне сенного мужским голосом с низкой средней основной частотой. Масштаб по оси ординат на рис. 8.26 в 2 раза больше соответствующего масштаба рис. 8.2а.

     Вычисление сигнала погрешности (выравненного по спектру сигнала) проводилось при следующих данных: N= 128, М=10, fs = 6,5 кГц. Временное окно при анализе сдвигалось через каждые 64 отсчета для получения нового набора коэффициентов фильтра, которые затем подставлялись в уравнение, описываю щее обратный фильтр:

где n=1, 2, ... 64; l-номер сегмента, l=0, 1, ..., а; а0 = 1; at(i) — это i-й коэффициент обратного фильтра для l-го сегмента. Для обработки каждого сегмента требуется М отсчетов речевого сигнала из предыдущего сегмента. Несмотря на то что речь взвешивается с временным окном перед применением автокорреляци некоторым причинам определяется путем обработки исходных данных (не умноженных предварительно на временное окно). Предыскажение не проводилось.

     Рис. 8.3. Спектры одного анализируемого сегмента в звуке /е/ из слова shade:
     а) спектр речевого сигнала; б) спектр сигнала погрешности предсказания

     Форма речевого колебания указывает на сильное влияние первой форманты на всех вокализованных участках речи. Однако сигнал погрешности имеет только всплеск в начале каждого по спектру весь частотный диапазон от 0 до fs/2 Гц (за исключением сильно коррелированных гармоник основного тона).
      На рис. 8.3а показаны спектр речевого сигнала, взвешенного с помощью временного окна (вход обратного фильтра), и спектр погрешности предсказания (выход обратного фильтра) для интервала, вклю чающего 128 отсчетов звука /e/ из слова shade. В спектре вход спектре. Об имеет явно выраженную периодическую структуру во всем частотном диапазоне, но его отклонения от среднего уровня относительно невелики.

8.2.2. АНАЛИЗ ВОКАЛИЗОВАННОЙ РЕЧИ С НЕПЕРИОДИЧЕСКИМ СПЕКТРОМ

     Второй пример выравнивания спектра на основе линейного предсказания иллюстрирует проблемы, возникающие при предварительной обработке сигнала с целью устранения влияния формант.
     На рис. 8.4 показаны соседние с назальным звуком /n/ участки в слове linear. Колебание здесь то же самое, что и на рис. 7.10, где иллюстрируется поведение траекторий формант.

     Рис. 8.4. Речь и сигнал погрешности для звука /п/ из слова linear:
      а) речевой сигнал; б) сигнал погрешности, полученный авто корреляционным методом

     Форма речевого колебания представлена на рис. 8.4а, а на рис. 8.46 показан соответствующий сигнал погрешности, полученный с помощью автокорреляционного метода.
     Анализ проводился при параметрах N= 160, М=12, fs=10 кГц. Функция временного окна длительностью 16 мс сдвигалась через каждые 6,4 мс. Общая длительность высказывания составляла 96 мс. При этом оказалось, что назальному звуку /n/ и гласным звукам /I/, /i/, предшествующим и следующим за /n/, соответствуют совершен но разные акустические характеристики речевого колебания. Из-за коартикуляции оба гласных звука подверглись назализации. Структура первой форманты, наиболее легко видимая в первом гласном звуке, значительно разрушается в сигнале ошибки, при этом всплески при появлении каждого периода ОТ заостряются.

     Рис. 8.5. Логарифмические спектры для звука /l/ в слове linear:
     а) исходный речевой сигнал; б) сигнал погрешности

     Аналогичная картина наблюдается и для последующего гласного звука. Амплитуда назального звука значительно меньше амплитуды звуков /l/ и /i/. Поэтому нормированная квадратическая ошибка для назального звука намного меньше, чем нормированная квадратическая ошибка для других участков.

     Логарифмические спектры речевых сигналов LM(S)=LM(X) и сигнала по представлены на рис. 8.5 и 8.6. На рис. 8.5а и 8.6а отмечено мес тоположение формантных частот. Разрыв траектории форманты F2, показанный на рис. 7.10 для первичных данных, явно прояв очень сложную структуру. В спектрах сигналов погрешности довольно ясно заметно наличие «назального» нуля. На рис. 8.56 мягкое нёбо начинает раскрываться, вызывая появление нуля около частоты 1400 Гц. На рис. 8.66 мягкое нёбо полностью раскрыто, что вызывает сдвиг в месте расположения «назального» нуля, заключается в значительном затухании спектральной периодичности, которая необходима для получения резких всплесков сигнала погрешности. Хотя это обстоятельство (с учетом свойств восприятия речи) является полезным, оно усложняет оценку F2 в присутствии спектральных нулей. Реше путем выделения частотного диапазона сигнала ошибки, в котором наиболее надежно можно оценить F0 и в котором влияние эффектов назализации и не частотах минимально.
     На выходе простого фильтра НЧ сигнал погрешности будет иметь вид, показанный на рис. 8.7.

     Рис. 8.6. Логарифмические спектры для назального зву ка /п/ в слове linear: а) исходный речевой сигнал; б) сигнал погрешности

     Рис. 8.7. Профильтрованный сигнал погрешности для звука /п/ в слове linear

    
    Фильтрация сигнала погрешности является оправданной и не обходимой операцией, основанной на акустических свойствах речи, и не оказывается просто модификацией метода.
     Фуджимура [45] показал, что имеется много вокализованных речевых сегментов, которые частично или полностью невокализованы в диапазоне частот выше 1 кГц. В то же время редко появляются во кализованные компоненты выше 1 кГц без сопровождения вока участки спектра невокализованы, то это вызывает уменьшение амплитуд пиков сигнала погрешности, используемых для обнаружения вокализованности. Если в этом случае применяется выравнивание спектра, то могут быть вынесены неправильные решения о вокализованности сигнала. Уменьшение частоты дискретизации речи, при котором ширина полосы была бы примерно равной 1 кГц, приводит к тому, что даже при частичной вокализованности речи будет выноситься решение о вокализованности сигнала.
     Таким образом, вопрос о выборе фильтра остается открытым. Во мно гих случаях простой однополюсный фильтр с характеристикой 1/(1—m*1/z) (где m - близок к 1) является достаточным для уменьшения влияния гармоник.

...


© ДонНТУ, Снисарь Николай Александрович, 2008

ДонНТУ ДонНТУ