Магистр ДонНТУ Снисарь Николай Александрович

Снисарь Николай Александрович

Донецкий национальный технический университет
Факультет компьютерных информационных технологий и автоматики, група ЭлС-07

Тема магистерской работы:

Передача данных посредством голосового канала GSM сети в системах коммерческого учета электроэнергии.

Научный руководитель: к.т.н. доц. кафедры «ЭТ» Кочин А. Е.

Библиотека

Источник: Вицнюк Т.К. "Анализ, распознавание и интерпретация речевых сигналов." - Киев: Наук. думка, 1987.

 

    ГЛАВА 10

НИЗКОСКОРОСТНЫЕ СИСТЕМЫ КОМПРЕССИРОВАННОЙ ПЕРЕДАЧИ РЕЧИ(вокодерные системы)

     В последние годы, интерес к разработке компрессированных систем возник с новой силой. В прошлое десятилетие уже появились коммерческие вокодер на информационные скорости от 9600 до 2400 бит/с [64—68]. реди отечественных разработок можно выделить гармонический вокодер на 4800—2400 бит/с [65]. При всех успехах по-прежнему остро стоят проблемы снижения информационной скорости передачи информации (до 600 бит/с и ниже), увеличения разборчивости, качества и натуральности восстанавливаемой речи, проблема создания малогабаритной цифровой аппаратуры.
     Оказывается, что чем ниже информационная скорость вокодера, тем теснее связь вокодерной передачи речи с распознаванием речи. Общими становятся не только анализаторы речи, все в большей степени анализирующая часть вокодера напоминает систему распознавания.
     В настоящей главе показано, что в рамках КДП-подхода могут быть предложены низкоскоростные системы компрессированной передачи речи на информационную скорость до 600 бит/с и ниже. В работах по созданию компрессированных систем передачи речи активное участие принимал Е. К. Людовик.
     Речевой сигнал на выходе микрофона характеризуется информационной скоростью около 250000-300000 бит/с. В самом деле, при верхней граничной частоте речевого сигнала около 12кГц и разрядности преобразователя аналог-код 10—12 бит получим как раз эти величины. Для телефонного речевого сигнала информационная скорость уменьшается приблизительно в два раза
     В связи с вводом в эксплуатацию цифровых интегрированных сетей связи со стандартной скоростью 2400 бит/с существует необходимость передачи речевой информации по этим каналам в реальном масштабе времени, c сохранением разборчивости, качества и натуральности звучания, с сохранением индивидуальных особенностей речи. Более того, желательно по каналу связи передавать одновременно разговоры нескольких лиц. Речь идет, таким образом, о сжатии объема исходного речевого сигнала до 1200, 600, 300 и 150 бит/с.
     Представляется, что 150 бит/c составляет некоторое предельное сжатие объема речевого сигнала, при котором еще можно надеяться на передачу индивидуальных особенностей голоса.
     На приемном конце линии связи, очевидно, должны быть приняты меры по восстановлению первоначального объема передаваемого речевого сигнала. Эту часть системы компрессированной передачи речи принято называть синтезатором речи (синтезирующей частью вокодера), в отличие от анализатора речи (анализирующей части вокодера) располагаемого на передающем конце линии связи.
     Принципиальная возможность компрессированной передачи речи вытекает из того, что, хотя речевой сигнал на выходе микрофона и описывается быстроосциллирующими функциями, сама же динамика передаточной характеристики речевого тракта человека и параметры источников его возбуждения описываются медленно изменяющимися функциями времени, которые как раз и следует передавать при ком прессии речи.
     Далее будет показано [152, 153], как, применяя процедуры распознавания в анализирующей части вокодера, можно снизить инфор информации на один кадр). Дальнейшее снижение информационной скорости возможно за счет использования математических моделей речевых сигналов, применяе КДП-подхода.
     Еще более значительное сокращение информационной скорости (до 150 бит/с) может быть получено, если использовать кусочно-ли применить предварительную кусочно-линейную сегментацию речевого сигнала, а затем в линию связи передавать по два элемента (кадра) на сегмент и количество элементов в сегменте. Тем самым будет достигнута зна на переходных участках звуков друг в друга.
     Что касается синтезирующей части, то недостающие кадры сегментов должны быть восстановлены путем линейного интерполирования по двум переданным элементам сегментов.
     Наконец, можно ограничиться передачей не самих элементов (кадров), а их номеров из заданного множества эталонных элементов, каждый раз передавая только номер эталонного элемента (кадра), который в том или ином смысле наиболее похож на наблюдаемый элемент.
     Таким образом, показано, что применение процедур и моделей распознавания приводит к предельному сжатию объемов передаваемой информации до 150 бит/с.

10.2. НУЛЬ-ПОЛЮСНЫЕ ВОКОДЕРЫ НА 2 400 и 1 200 БИТ/С

     Созданию квазифонемного вокодера на 600 бит/о предшествовали работы по нуль-полюсной модели анализа и восстановления речи [75, 146, 1471. Эти работы, прежде всего, проводились с целью изучения различных описаний (представлений) речевого сигнала.
     Исходный речевой сигнал представлялся последовательностью дискрет f[n], п = 1 : М, где М — количество дискрет на интервале анализа продолжительностью dT'. Пусть dt — шаг отсчета дискрет f[n].
     Полюсное представление речевого сигнала основывалось на z-передаточной характеристике речевого тракта в виде

    (10.2.1)

 

   где     обычные параметры предсказания;
          (A[i],B[i]) - полюсные параметры
           t =1:m/2, т выбрано четным.
     Параметры (A[i], B[i]) названы полюсными, так как непосредственно определяют резонансные свойства речевого тракта. Так, если корни уравнения являются комплексно-сопряженными, то круговая резонансная частота w, и круговая полуполоса пропускания связаны с A[i] и B[i] соотношениями:

     (10.2.2)
     (10.2.3)

     При оценке полюсных параметров исходим из того, что сигнал f[n], п = 1 : M, должен удовлетворять стохастическому разностному уравнению

     (10.2.4)

     

     причем f[n], п = 1 : т, рассматриваются как начальные условия.

      Рис. 10.1. Треугольник устойчивости для полюсных параметров.

      В [75] предложен итерационный алгоритм максимально правдоподобного оценивания полюсных параметров по речевому сигналу в условиях связей (10.2.1), (10.2.4), начальных условий f[n], п = 1 : m, и ограничений устойчивости [154]:

      (10.2.5)

 

     Соблюдение последнего условия необходимо для гарантирования восстановления (синтеза) речи по полюсным параметрам . Условия (10.2.5) определяют треугольник устойчивости полюсных параметров (рис. 10.1). Заштрихованная часть треугольника соответствует системам второго порядка с резонансными свойствами, определяемым посредством (10.2.2), (10.2.3).
     Каждая итерация алгоритма состоит из m/2 шагов, а каждый шаг заключается в нахождении максимально правдоподобных оценок одной пары полюсных параметров (A[i],B[i]) при условии фиксированных остальных пар и ограничений (10.2.5) на параметры (A[i], B[i]) [75].
     Использование полюсных параметров удобно при квантовании и кодировании. Так, квантование A[i] (соответственно квантование B[i]) для различных i = 1 : m/2 может быть выполнено одним и тем же способом и на любое требуемое количество бит.
     В частности, треугольник устойчивости можно разбить на пять пересекающихся или непересекающихся областей, причем первые четыре из них могут быть интерпретированы как области первых четырех формант. Области значения пар внутри областей нумеруются.
     При анализе сигнала f[n], n=1 : M, необходимо из каждой области выбрать по одной паре полюсных параметров, таких, чтобы они составляли максимально правдоподобную (среди возможного выбора пар) оценку полюсных параметров. В такой постановке мы фактически определили некоторую процедуру совместного оценивания и квантования полюсных параметров.
     Количество информации на кодирование пары (A[i],B[i]) внутри каждой области определяется количеством дискретных наборов пар в области и треугольнике в целом.
      Сами же дискретные наборы пар внутри областей выбирались так, чтобы они в определенном смысле наилучшим образом аппроксимировали реально всретившиеся значения полюсных параметров. Это своеобразная задача самообучения (таксономии, развала на кучи).
     Информация о дискретных наборах полюсных параметров внутри всех пяти областей закладывалась также и в синтезирующую часть вокодера.
     Для определения значений признака тон-шум и вычисления периода ОТ использовался нулевой метод (§ 9.4), основанный на динанимеском програмированиии. В этом методе предполагается, что сигнал на текущем периоде ОТ является случайным искажением сигнала предыдущего периода, взятого с некоторой амплитудой и другим периодом. Нулевой метод позволяет находить текущее значение периода ОТ. Это свойство метода позволяет, наряду с постоянным интервалом анализа, реализовать синхронный с периодом ОТ анализ речевого сигнала, например, по три периода в интервале анализа.
      При кодировании информации кадра 1 бит информации использовался для представления признака тон-шум и 4 бита — для представ среднего периода ОТ). При этом полное значение периода ОТ в синтезаторе речи определялось 8-ю битами. Восьмибитовый код периода для звонкого элемента (кадра) передавался 4-мя разрядами периода ОТ на предшествующем шумном элементе (4 старших разряда) и 4-мя разрядами периода ОТ текущего звонкого элемента (4 младших разряда). На звонком же элементе после звонкого элемента полный период ОТ определялся добавлением текущего приращения периода к значению полного периода на предыдущем интервале синтеза.
     На основе нуль-полюсной модели анализа речевого сигнала были созданы машинные модели компрессированной передачи речи на скорость 9600, 4800, 2400 и 1200 бит/с. Частота дискретизации сигналов равнялась 16 кГц (dt = 65мкс). Длина интервала анализа dT' и шаг анализа dT были равны и выбирались из диапазона 20—30 мс. Применялись синхронный (по три периода в интервале анализа) с ОТ и несинхронный (с постоянной длительностью dT') анализы Для скоростей 9600 и 4800 бит/с применялось равномерное квантование полюсных параметров A[i] и B[i] с учетом того, что -2 <A[i]< 2 и -1 < B[i] < 1.

      Для скоростей 2400 и 1200 бит/с линейное квантование параметров оказалось неприемлемым.      Поэтому применялись дискретные пронумерованные наборы (A[i], B[i]) для пяти пересекающихся областей. Признак тон-шум и период ОТ кодировались 5-ю битами. Ампли 1200 бит/с. В обоих случаях использовалась равномерная логарифмическая шкала, так что код амплитуды возбуждения определялся выражением:

      (10.2.6)

      где D — неквантованное значение амплитуды возбуждения, равное среднеквадратичному значению сигнала ошибки предсказания е[n] в формуле (10.2.4):

      (10.2.7)

 

     параметры а = (а[1], а[2], ...,a[i] ..., а[n]) вычислялись на основании (10.2.1) по полюсным параметрам (A[i] B[i]), i = 1 : t/2; m изменялось от 6 до 16, в качестве основного значения бралось m = 10; D[0] — некоторое пороговое значение (выбиралось отдельно для звонких и шумных кадров); dD — шаг квантования (также выбирался отдельно для звон кадров); INT — выделение целой части числа
      Значения параметров D[0] и dD для разных скоростей и типов кадров приведены в табл 10.1
      Экспериментальные исследования в условиях внешних акустических шумов и помех с уровнем 75 дБ показали, что качество незначительно отличается от качества речи, восстановленной по неквантованным полюсным параметрам. При этом разборчивость и натуральность вокодерной речи были достаточно высоки. Натуральность и качество восстановленной речи были лучше при синхронном с ОТ анализе.
      При моделировании вокодеров на скорости 2400 и 1200 бит/с применялись совместное оценивание и квантование полюсных параметров, что сводилось к выбору одного наиболее правдоподобного стандартного набора в каждой из пяти областей. Так, для скорости 1200 бит/с в областях первой, второй, третьей и четвертой формант было соответственно 16, 8, 16 и 8 типовых стандартных значений (A[i],B[i]), в пятой области было 16 стандартных пар (A[i],B[i]).
      Речь, восстановленная вокодерами со скоростями 2400 и 1200 бит/с, была вполне разборчива, хотя по качеству и натуральности заметно уступала речи для вокодера в 9600 бит/с.
     При восстановлении речи в синтезирующей части всех вокодеров осуществлялся переход от полюсных параметров к параметрам предсказания и непосредственный синтез речи по этим параметрам согласно уравнению (10.2.4).
      Эксперименты с нуль-полюсными вокодерами показали перспективность использования полюсных параметров, приемлемость нулевого метода выделения признаков тональности , целесообразность совмещения процедур оценивания и квантования параметров в одном процессе.
      Выполненные работы позволили приступить к разработке квази фонемного вокодера на скорость 600 бит.с и меньше.


§ 10.3. КВАЗИФОНЕМНЫЙ ВОКОДЕР НА 600 БИТ/С


      Существенное уменьшение информационной скорости вокодера с сохранением разборчивости и качества восстановленной речи может быть достигнуто, если от независимого квантования параметров ре речевого тракта и характеристик источников возбуждения. Реализация этой идеи приводит к необходимости распознавания элементов речи, представляющих речевой сигнал на интервале анализа [152, 153].
      При многомерном квантовании пространство параметров речевого сигнала разбивается на непересекающиеся области. Каждая область представляется одним набором параметров — одним вектором, интерпретируемым как эталон фонемы или, что точнее, части фонемы. Этот эталон в равной мере можно называть эталонным элементом.
     Перенумеруем все области, соответственно все эталонные элементы.
     Каждый текущий наблюдаемый в пространстве параметров элемент речи теперь будем рассматривать как принадлежащий определенной области в пространстве параметров и в линию связи будем передавать не сам наблюдаемый элемент, а только номер области, которой этот элемент принадлежит, или номер эталонного элемента, который эту область представляет.
     В этом будет заключаться многомерное квантование (распознавание) текущего элемента речи на множестве эталонных элементов.
     Приняв переданный по каналу связи номер эталонного элемента, синтезатор речи извлекает из памяти по номеру элемента сам эталонный элемент и использует его для синтеза речи.
     Поскольку эталонные элементы интерпретируются как представляющие фонемы или их части, то предлагаемый вокодер назван квазифонемным или поэлементным.
     Далее более детально описывается квазифонемный (поэлементный) вокодер на 600 бит/с.
     В анализирующей части вокодера содержится У эталонных элементов b[j], j = 1 : J, например, J = 512 или J = 1024. Эти J эта векторами) предсказания b[j]= (b[j0], b[j1] ..., b[js] ..., b[1m]), m — порядок системы предсказания (m = 10). Каждый вектор b, взаимооднозначно определяется а-параметрами предсказания а = (а[0], а[1], а[2] .... а [s], ..., а[m]), a[0] = 1:

      (10.3.1)

 

     Поскольку b-параметры (или а-параметры) можно трактовать как параметры некоторой линейной системы, моделирующей речеобразование, то естественно поставить вопрос, какой именно одной из J линейных систем b[j] может быть с наибольшей вероятностью синтези рован наблюдаемый на интервале анализа речевой сигнал f[n],n= 1 : М.
     Пусть для определенности речевой сигнал разбивается на непе анализа будет М = 400 дискрет речевого сигнала f[n], п= 1 : М.
     Рассматривая линейные системы а[j] или b[j] как системы с авторегрессией, естественно величину:

      (10.3.2)

 

интерпретировать как прогноз с помощью системы а[j] значения сигнала для момента времени n по предыдущим m наблюденным значениям речевого сигнала f[n-v], v = 1 : m.
     Величину же e[jn] = f[n] — f'[n] в таком случае следует рассматривать как ошибку прогноза либо как сигнал возбуждения для линейной системы а[j] в момент времени n. Применяя этот сигнал возбуждения, можно точно находить значение сигнала f[n], с помощью системы а[j] по предыдущим отсчетам f[n-v], v = 1 : m:

      (10.3.3)

 

     Таким образом:

      (10.3.4)

 

     где е[n] — дискретный белый шум или периодический белый шум. Наиболее подходящей линейной системой а[j] или b[j], позволяющей интерпретировать (и синтезировать) наблюдаемый речевой сигнал с помощью уравнения (10.3.4), естественно назвать ту, которая обеспечивает минимальную (суммарную для интервала анализа) энергию ошибки прогноза.

...


ВЫВОДЫ


     1. Предложена и исследована нуль-полюсная система компрессированной передачи речи на информационные скорости 9600, 4800, 2400 и 1200 бит/с. Показана целесообразность использования полюсных параметров для представления речевого сигнала, продемонстрирована простота их квантования. Обращено внимание на необходимость совмещения процедур оценивания и квантования параметров в одном процессе, на избыточность кодирования информации при независимом квантовании параметров.
     2. Показано, что устранение избыточности в кодировании параметров речевого сигнала приводит к зависимому квантованию параметров, т. е. многомерному квантованию параметров, которое заключается в распознавании текущего элемента речи на множестве небольшого количества эталонных элементов и в передаче в линию связи номера наиболее похожего эталонного элемента.Многомерное квантование приводит к существенному уменьшению информационной скорости вокодерных систем.
     3. Разработан и исследован квазифонемный вокодер на 600 бит/о, содержащий 512 (1024) эталонных элементов и основанный на реализации идеи многомерного квантования путем распознавания элементов речи. Восстанавливаемая (синтезируемая) речь характеризуется приемлемыми разборчивостью, качеством и натуральностью звучания, сохраняет существенные индивидуальные особенности голоса.
     4. Показано, что применение кусочно-постоянных и кусочно-линейных моделей распознавания речи для компрессированной передачи речи делает конструктивным создание квазифонемного вокодера на 300 и 150 бит/с с обеспечением приемлемых разборчивости, качества и натуральности звучания и сохранением индивидуальных особенностей голоса.

...


© ДонНТУ, Снисарь Николай Александрович, 2008

ДонНТУ ДонНТУ