Магистр ДонНТУ Снисарь Николай Александрович

Снисарь Николай Александрович

Донецкий национальный технический университет
Факультет компьютерных информационных технологий и автоматики, група ЭлС-07

Тема магистерской работы:

Передача данных посредством голосового канала GSM сети в системах коммерческого учета электроэнергии.

Научный руководитель: к.т.н. доц. кафедры «ЭТ» Кочин А. Е.

Библиотека

Источник: Электронный журнал «ИССЛЕДОВАНО В РОССИИ» - Распознавание речевых сигналов на основе корреляционного метода - Бочаров И.В., Акатьев Д.Ю.
     Адрес статьи: http://zhurnal.ape.relarn.ru/articles/2003/131.pdf

 

Введение

     Создание естественных для человека средств общения с компьютером является в настоящее время важнейшей задачей современной науки, при этом речевой ввод информации осуществляется наиболее удобным для пользователя способом. Исторически первым методом распознавания речи был метод, основанный на авторегрессионной модели голосового сигнала и коэффициентах линейного предсказания [1] не требующий больших вычислительных затрат. С появлением мощных вычислительных машин и разработкой эффективных вычислительных алгоритмов линейной алгебры стали актуальными методы, основанные на корреляционном подходе [2].
     Особый интерес вызывает универсальный теоретико-информационный подход, сводящийся к критерию минимума информационного рассогласования (МИР) и реализуемый во временной области с использованием оценок корреляционных матриц [3].      Корреляционный метод непосредственно следует из критерия МИР, производится во временной области и не требует выполнения предельных переходов. Кроме того, он подходит для анализа нестационарных процессов, к которым относятся речевые сигналы.       Дальнейшим развитием этого метода применительно к задаче распознавания речи является переход к анализу фонемной структуры слова. Цель работы состоит в разработке нового алгоритма распознавания речи по критерию МИР на основе корреляционного подхода при учёте фонемной структуры слов, а также исследование эффективности и оптимизация его параметров.

Корреляционный подход

     Исходным пунктом при обосновании метода ОФ является авторегрессионая (АР) модель речевого сигнала. Такая аппроксимация прочно утвердилась в области анализа и синтеза речи как модель, хорошо описывающая поведение речевого тракта при его описании в виде динамической трубы [4]. Разностное уравнение, описывающее АР процесс, определяется следующей формулой:

     где:
     x(n) – массив данных АР сигнала размером n;
      a(i) – АР коэффициенты процесса;
      P – порядок процесса;
      – порождающий процесс типа гауссовского белого шума

     Вычисление параметров АР модели речевого сигнала, а именно её вектор АР коэффициентов a(i) i=1…P, производится в расчете на минимизацию ошибки линейного предсказания по ее дисперсии. В частности высокими динамическими характеристиками получаемых оценок отличается метод Берга [5], при этом выбор порядка модели представляет собой оптимизационную задачу, исходя из требуемых качественных характеристик алгоритма и доступного объёма данных.
     Решение задачи различения для семейства сигналов, полученных путём линейной фильтрации «белого» гауссовского шума определяется в предположении об АР природе анализируемых сигналов с применением принципа информационного рассогласования. Используя формулировку критерия минимума информационного рассогласования в метрике Кульбака-Лейблера во временной области через матрицы ковариации, определим оптимальный алгоритм для различения сигналов [3]:

      здесь:
      Kx(f) – оценка матрицы автоковариаций по выборке конечного объёма для
      распознаваемого сигнала х;
      Kr(f) – оценка матрицы автоковариаций по выборке конечного объёма для
      распознаваемого сигнала r;
      R – размер словаря

     Алгоритм реализуется в виде набора из R параллельных каналов вычисления решающей статистики (2). База данных словаря содержит R, по числу распознаваемых слов, оценок матриц автоковариаций сигналов. В каждом канале производится вычисление статистики на основе оценки матрицы автоковариации анализируемого сигнала и оценки матрицы автоковариации одного сигнала из словаря. Решение принимается в решающем устройстве по критерию минимума решающей статистики на выходах вычислителей статистики в каждом из R каналов.
     При анализе речи обычно используется подход, определяющий любой ограниченный во времени нестационарный сигнал как частную реализацию бесконечно длинного стационарного сигнала. Однако непосредственное применение к речевым сигналам результата (2) не позволяет достичь максимальной эффективности алгоритма в связи с сильной нестационарностью речевых сигналов [6]. На практике можно говорить лишь о кусочно-временной стационарности речевых сигналов, что обусловлено самой физической природой речеобразования связанной с невозможностью мгновенной физиологической артикуляции голосового аппарата человека. Теория и практика анализа голосовых сигналов показывает, что период стационарности речевого тракта человека имеет длительность порядка 20 мсек. [6]. Разделение слов на фонемы как часть фонетического анализа является отдельной сложной задачей практической лингвистики.
     Произведём теоретическое обоснование применимости критерия МИР во временной области к фонемной структуре слова. Согласно [7] оценка обратной автокорреляционной матрицы произвольного гауссовского сигнала может быть произведена путём вычисления следующего тройного разложения:

     где:
      A – верхняя треугольная матрица авторегрессии размером n с единичной диагональю, составленная из коэффициентов авторегрессии порядка от 1 до n-1 включительно;
      – диагональная дисперсионная матрица размером n, диагональными элементами которой являются обратные значения дисперсии нескомпенсированного остатка на выходе обеляющего фильтра порядка с n-1 по 0 соответственно номеру строки (столбца) элемента в матрице.

     Учитывая кусочно-стационарную структуру речевого сигнала можем утверждать, что вектор АР коэффициентов в этом случае неизменен в пределах участка стационарности, соответственно и матрица автокорреляции сигнала, вычисленная внутри границ этого периода является стационарной. Отсюда следует вывод, что увеличение эффективности распознавания речевых сигналов можно достичь путём разбиения слова на участки со стационарным поведением автоковариационной матрицы и дальнейшего сравнения двух сигналов по критерию минимума усреднённого информационного расстояния по всем сегментам распознаваемого слова. Однако следует отметить, что в случае сильно вариативной базы данных слов в процессе распознавания необходимо дополнительно применять методы временной нормировки сравниваемых слов.
     Классическим решением этой задачи является метод динамического искажения времени [8].      Наиболее простым и вычислительно-эффективным способом фонетического анализа структуры слова является разделение слова на неперекрывающиеся смежные сегменты фиксированной длинны. При этом априорная база данных словаря будет содержать не одну, а несколько матриц для каждого слова, вычисленных по соответствующим сегментам, а вычисление решающей статистики будет производиться путём усреднения решающих статистик, вычисленных по всем сегментам.
     С учётом сказанного решающая статистика (3) требует видоизменения. Окончательно, учитывая фонемную структуру, модифицированная решающая статистика преобразуется к виду:

     здесь:
      – выборочная оценка матрицы ковариаций сегмента i распознаваемого
сигнала х;
      – выборочная оценка матрицы ковариаций сегмента i распознаваемого
сигнала r;
      R – размер словаря;
      L – число сегментов обработки.
     После такой модификации мы получаем возможность применять метод как целиком к слову, устанавливая количество сегментов обработки L равное единице, так и к фонемной структуре слова, усредняя информационное рассогласование сегментов сигналов по всей его длине L>>1. В соответствии с решающей статистикой (4) синтезируем алгоритм обработки сигналов.

...


© ДонНТУ, Снисарь Николай Александрович, 2008

ДонНТУ ДонНТУ