РАСПОЗНАНИЕ РЕЧИ НА ОСНОВЕ ИСКУСТВЕННОЙ НЕЙРОНОЙ СЕТИ С ПРЯМОЙ ПОДАЧЕЙ РЕЧЕВОГО СИГНАЛА

Изюмов В.В.

Донецкий национальный технический университет


На данный момент системы распознавания фонем речи основанных на нейронных сетях строятся по следующей упрощенной модели:

Рисунок 1 - Грубая модель системы распознавания фонем
Рисунок 1 - Грубая модель системы распознавания фонем

"Сырой" сигнал - является дискретным сигналом речи с определенной частотой дискретизации, чаще всего равной 8000 Гц. Анализатор формирует из "сырого" сигнала последовательность векторов свойств, путем выполнения ряда процедур таких как: удаление постоянной составляющей сигнала, разбитие сигнала на отрезки ("кадры"), разложение на частотные составляющие каждого кадра, нормализация к вектору единичной длины. В следствии, таких процедур на выходе анализатора получаем серию векторов свойств, где каждый вектор характеризует соответствующий ему кадр. Нейронная сеть производит классификацию каждого вектора, определяя возможную фонему в данном кадре. Внутреннее строение нейронной сети может иметь различную структуру: как однородную, так и модульную. Выход нейронной сети чаще всего представляет вектор, элементы которого соответствуют той или иной фонеме. Пост обработка на выходе требуется, для того чтобы выходной вектор привести к требуемому виду.

Данная структура модели сложилась еще с тех времен, когда вместо нейронной сети использовали скрытые Марковские модели и чтобы не нагружать их, был сформирован анализатор для формирования вектора свойств. От метода анализа в большей степени зависит качество работы всей системы. Вектор свойств должен, при наименьшем размере, обеспечить нейронную сеть более полной информацией о сигнале. Чаще всего для формирования вектора свой использую один из следующих методов: быстрое преобразование Фурье, кепструм, вейвлет преобразование или вычисление коэффициентов линейного предсказания. На данный момент коэффициенты линейного предсказания представляют более полную информацию о сигнале при меньшем размере вектора свойств.[1] Данные методы используют, так или иначе, корреляцию или автокорреляцию. Причем функции по отношению к которым находятся коэффициенты корреляции жестко закреплены по форме и для разложения остается использовать только их масштабирование и сдвиг по отношению к анализируемому сигналу.

В ходе анализа нейронных сетей, было найдено свойство нейрона, заключающее в том, что одни нейрон может вычислять корреляцию между анализируемым сигналом и локальной по времени функции, заложенной в его весах. Для объяснения этого свойства рассмотрим математическую модель нейрона. Теперь рассмотри элементарную часть нейронной сети - математическую модель нейрона (Рис. 2), которую можно описать выражением (1).

Рисунок 2 - Математическая модель нейрона
Рисунок 2 - Математическая модель нейрона

(1)

формула 1,

где хi - входной вектор свойств, wi - матрица весов, b0 - смещение нейрона, f(x) - функция активации нейрона. Если в качестве входного вектора взят отрезок дискретного сигнала, так что xi соответствовал отсчетам дискретного входного сигнала xi=x(ti) и соответствующий отсчету вес wi=w(ti). А также примем что активационная функция нейрона линейная и смещение равно нулю, то получим следующее выражение:

(2)

формула 2,

При Δt=ti - ti-1→0, перейдем к интегральному виду:

(3)

формула 3,

Так как входной вектор нейрона является отрезом сигнала входящего в "окно", и данное "окно" движется вдоль оси времени по входному сигналу, то выход нейрона будет иметь вид:

(4)

формула 4,

где τ - сдвиг окна по отношению к входному сигналу.

Из выражения (4) видно, что при подачи дискретного сигнала на вход нейрона, описанным способом, выходом нейрона является корреляция между входным сигналом и внутренней весовой функцией нейрона.

На основе данного свойства была предложена следующая структура системы распознания речи:

Рисунок 3 - Структура системы распознания фонем
Рисунок 3 - Структура системы распознания фонем

Входной сигнал речи поступает на вход линии задержки (ЛЗ), которая формирует входной вектор нейронной сети, представляющей собой отрезок сигнала входящего в анализирующий кадр. С линии задержки сигнал поступает на корреляционный слой (КС) нейронов, количество нейронов зависит от того, сколько необходимо сформировать коррелятов. С корреляционного слоя сигнал поступает на вход анализирующей сети (АС) состоящей из двух слоев нейронов. Во втором слое анализирующей сети каждый нейрон соответствует признаку отдельной фонемы. Выходами анализирующего слоя являются сигналы показывающие какая фонема в данный момент возможно находится во входном сигнале. Данная система обладает тем преимуществом, что при обучении ее в корреляционном слое будет формироваться группа коррелянтов речевого сигнала, то есть автоматически формируется входной вектор нейронной сети с необходимыми свойствами характеризующие речевой сигнал. Количество свойств зависит от количества нейронов входящих в данный слой. В анализирующем слое будет формироваться метод анализа данных коррелятов и сопоставление их с признаками фонем. Хотелось бы заметить, то что в рабочем режиме скорость работы данной системы не будет превышать скорости работы системы с анализатором на основе преобразования Фурье или вейвлет.


Список литературы


  1. Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов: Пер. с англ./ Под ред. М.В. Назарова и Ю.Н. Прохоровна. - М.: Радио и Связь, 1981. - 496 с., ил.
  2. Галушкин А.И. Теория нейронных сетей. Кн. 1: Учебное пособие для вузов / Общ. Ред. А.И. Галушкина. - М.: ИПРЖР, 2000. - 416с., ил.
  3. Joe Tebelskis. Speech Recognition using Neural Network.
  4. Джеймс Л. Фланаган. Анализ, синтез и восприятие речи: Пер. с англ./ под ред. А.А. Пирогова. - М.: "Связь", 1968. - 396с., ил.