Источник: Информатика и компьютерные технологии / Материалы третьей международной научно-технической конференции молодых ученых и студентов. - Донецк, ДонНТУ 2007

АНАЛИЗ МЕТОДОВ ПОСТРОЕНИЯ СИСТЕМ РАСПОЗНАВАНИЯ РЕЧИ НА ОСНОВЕ НЕЙРОСЕТЕВЫХ И СКРЫТЫХ МАРКОВСКИХ МОДЕЛЕЙ

Веренич И.В., Федяев О.И.
Донецкий национальный технический университет

Среди требований, предъявляемых к мобильным распознавателям речи, одним из ключевых является компактность используемых моделей в сочетании с достаточным их качеством для целей распознавания изолированных слов или коротких фраз. Устойчивость системы распознавания к изменению свойств диктора и возможной вариации окружающей обстановке также очень важна. Частично она достигается правильной реализацией механизма выделения признаков, частично – при помощи представительности возможных вариаций в данных, используемых для оценки параметров статистических моделей. В работе рассматриваются подходы, основанные на совместном применении нейронных сетей и скрытых марковских моделей. Предлагаемые гибридные системы, состоящие из нейросетевой и скрытой марковской модели (НС/СММ) используют искусственную нейронную сеть для реализации акустического блока и аппарат марковских моделей – для лингвистического блока (рис. 1).

Структура распознавателя речи

Рис. 1. Общая схема гибридной НС/СММ системы распознавания речи

Задачу распознавания речи можно рассматривать как частный случай оптимального определения цепочки состояний из множества возможных {w}:

Формула 1

некоторого источника, генерирующего символы наблюдения

Формула 2

Поставим в соответствие каждому W одну или несколько последовательностей вида

Формула 3

таким образом, что

Формула 4

В распознавании источник речевого сигнала – это диктор, произносящий некоторую фразу, описываемую последовательностью слов (1). Каждое слово W в словаре {w} имеет транскрипцию {С}K. Символы наблюдения Х, называемые акустическими векторами, – это звуковой сигнал, обработанный для подавления влияния канала и выделения информации важной для распознавания и представленный в виде последовательности векторов (2) [3]. При моделировании источника с помощью скрытых марковских моделей используются следующие предположения:
  1. Диктор представляет собой марковский источник.
  2. В случае непрерывности Х плотность вероятности р(Х|ci) моделируется как смесь распределений Гаусса. Компоненты вектора Х рассматриваются как независимые величины.
  3. В случае, когда Х – дискретные метки из кодовой книги векторного квантования, оценки вероятности р(Х|ci) получаются согласно закону больших чисел. При векторном квантовании акустические векторы разделяются на кластеры при помощи некоторой меры схожести. В большинстве практических систем такой мерой является эвклидова метрика [1].

Многослойные нейросетевые модели персептронного типа позволяют оценивать вероятности р(ci|Х) напрямую, не делая тех допущений, которые свойственны скрытым марковским моделям в случае их применения в акустическом блоке. Вероятности р(ci|Х) для всех классов моделируются одновременно для значений выходов нейросетевой модели, являющихся оценками вероятностей P^(ci|Х), при этом должно выполняться равенство:

Формула 5

которое всегда справедливо для истинных вероятностей. Невыполнение этого условия свидетельствует о недостаточном качестве оценок вероятностей. В классической схеме с использованием скрытых марковских моделей такая проверка качества моделирования невозможна. Вне зависимости от качества полученных оценок вероятности всегда выполняется равенство:

Формула 6

Многослойные персептроны теоретически позволяют создавать более компактные модели не худшего качества при помощи меньшего числа свободных параметров. Однако недостатком многослойных персептронов является то, что они, в отличие от скрытых марковских моделей, не приспособлены к работе с временными рядами наблюдений [2]. Сильные стороны обоих описанных подходов можно объединить, применяя гибридную систему распознавания речи, основанную на сочетании скрытых марковских моделей и многослойных нейросетевых моделей персептронного типа [1]. Распределение р(Х|сi) можно смоделировать с помощью нейронной сети. Действительно, если выходы натренированной сети оценивают P(сi|Х), то, применяя формулу Байеса, получим:

Формула 7

Значение р(Х) является константой. Таким образом, выполняя деление оценок, вычисляемых нейронной сетью, на априорную вероятность класса, получаем взвешенное распределение р(Х|сi), которое в дальнейшем возможно использовать в оценке вероятности скрытой марковской модели. Для вышеописанной модели не требуется предположение о том, что распределение р(Х|сi) – смесь распределений Гаусса. В этой модели этапы акустического и лексического обучения разделены: нейронная сеть тренируется с помощью небольшой акустической базы данных с фонетической транскрипцией, а параметры скрытой марковской модели можно оценивать из лексической базы данных большого объёма, но уже без фонетической транскрипции. Это позволяет более эффективно использовать обучающий материал, так как построение акустических баз данных с фонетической транскрипцией – очень трудоемкое занятие. Рассмотренная гибридная система распознавания речи обладает рядом принципиальных преимуществ по отношению к классической СММ системе, которые кратко можно резюмировать следующим образом:
  1. Акустический блок, основанный на нейросетевых моделях, позволяет избавиться от ограничений, свойственных СММ подходу. Отсутствует предположение об эвклидовой метрике пространства акустических векторов, что свойственно классическому СММ подходу с дискретными акустическими векторами из векторной кодовой книги. В отличие от СММ систем с непрерывными акустическими векторами, отсутствует предположение о том, что распределение р(Х|сi) есть суперпозиция ограниченного числа распределений Гаусса.
  2. Представление акустической модели при помощи НС более компактно, т.е. требует меньшего числа свободных параметров для обеспечения сходного качества моделирования.
  3. Контроль качества акустической модели требует меньших усилий, чем в случае классического подхода.
  4. Применение гибрида НС/СММ даёт возможность использовать условные вероятности на этапе лингвистического моделирования и тем самым сузить круг поиска.
  5. Приведенный анализ НС/СММ гибрида позволит создавать более эффективные распознаватели речи, что особенно важно при проектировании систем, встраиваемых в мобильные устройства [1].

Литература

  1. Иванов А.В., А.А.Петровский. Методы построения устройств распознавания речи на базе гибрида нейронная сеть / скрытая марковская модель // Нейрокомпьютеры: разработка, применение. – 2002. – № 12. – С.26-36.
  2. Haykin S. Neural Networks: A Comprehensive Foundation – Prentice Hall Inc., 1999,
  3. Rabiner L., Juang B.H. Fundamentals of Speech Recognition – Prentice Hall Signal Processing Series, 1993, 507 p.