Источник: Информатика и компьютерные технологии / Материалы третьей международной научно-технической конференции молодых ученых и студентов. - Донецк, ДонНТУ 2007
АНАЛИЗ МЕТОДОВ ПОСТРОЕНИЯ СИСТЕМ РАСПОЗНАВАНИЯ РЕЧИ НА ОСНОВЕ НЕЙРОСЕТЕВЫХ И СКРЫТЫХ МАРКОВСКИХ МОДЕЛЕЙ
Веренич И.В., Федяев О.И. Донецкий национальный технический университет
Среди требований, предъявляемых к мобильным распознавателям речи, одним из ключевых является компактность используемых моделей в сочетании с достаточным их качеством для целей распознавания изолированных слов или коротких фраз.
Устойчивость системы распознавания к изменению свойств диктора и возможной вариации окружающей обстановке также очень важна. Частично она достигается правильной реализацией механизма выделения признаков, частично – при помощи представительности возможных вариаций в данных, используемых для оценки параметров статистических моделей.
В работе рассматриваются подходы, основанные на совместном применении нейронных сетей и скрытых марковских моделей. Предлагаемые гибридные системы, состоящие из нейросетевой и скрытой марковской модели (НС/СММ) используют искусственную нейронную сеть для реализации акустического блока и аппарат марковских моделей – для лингвистического блока (рис. 1).

Рис. 1. Общая схема гибридной НС/СММ системы распознавания речи
Задачу распознавания речи можно рассматривать как частный случай оптимального определения цепочки состояний из множества возможных {w}:

некоторого источника, генерирующего символы наблюдения

Поставим в соответствие каждому W одну или несколько последовательностей вида

таким образом, что

В распознавании источник речевого сигнала – это диктор, произносящий некоторую фразу, описываемую последовательностью слов (1). Каждое слово W в словаре {w} имеет транскрипцию {С}K. Символы наблюдения Х, называемые акустическими векторами, – это звуковой сигнал, обработанный для подавления влияния канала и выделения информации важной для распознавания и представленный в виде последовательности векторов (2) [3].
При моделировании источника с помощью скрытых марковских моделей используются следующие предположения:
- Диктор представляет собой марковский источник.
- В случае непрерывности Х плотность вероятности р(Х|ci) моделируется как смесь распределений Гаусса. Компоненты вектора Х рассматриваются как независимые величины.
- В случае, когда Х – дискретные метки из кодовой книги векторного квантования, оценки вероятности р(Х|ci) получаются согласно закону больших чисел. При векторном квантовании акустические векторы разделяются на кластеры при помощи некоторой меры схожести. В большинстве практических систем такой мерой является эвклидова метрика [1].
Многослойные нейросетевые модели персептронного типа позволяют оценивать вероятности р(ci|Х) напрямую, не делая тех допущений, которые свойственны скрытым марковским моделям в случае их применения в акустическом блоке.
Вероятности р(ci|Х) для всех классов моделируются одновременно для значений выходов нейросетевой модели, являющихся оценками вероятностей P^(ci|Х), при этом должно выполняться равенство:

которое всегда справедливо для истинных вероятностей. Невыполнение этого условия свидетельствует о недостаточном качестве оценок вероятностей.
В классической схеме с использованием скрытых марковских моделей такая проверка качества моделирования невозможна. Вне зависимости от качества полученных оценок вероятности всегда выполняется равенство:

Многослойные персептроны теоретически позволяют создавать более компактные модели не худшего качества при помощи меньшего числа свободных параметров. Однако недостатком многослойных персептронов является то, что они, в отличие от скрытых марковских моделей, не приспособлены к работе с временными рядами наблюдений [2].
Сильные стороны обоих описанных подходов можно объединить, применяя гибридную систему распознавания речи, основанную на сочетании скрытых марковских моделей и многослойных нейросетевых моделей персептронного типа [1].
Распределение р(Х|сi) можно смоделировать с помощью нейронной сети. Действительно, если выходы натренированной сети оценивают P(сi|Х), то, применяя формулу Байеса, получим:

Значение р(Х) является константой. Таким образом, выполняя деление оценок, вычисляемых нейронной сетью, на априорную вероятность класса, получаем взвешенное распределение р(Х|сi), которое в дальнейшем возможно использовать в оценке вероятности скрытой марковской модели.
Для вышеописанной модели не требуется предположение о том, что распределение р(Х|сi) – смесь распределений Гаусса. В этой модели этапы акустического и лексического обучения разделены: нейронная сеть тренируется с помощью небольшой акустической базы данных с фонетической транскрипцией, а параметры скрытой марковской модели можно оценивать из лексической базы данных большого объёма, но уже без фонетической транскрипции. Это позволяет более эффективно использовать обучающий материал, так как построение акустических баз данных с фонетической транскрипцией – очень трудоемкое занятие.
Рассмотренная гибридная система распознавания речи обладает рядом принципиальных преимуществ по отношению к классической СММ системе, которые кратко можно резюмировать следующим образом:
- Акустический блок, основанный на нейросетевых моделях, позволяет избавиться от ограничений, свойственных СММ подходу. Отсутствует предположение об эвклидовой метрике пространства акустических векторов, что свойственно классическому СММ подходу с дискретными акустическими векторами из векторной кодовой книги. В отличие от СММ систем с непрерывными акустическими векторами, отсутствует предположение о том, что распределение р(Х|сi) есть суперпозиция ограниченного числа распределений Гаусса.
- Представление акустической модели при помощи НС более компактно, т.е. требует меньшего числа свободных параметров для обеспечения сходного качества моделирования.
- Контроль качества акустической модели требует меньших усилий, чем в случае классического подхода.
- Применение гибрида НС/СММ даёт возможность использовать условные вероятности на этапе лингвистического моделирования и тем самым сузить круг поиска.
- Приведенный анализ НС/СММ гибрида позволит создавать более эффективные распознаватели речи, что особенно важно при проектировании систем, встраиваемых в мобильные устройства [1].
Литература
- Иванов А.В., А.А.Петровский. Методы построения устройств распознавания речи на базе гибрида нейронная сеть / скрытая марковская модель // Нейрокомпьютеры: разработка, применение. – 2002. – № 12. – С.26-36.
- Haykin S. Neural Networks: A Comprehensive Foundation – Prentice Hall Inc., 1999,
- Rabiner L., Juang B.H. Fundamentals of Speech Recognition – Prentice Hall Signal Processing Series, 1993, 507 p.
|