Источник: Информатика и компьютерные технологии / Материалы третьей международной научно-технической конференции молодых ученых и студентов. - Донецк, ДонНТУ 2007АНАЛИЗ МЕТОДОВ ПОСТРОЕНИЯ СИСТЕМ РАСПОЗНАВАНИЯ РЕЧИ НА ОСНОВЕ НЕЙРОСЕТЕВЫХ И СКРЫТЫХ МАРКОВСКИХ МОДЕЛЕЙ Веренич И.В., Федяев О.И. Рис. 1. Общая схема гибридной НС/СММ системы распознавания речи Задачу распознавания речи можно рассматривать как частный случай оптимального определения цепочки состояний из множества возможных {w}: некоторого источника, генерирующего символы наблюдения Поставим в соответствие каждому W одну или несколько последовательностей вида таким образом, что В распознавании источник речевого сигнала – это диктор, произносящий некоторую фразу, описываемую последовательностью слов (1). Каждое слово W в словаре {w} имеет транскрипцию {С}K. Символы наблюдения Х, называемые акустическими векторами, – это звуковой сигнал, обработанный для подавления влияния канала и выделения информации важной для распознавания и представленный в виде последовательности векторов (2) [3]. При моделировании источника с помощью скрытых марковских моделей используются следующие предположения:
Многослойные нейросетевые модели персептронного типа позволяют оценивать вероятности р(ci|Х) напрямую, не делая тех допущений, которые свойственны скрытым марковским моделям в случае их применения в акустическом блоке. Вероятности р(ci|Х) для всех классов моделируются одновременно для значений выходов нейросетевой модели, являющихся оценками вероятностей P^(ci|Х), при этом должно выполняться равенство: которое всегда справедливо для истинных вероятностей. Невыполнение этого условия свидетельствует о недостаточном качестве оценок вероятностей. В классической схеме с использованием скрытых марковских моделей такая проверка качества моделирования невозможна. Вне зависимости от качества полученных оценок вероятности всегда выполняется равенство: Многослойные персептроны теоретически позволяют создавать более компактные модели не худшего качества при помощи меньшего числа свободных параметров. Однако недостатком многослойных персептронов является то, что они, в отличие от скрытых марковских моделей, не приспособлены к работе с временными рядами наблюдений [2]. Сильные стороны обоих описанных подходов можно объединить, применяя гибридную систему распознавания речи, основанную на сочетании скрытых марковских моделей и многослойных нейросетевых моделей персептронного типа [1]. Распределение р(Х|сi) можно смоделировать с помощью нейронной сети. Действительно, если выходы натренированной сети оценивают P(сi|Х), то, применяя формулу Байеса, получим: Значение р(Х) является константой. Таким образом, выполняя деление оценок, вычисляемых нейронной сетью, на априорную вероятность класса, получаем взвешенное распределение р(Х|сi), которое в дальнейшем возможно использовать в оценке вероятности скрытой марковской модели. Для вышеописанной модели не требуется предположение о том, что распределение р(Х|сi) – смесь распределений Гаусса. В этой модели этапы акустического и лексического обучения разделены: нейронная сеть тренируется с помощью небольшой акустической базы данных с фонетической транскрипцией, а параметры скрытой марковской модели можно оценивать из лексической базы данных большого объёма, но уже без фонетической транскрипции. Это позволяет более эффективно использовать обучающий материал, так как построение акустических баз данных с фонетической транскрипцией – очень трудоемкое занятие. Рассмотренная гибридная система распознавания речи обладает рядом принципиальных преимуществ по отношению к классической СММ системе, которые кратко можно резюмировать следующим образом:
Литература
|