RUS | UKR | ENG | ДонНТУ> Портал магистров ДонНТУ> Реферат | Библиотека | Ссылки | Отчет о поиске | Индивидуальное задание
Магистр ДонНТУ Веренич Иван Владимирович

Веренич Иван Владимирович

Тема магистерской диссертации: Анализ методов построения систем распознавания речи на основе гибрида скрытой марковской модели и нейросети

Руководитель: к.т.н. Федяев О.И.

ENG


В последние годы с увеличением производительности вычислительных машин актуальной задачей становится разработка новых, более простых, понятных и дружественных интерфейсов программ с пользователями. В частности – это синтез и распознавание человеческой речи. Такой интерфейс поможет человеку, не имеющему навыков работы с компьютером, быстрее его освоить, а также будет экономить время из-за упрощения подачи команд. Также технология распознавания речи будет незаменима и для людей-инвалидов с нарушениями опорно-двигательной системы. Так человек может выполнять какую-либо работу, оставаясь на месте.

Процесс распознавания голоса проходит в несколько этапов. На каждом из этапов для обработки речевого сигнала используется целый ряд различных методов. Процесс распознавания голоса можно разбить на три этапа:

  • получение голосового сигнала и предварительная обработка речи;
  • распознавание фонем и слов;
  • понимание речи.
Получение голосового сигнала и предварительная обработка речи. Получение голосового сигнала или дискретизация голоса определяется как процесс получения и преобразования акустического сигнала. Голос представляется как колебания акустического давления в микрофоне, характеризуемые относительно низкочастотными сигналами в диапазоне примерно от 0 до 4 кГц. Есть два типа звуков: звонкие и глухие. Звонкие порождаются вибрацией голосовых связок при прохождении воздуха. Этот акустический сигнал модулируется напряжением голосовых связок. Вибрации резонируют в речевом канале (это нос, горло и полость рта). Поток воздуха, создающий звук, называется «волной, образованной в голосовой щели». Этот сигнал квазипериодический, а его период называется периодом основного тона. Резонансный сигнал звонких звуков обычно состоит из четырех частотных компонентов, называемых формантами. Форманты служат «голосовой печатью» различных звуков, производимых речевым аппаратом человека. Глухие звуки образуются при прохождении воздуха через речевой канал при отсутствии колебаний голосовых связок. Оба вида звуков рассматриваются как временные ряды данных, взятые за регулярные интервалы времени. Для изоляции нужного интервала используются пространственные окна. Некоторые оконные функции рассчитывают среднюю амплитуду, число нулевых пересечений и трансформацию Фурье сигнала за интервал. Для устранения шума используются различные методы фильтрации.

Распознавание фонем и слов. Для распознавания фонем, групп фонем и слов используются такие методы, как скрытая марковская модель или НММ (hidden Markov modelling), искусственные нейронные сети (ИНС) или их комбинации.

Понимание речи. «Понять» речь — это самое трудное. На этом этапе последовательности слов (предложения) должны быть преобразованы в представления о том, что хотел сказать говоривший. Хорошо известно, что понимание речи опирается на огромный объем лингвистических и культурных знаний. Большая часть систем распознавания голоса учитывает при этом знания о естественном языке и конкретные обстоятельства. Задача, связанная с распознаванием голоса — распознавание говорящего, т. е. процесс автоматического определения «кто говорит» на основе входящей в речевой сигнал индивидуальной информации. При этом речь может идти об идентификации или о верификации говорящего. Идентификация — это нахождение в известном множестве контрольных фраз экземпляра, соответствующего манере данного диктора говорить. Верификация диктора — это определение идентичности говорящего: тот ли это человек? Технология распознавания диктора позволяет использовать голос для обеспечения контроля доступа; например, телефонный доступ к банковским услугам, к базам данных, к системам электронной коммерции или голосовой почте, а также доступ к секретному оборудованию. Обе технологии требуют, чтобы пользователь был «занесен в систему», т. е. он должен оставить образец речи, по которому система может построить шаблон. Предпринимались попытки разработать и аппаратную реализацию систем распознавания голоса. Некоторые продукты обеспечивают как голосонезависимое, так и голосозависимое распознавание речи на одном чипе. Чип поддерживает голосозависимое распознавание на базе словаря, хранимого в постоянном запоминающем устройстве чипа (ROM, read only memory). Словари голосозависимых систем хранятся вне чипа и могут быть загружены во время работы системы.

В работе решаются следующие 3 задачи: Первичная обработка звукового сигнала, применение к полученному сигналу аппарата скрытых марковских моделей, применение нейросети для получения выходной сигнальности

 

Скрытые Марковские модели

Введем следующие обозначения:

- число различных наблюдаемых объектов (например, шаров разного цвета);

 - множество всех возможных наблюдаемых объектов (например, шаров цвета , цвета  и т.д.);

- число состояний модели (например, урн, в которых лежат разноцветные шары);

 
 
 
 
 
 
 
   

- множество состояний модели (например, урна номер , номер и т.д.);

- состояние, в котором находится модель в момент времени (т.е. - одно из );

- объект, наблюдаемый в момент времени  (т.е. - один из объектов );

- наблюдаемая последовательность;

- длина наблюдаемой последовательности;

- распределение вероятностей выбора начального состояния, т.е. - вероятность того, что в начальный момент времени система будет в состоянии ;

- вероятность перехода из состояния в состояние - условная вероятность ; принято считать, что она не зависит от времени;

 - матрица вероятностей перехода - квадратная матрица ;

 - вероятность того, что в состоянии  наблюдается объект , т.е.  - матрица .

Скрытой Марковской моделью  будем называть набор .

Покажем, как модель  может порождать последовательность  (например, мы должны выбрать шаров из урн). На первом шаге мы должны выбрать исходное состояние  (первую урну) в соответствие с распределением вероятностей  и выбрать объект  (это будет шар цвета  с вероятностью  ). Далее мы переходим в какое-то состояние  в соответствие с вероятностью :   ( переходим к урне номер ). В этом состоянии выбираем объект  (выбираем  - шар цвета  с вероятностью  ). Выполнив шагов описанного процесса, построим последовательность , которую будем называть наблюдаемой последовательностью (см. картинки ниже).

Анимация сожержит 11 кадров, размер файла - 268 Kб

При этом  последовательность состояний ,  в которых производился выбор объектов, нас не интересует. Этим и объясняется название «скрытая» модель Маркова - последовательность состояний от нас «скрыта». Модель является «черным ящиком» - после выполнения заданного количества шагов она выдает некую последовательность .

Задача 1.

Пусть даны последовательность наблюдений  и модель . Как подсчитать вероятность   появления последовательности наблюдений для заданной модели?

Решение задачи 1.

Кажется легко решить эту задачу "в лоб": для любой фиксированной последовательности состояний  вероятность ее возникновения для данной модели  равна

.

Вероятность появления заданной последовательности наблюдения для этой фиксированной последовательности состояний равна

.

Поскольку для Марковских моделей возникновение некоторой конкретной последовательности состояний и появление последовательности наблюдений являются независимыми событиями, то

,

где . Из последнего выражения следует, что мы должны выполнить порядка умножений для каждой из последовательности состояний . Таким образом, при прямом подсчете вероятности  требуется провести порядка умножений. Даже для небольших чисел (состояний) и (длина последовательности) это составляет порядка операций умножения.

Forward-backward алгоритмы.

Так называется более эффективный алгоритм вычисления вероятности, для которого существуют две модификации, равноценные по вычислительным затратам – алгоритм прямого хода и алгоритм обратного хода. Эти алгоритмы различаются выбором ведущей переменной, прямой или обратной, которая предпочтительней в каждом конкретном случае.

Алгоритм прямого хода.

Введем прямую переменную , которую определим для заданной модели  как значение вероятности того, что к моменту времени  наблюдалась последовательность , и в момент  система находится в состоянии :

.

Значения прямой переменной вычисляются в соответствие со следующей процедурой:

1.  Инициализация.

,            

2. Для всех ;       ,

                .

3.   Вычисление искомой вероятности:

.

Алгоритм обратного хода.

Введем обратную переменную , которую определим как условную вероятность наблюдения последовательности  начиная с момента  до при условии, что в момент времени  система находится в состоянии :

 .

Значения обратной переменной находятся из следующих соотношений:

1.        Начальное значение:

,  .

2.        Для всех     ;         :

,

3.        Вычисление вероятности

.

Вычисление вероятности  по любому из описанных алгоритмов требует выполнения порядка операций умножения. Для взятых в качестве примера чисел  и  это составляет около 500 операций умножения, что в 2000 раз меньше, чем для прямых вычислений.

Задача 2.

Даны последовательность наблюдений   и модель . Как выбрать последовательность состояний  ,  которая с наибольшей вероятностью для данной модели  порождает последовательность наблюдений ?

Алгоритм Витерби (Viterbi Algorithm).

Этот алгоритм является вариантом метода динамического программирования для цепей Маркова. Он состоит из прямого и обратного проходов.

Введем следующие переменные:

,

имеющую смысл максимальной вероятности того, что при заданных наблюдениях до момента  последовательность состояний завершится в момент времени  в состоянии , а также переменную  для хранения аргументов, максимизирующих .

1.        Инициализация.

,   .

.

2.        Индуктивный переход.

,   ,    ,

 .

3.        Останов.

  - наибольшая вероятность наблюдения последовательности , которая достигается при прохождении некой оптимальной последовательности состояний , для которой к настоящему моменту известно только последнее состояние:

 .

4.        Восстановление оптимальной последовательности состояний (обратный проход).

 ,   

Задача 3.

Даны последовательность наблюдений  и модель . Как настроить параметры модели для того, чтобы максимизировать  ?

Алгоритм Баума-Уэлша (Baum-Welsh Algorithm).

Введем переменную

которая является вероятностью того, что при заданной последовательности наблюдений  система в моменты времени  и  будет находиться соответственно в состояниях   и . Используя прямую и обратную переменные, определенные выше, можно записать:

.

Введем следующую переменную, являющуюся апостериорной вероятностью того, что при заданной последовательности наблюдений  система в момент времени  будет находиться в состоянии  :

   .

Введенные величины обладают следующими свойствами:

 ожидаемое число переходов из состояния ;

 ожидаемое число переходов из состояния  в состояние .

На основе этих свойств получены формулы переоценки параметров Марковской модели:

 ,

 ,

 .

В процессе применения этих формул могут быть только два случая:

1.         - точка экстремума.

2.          - правдоподобность появления данной последовательности наблюдений  для модели с переоцененными параметрами выше, чем для исходной модели.

Три основных барьера стоят на пути развития систем распознавание речи:

  • большие объемы словарей;
  • шаблоны непрерывной речи;
  • различные акценты и произношения.
Это основные препятствия для автоматизированных систем распознавания голоса, но есть еще и другие проблемы — понимание семантики речи. Объемы словарей определяют степень сложности, требования к вычислительной мощности и надежность систем распознавания голоса. Можно приспособиться к непрерывному потоку речи, но есть еще и строгие семантические правила, которым необходимо следовать, чтобы система смогла понять семантику комбинаций слов в предложениях. Необходимо продолжать основательные исследования, только это позволит «справиться» с такими характеристиками речи, как морфология, акценты, высота звука, скорость, громкость, сливающиеся слова, контекст, артикуляция, лингвистическая информация, синонимы и т. д. Ожидается, что основным направлением развития станет моделирование языков для использования в системах распознавания речи.

Не решена окончательно и проблема отделения речевого сигнала от шумового фона. В настоящее время пользователи систем распознавания голоса вынуждены либо работать в условиях минимального шумового фона, либо носить шлем с микрофоном у самого рта. Кроме того, пользователям приходится «информировать» компьютер о том, что они к нему обращаются. Для этого обычно надо нажать кнопку или сделать что-то в этом роде. Конечно, это не самый лучший вариант пользовательского интерфейса. Решение этих проблем началось, и уже получены много-обещающие результаты. Одна из долгожданных разработок в области распознавания голоса — это человеко-машинные диалоговые системы; такими системами занимаются во многих университетских исследовательских лабораториях. Системы «умеют» работать с непрерывным речевым потоком и с неизвестными дикторами, понимать значения фрагментов речи (в узких областях) и предпринимать ответные действия. Эти системы работают в реальном времени и способны выполнять пять функций по телефону:

  • узнавание речи — преобразование речи в текст, состоящий из отдельных слов;
  • понимание — грамматический разбор предложений и распознавание смыслового значения;
  • восстановление информации — получение данных из оперативных источников на основании полученного смыслового значения;
  • генерация лингвистической информации — построение предложений, представляющих полученные данные, на выбранном пользователем языке;
  • синтез речи — преобразование предложений в синтезированную компьютером речь.
Диалоговый интерфейс в таких системах позволяет человеку разговаривать с машиной, создавать и получать информацию, решать свои задачи. Системы с диалоговым интерфейсом различаются по уровню инициативности человека или компьютера. Исследования фокусировались на «смешанно инициативных» системах, в которых и человек, и компьютер играют одинаково активную роль в достижении цели посредством диалога. С появлением систем распознавания голоса идея «говорящего» компьютера перестала быть фантастикой.

Литература:

  1. L. Rabiner, B.-H. Juang. Fundamentals of Speech Recognition. Prentice Hall, 1995, 507 p.

  2. X. D. Huang, Y. Ariki, M. A. Jack. Hidden Markov Models for Speech Recognition. Edinburgh University Press, 1990, 275 p.
  3. C. D. Manning, H. Schutze. Foundations of Statistical Natural Language Processing. MIT Press, 1999, 680 p.


RUS | UKR | ENG | ДонНТУ> Портал магистров ДонНТУ> Реферат | Библиотека | Ссылки | Отчет о поиске | Индивидуальное задание