Нестеренко Дмитрий СергеевичФакультет: Вычислительной техники и информатикиСпециальность: Программное обеспечение автоматизированных системТема выпускной работы:Автоматическое распознавание изолированных слов русского языка на основе вейвлет-анализаНаучный руководитель: доцент, к.т.н. Федяев О.И. |
В современных компьютерных системах все больше внимания уделяется построению интерфейса естественного ввода-вывода информации. Одним из перспективных направлений на сегодняшний день является использование систем речевого диалога, которая предполагает автоматический синтез и распознавание речи.
При разработке системы автоматического распознавания речи, представляющей собой наиболее сложную подсистему речевого диалога, используют различные методы. В последнее время большие перспективы в решении проблемы распознавания речи связывают с применением вейвлет-анализа речевого сигнала. Методы, использующие вейвлет преобразование, преодолевают многие ограничения и трудности, возникающие при распознавании речи, к тому же обладают существенными преимуществами, так как позволяют судить не только о частотном спектре сигнала, но также о том, в какой момент времени появилась та или иная гармоника.
В современной науке, вейвлеты являются эффективным математическим инструментом во многих исследованиях. Основная причина их использования – возможность получения в результатах анализа некоторого сигнала не только перечень его характерных частот, но и сведения о локальных координатах, при которых эти частоты проявляют себя.
В настоящее время вейвлеты начинают широко применяться при решении различных прикладных задач: распознавание образов, при обработке и синтезе различных сигналов (например, речевых), при анализе изображений и во многих других случаях. За относительно недолгое время существования теории вейвлетов сформировался на её основе развитый математический аппарат. Однако учёные и исследователи ещё не успели в достаточном объёме отразить все преимущества вейвлет преобразований на практике. Все эти факты, установленные в результате анализа научных и прикладных работ в этой области, обуславливают актуальность настоящей работы.
Исследования по данной тематике проводятся на кафедре прикладной математики и информатики ДонНТУ в рамках выполнения государственной темы № Н-39-2005 «Алгоритмическое и программное обеспечение высокопроизводительных и интеллектуальных вычислительных сетей» и Договора о сотрудничестве между кафедрой ПМИ и ООО «Центр интеллектуальных технологий» (г. Пермь, Россия).
Целью работы является теоретическое обоснование применения вейвлет анализа к разработке системы, позволяющей эффективно решать задачу автоматического распознавания изолированных слов русского языка.
В целом исследования посвящены анализу существующих методов вейвлет-преобразования и последующему применению лучшего из них для разработки системы распознавания слов. При этом планируется решение следующих задач:
Предметом исследований является математический аппарат вейвлет-анализа голосовых сигналов, позволяющий наиболее эффективно представить речевой сигнал с помощью вейвлетов, а также методы теории распознавания речевых образов.
Объектом исследования являются программно-аппаратные средства автоматического распознавания речевого сигнала.
Для решения поставленных задач использованы методы теории вейвлет-преобразований, теории цифровой обработки сигналов, теории искусственных нейронных сетей, теории нечётких систем и теории распознавания речевых образов.
Предложен новый подход к цифровому представлению речевого сигнала с помощью вейвлетов, позволяющий улучшить нейро-нечёткое распознавание изолированных слов русской речи.
Полученные результаты позволят оценить эффективность предложенного способа решения научной задачи автоматического распознавания речевых слов и применить разработанные алгоритмы для построения систем речевого взаимодействия человека с ЭВМ. Разработанные структуры нейросетевых и нечётких систем, а также программное обеспечение будут использоваться на кафедре ПМИ ДонНТУ в учебном процессе и при проведении научных исследований по этой проблеме.
В результате проведенных исследований, автор участвовал в международной научно-технической конференции "Информатика и компьютерные технологии", прошедшей 12-15 мая 2009 г. в Донецком Национальном Техническом Университете. Представлен доклад на тему: «Анализ математического описания представления сигналов вейвлетами».
На уровне университета, применяемые методы присутствуют в работах:
В последнее время во всем мире активизировался интерес к теории вейвлетов. Украина не стала исключением. Однако книг и статей по вейвлетам практически нет, чего нельзя сказать о России.
Еще в начале 90-х годов прошлого века были предложены вейвлеты и основанные на них вейвлет-преобразования. В дальнейшем, теория вейвлетов очень интенсивно развивались. Наибольший вклад в разработку теоретических основ вейвлетов внесли Мейер (Meyer), Добеши (Daubechies), Маал (Mallat) и другие ученые, опубликовавшие первые теоретические работы в этом направлении и сумевшие донести их до широкой научной общественности. К настоящему времени за рубежом в области вейвлет-преобразований опубликованы сотни книг, а число статей исчисляется многими тысячами [1].
Среди всего многообразия статей по данной тематике, можно выделить некоторые из них:
В настоящее время семейство функций-анализаторов, названных вейвлетами, начинает широко применяться в задачах распознавания образов, при обработке и синтезе различных сигналов, например, речевых, при анализе изображений, для упаковки (свертки) больших объемов информации и во многих других случаях. Однако они еще недостаточно широко известны исследователям, занимающихся анализом данных [2]. Именно поэтому была написана настоящая работа, позволяющая понять и разобраться в сущности вейвлет-преобразования, при помощи основных математических формул и наглядных образов.
Термин «вейвлет» был впервые введен специалистом по сейсмографии Морле (J.Morlet) в 80-х годах в связи с анализом свойств сейсмических и акустических сигналов. В переводе с английского буквально означает «короткая (или маленькая) волна» [1].
Вейвлеты представляют собой функции, обладающие некоторыми важными свойствами, среди которых следует выделить возможность переноса по времени и масштабируемость.
Изначально вейвлеты были предложены мировому сообществу математиками и поэтому основополагающие работы по вейвлетам написаны на довольно сложном математическом языке, зачастую даже для многих математиков.
Рассмотрим вейвлет типа «мексиканская шляпа» (MHAT), являющийся второй производной функции Гаусса. Его временной образ задается выражением:
График MHAT вейвлета c различными значениями масштаба и переноса по времени изображен на рис. 1.
Хорошо видно, что данный вейвлет напоминает затухающее синусоидальное колебание. Причем суммарная площадь (над осью времени и под ней) равна нулю. Именно эта особенность позволяет отнести временную зависимость MHAT к вейвлетам.
Задача вейвлет-анализа сводится к представлению исходного сигнала в виде набора вейвлетов.
Можно представить вейвлеты как некоторые волновые функции, способные осуществлять преобразование Фурье не по всей временной оси, а локально по месту своего расположения. Число вейвлетов, используемых при разложении сигнала, задает уровень декомпозиции сигнала. При этом за нулевой уровень декомпозиции сигнала принимается сам исходный сигнал.
Очевидно, что для представления сигналов в виде набора вейвлетов, необходимо иметь возможность сжимать или растягивать вейвлеты и перемещать их по временной оси.
Процесс разложения произвольного входного сигнала в виде совокупности вейвлетов получил название «прямое вейвлет-преобразование» (ПВП). Используемые при этом вейвлеты должны обладать следующими важными свойствами [1]:
ПВП можно рассматривать как разложение сигнала с помощью вейвлетов со всеми возможными сдвигами и растяжениями/сжатиями. При этом выполняется задача вычисления вейвлет-коэффициентов.
Вейвлет задается выражением:
Формально вычисление вейвлет-коэффициентов реализуется следующим способом:
Для примера, рассмотрено прямое вейвлет-преобразование функции
Графическое представление исходного сигнала изображено на рис. 2.
Для выполнения вычислений использовалась система компьютерной математики Mathcad. Разработанная программа получения вейвлет-коэффициентов представлена на рис. 3.
В результате выполнения программы, были получены вейвлет коэффициенты для указанного диапазона масштабов и сдвигов.
Полученные коэффициенты, представлены в виде поверхности. Она изображена на рис. 4.
Однако для удобства и повышения информативности, вейвлет коэффициенты представляют с помощью вейвлет-спектрограмм. Они позволяют легко выявить мельчайшие локальные особенности функций, сигналов, изображений с привязкой их ко времени или координатам пространства. Полученные вейвлет-коэффициенты, представленные в виде вейвлет-спектрограммы изображены на рис. 5.
На полученной вейвлет-спектрограмме наглядно видны все характеристики сигнала при определенном масштабе и сдвиге вейвлета. Таким образом, ее можно использовать в дальнейшем как графический образ для распознавания, решая задачу определения принадлежности к определенному классу образов. С помощью вейвлетов возможно также предварительное разделение речевого сигнала на фонемы с последующим построением их спектрограмм и распознаванием полученного набора графических образов.
Теория вейвлетов является той базой, основой, эффективным инструментом, который позволяет решить множество практических задач. Основной областью применения вейвлетных преобразований является анализ и обработка сигналов и функций, когда результаты анализа должны содержать не только общую частотную характеристику сигнала, но и сведения об определенных локальных характеристиках и особенностях сигнала.
Несмотря на то, что математический аппарат вейвлет-анализа хорошо разработан и теория, в общем, оформилась, вейвлеты оставляют обширное поле для исследований. Достаточно сказать, что выбор вейвлета, наиболее подходящего для анализа конкретных данных, представляет собой скорее искусство, чем рутинную процедуру [3]. Кроме того, огромное значение имеет задача разработки приложений, использующих вейвлет-анализ, которые могут быть применены во многих областях.