Распознавание фонем: функциональный и нейросетевой подходы

Леонович А.А., Медведев М.С.


Источник: http://www.e-joe.ru/aknit/itse2005/5_3.pdf



<<< В БИБЛИОТЕКУ

In modern computer systems it is given more attention to the speech input-output interface. One of the approaches to construction speech recognition systems is phoneme oriented method. For extraction of descriptive features of speech units the wavelet transform theory provides an alternative tool for short time analysis of quasi stationary signal as opposed to the traditional short-time Fourier, because wavelet transform has advantages in accuracy of the non-stationary signal local changes analysis. In this article a dynamic programming method and neural network approach are considered with the purpose of comparison on efficiency of phoneme recognition based on the wavelet transform. Experimental data and conclusions are submitted.

1. Введение

В современных компьютерных системах все больше внимания уделяется построению интерфейса естественного ввода-вывода информации. Наиболее перспективными на сегодняшний день являются системы речевого ввода. При разработке систем распознавания речи можно выделить фонемно-ориентированный метод, основанный на выделении фонем из потока речи. Для получения описательных признаков речевых единиц обычно используется преобразования Фурье. Предположение этого метода о стационарности сигнала в пределах определенного промежутка времени приводит к ограничению точности анализа локальных изменений сигнала. Вейвлет преобразование, преодолевает некоторые из этих ограничений и обладает существенными преимуществами, так как позволяет судить не только о частотном спектре сигнала, но также о том, в какой момент времени появилась та или иная гармоника [1,2].

В любом алгоритме распознавания речи всегда присутствует процедура сравнения входного сигнала с имеющимися в памяти эталонами, для определения его принадлежности к определенному классу. В данной работе с целью сравнения рассмотрены два подхода к классификации фонем: нейросетевой и метод динамического программирования.

2. Функциональный подход

Для формирования базы данных эталонов необходимо выделить структурные единицы речи из произнесенных слов – в данном случае фонемы. Был построен алгоритм, осуществляющий поиск межфонемных переходов и дающий на выходе набор сегментов предполагаемых фонем [3]. В качестве признаков, характеризующих речевой сигнал, а именно выделенные в результате сегментации фонемы, выбраны коэффициенты детализации ортогонального вейвлет - преобразования каждого из сегментов в базисе Добеши 8.

В ходе процесса распознавания осуществляется принятие решения о соответствии данного сегмента речевого сигнала эталону фонемы из базы. Для того, чтобы сравнить сегмент с эталоном, надо путем деформаций оси времени совместить участки, соответствующие одним и тем же звукам, измерить остаточные различия между ними и просуммировать эти частные расстояния, взятые с некоторыми весовыми коэффициентами.

Для нормализации темпа делались неоднократно попытки линейного сжатия (растяжения) описаний речи. В результате подобных экспериментов выяснилось, что деформации темпа носят явно нелинейный характер.

Для нелинейного согласования речи применяют методы градиентного спуска, марковское моделирование, наиболее широко используют алгоритмы динамического программирования [4]. Исследования показали, что алгоритм динамического программирования с двукратной деформацией дает минимум ошибок распознавания, поэтому данный метод наиболее подходит для применения в данной системе. Выбрана следующая метрика, как наиболее функциональная и простая

На начальном этапе была создана БД эталонов фонем: А, О, И, У, К, Р, В, З, Ж. Были проведены эксперименты по оценке качества распознавания изолированных слов. Контрольные слова произносились тем же диктором, который выполнял обучение системы. Средний коэффициент распознавания составил 73%. В общем случае качество распознавания можно оценить как удовлетворительное, так как модуль обучения не производит работы по оптимизации признаков, полученных на основе вейвлетов.

3. Нейросетевой подход

Классификации образов является одной из основных задач решаемых с помощью нейросетей. Многослойные сети с обратным распространением ошибки являются наиболее распространенной на сегодняшний день архитектурой нейросети. К их достоинствам можно отнести сравнительную простоту анализа и достаточно высокую эффективность классификации. Благодаря использованию непрерывной функции возбуждения такие сети способны к обобщению элементов обучающей выборки, что позволяет классифицировать сигнал, даже если в нем имеются отклонения от эталонного.

Для моделирования структуры нейронной сети был использован пакет Neural Networks в системе MatLab 7.В пакет включены более полутора десятков известных типов искусственных нейронных сетей и обучающих правил.

Из речевого сигнала фонемы (из описанной выше базы эталонов), оцифрованного с частотой дискретизации 11025 Гц последовательно выбиралось 10 окон длиной 100 отсчетов (0,01с), для каждого окна проводилась нормализация, и затем применялось вейвлет разложение в базисе Добеши 8 на 10 уровней. На каждом уровне рассчитывалось среднее значение энергии. Таким образом, формировались вектора из 10 коэффициентов для использования в качестве входных данных нейросети. Была построена обучающая выборка сети, состоящая из 10 векторов для каждой из распознаваемых фонем, записанных одним диктором.

Классификация фонем была реализована на двухслойной однонаправленной сети обратного распространения [5]. После обучения сети ее работа тестировалась на распознавании фонем, не входящих в обучающее множество и записанных голосом того же диктора. Среднее количество правильно распознанных примеров составило 98%.

На основе полученных результатов можно сделать выводы, что применение нейросетевого подхода в задаче распознавания фонем является наиболее эффективным при использовании в качестве описательных признаков коэффициентов кратномасштабного вейвлет анализа.

Авторы считают, что в данной работе новыми являются следующие положения и результаты:

ЛИТЕРАТУРА

  1. Дремин И.М., Иванов О.В., Нечитайло В.А. Вейвлеты и их использование. //Успехи физических наук, т. 171, №5 с. 465-500, 2001г.
  2. Смоленцев Н.К. Основы теории вейвлетов. Вейвлеты в Matlab. –М.: ДМК Пресс, 2005.-304с., ил.
  3. Ермоленко Т., Шевчук В. Алгоритмы сегментации с применением быстрого вейвлет-преобразования. //Статьи, принятые к публикации на сайте международной конференции Диалог’2003. www.dialog-21.ru
  4. Методы автоматического распознавания речи: В 2-х книгах. Пер. с англ./Под ред. У. Ли. – М.: Мир, 1983. –Кн. 1. 328 с., ил.
  5. Уоссермен Ф. Нейрокомпьютерная техника: Теория и практика. Перевод на русский язык, Ю. А. Зуев, В. А. Точенов, 1992г.