Пилипенко В.В. - Распознавание ключевых слов в потоке речи при помощи фонетического стенографа

Автор: Пилипенко В. В.
Источник: Пилипенко В. В. Распознавание ключевых слов в потоке речи при помощи фонетического стенографа. — Искусственный интеллект. — Донецк, 2009. — № 4.

Аннотация

Пилипенко В. В. Распознавание ключевых слов в потоке речи при помощи фонетического стенографа. В статье рассматривается использование фонетического стенографа для распознавания ключевых слов в потоке речи. Для моделирования фонем используются скрытые Марковские модели. Ключевое слово задается последовательностью фонем в виде транскрипции слова. Приведены результаты поиска ключевых слов в потоке речи большого количества дикторов. Предложенный подход может использоваться для поиска речевой информации в огромных массивах данных.

Введение

В связи с все более активным использованием естественного интерфейса и в частности голоса, для общения с техникой возросло и значение аудиозаписи как носителя информации. Появилась потребность в системах, способных быстро и эффективно обслуживать аудиоархивы и находить нужную информацию в большом объеме записи. Для этой цели предложено использовать алгоритмы поиска ключевых слов в потоке речи.

Задачей поиска ключевых слов является нахождение заданных фрагментов (это могут быть отдельные слова или целые фразы) в потоке речи. Первоначально для задания фрагментов использовались отрезки произнесенной речи, при этом по нескольким произнесениям формировался эталон ключевого слова. Неудобство такого метода проявлялось в том, что для введения в систему нового ключевого слова необходимо заранее его произнести или вырезать из известного потока речи.

Современные алгоритмы поиска ключевых слов используют задание ключевых слов последовательностью фонем или других элементарных единиц. При этом может использоваться преобразователь графема-фонема в соответствии с правилами данного языка и тогда ключевое слово задается текстом слова или фразы, что значительно расширяет область применения такой системы.

Широкое применение получили алгоритмы, в которых для моделирования элементарных единиц уровня фонемы применяются скрытые Марковские модели (СММ). Для поиска ключевых слов используются те же подходы, что и для распознавания слитной речи.

Модификация касается способа задания слов, отсутствующих в словаре системы. Предложено два способа задания неизвестных слов:

Моделирование незнакомых слов произвольными последовательностями фонем.
Использование Гауссовской Смеси Моделей для моделирования фонового потока речи.

В данной статье рассматривается первый способ задания незнакомых слов. Для этого используется концепция фонетического стенографа [1, 2].

Базовая система распознавания слитной речи

В данной работе используется инструментарий HTK [3] на основе скрытых Марковских моделей (CMM). При помощи инструментария НТК построены акустические и лингвистические модели системы. Для распознавания речи был разработан программный комплекс, совместимый с акустическими и лингвистическими моделями НТК

Предварительная обработка речевого сигнала

Речевой сигнал преобразуется в последовательность векторов признаков с интервалом анализа 25 мс и шагом анализа 10 мс. Вначале речевой сигнал фильтруется фильтром высоких частот с характеристикой P(z)=1-0.97 z-1. Затем применяется окно Хэмминга и вычисляется быстрое преобразование Фурье. Спектральные коэффициенты усредняются с использованием 26 треугольных окон, расположенных в мел-шкале, и вычисляются 12 кепстральных коэффициентов.

Логарифм энергии добавляется в качестве 13-го коэффициента. Эти 13 коэффициентов расширяются до 39-мерного вектора параметров путем дописывания первой и второй разностей от коэффициентов, соседних по времени. Для учета влияния канала применяется вычитание среднего кепстра.

Акустическая модель

В качестве акустических моделей используются скрытые Марковские модели. 56 украинских контекстно-независимых фонем моделируются тремя состояниями Марковской цепи без пропуска. Используется диагональный вид Гауссовских функций плотности вероятности.

Редко встречающиеся фонемы моделируются 64 смесями Гауссовских функций плотности вероятности, более часто встречающиеся фонемы моделируются большим числом смесей, наиболее часто встречающиеся фонемы используют 1024 смеси.

Фонетический стенограф

Алгоритм фонетического стенографа позволяет строить последовательность фонем для речевого сигнала без использования какого-либо словаря. Для этой цели строится некоторая генеративная грамматика, которая может синтезировать все возможные модельные сигналы непрерывной речи для любой последовательности фонем. В рамках построенной модели строится алгоритм пофонемного распознавания для неизвестного сигнала. Используются те же контекстно-независимые модели фонем, как и в базовом распознавателе.

Рисунок 1 — Граф для произвольной последовательности фонем

Результаты экспериментов по распознаванию ключевых слов в потоке слитной речи

Ключевые слова описывались последовательностью фонем заданной длины от

2 до 12 фонем. Для данной длины из словаря выбиралось 30 ключевых слов. К сожалению, для длин 2, 11 и 12 в тестовом корпусе не удалось выбрать достаточное количество записей, и в данном случае было выбрано около 20 ключевых слов. Всего было отобрано 309 ключевых слов.

Для каждого ключевого слова из тестового корпуса выбиралось от 15 до 100 записей фраз, в которые это ключевое слово обязательно входило. На данном материале подсчитывался процент ложного отказа (False Rejection) как доля случаев, когда ключевое слово не было распознано.

Кроме этого выбиралась выборка длиной в 1000 слов, в которую ключевое слово гарантированно не входило. На данном материале подсчитывался процент ложного срабатывания (False Alarm) как доля случаев, когда происходило срабатывание алгоритма распознавания ключевого слова.

Алгоритм содержит коэффициент, позволяющий регулировать соотношение между процентами ложного отказа и ложного срабатывания. Оптимальный коэффициент был выбран из условия минимума суммы этих процентов. При необходимости можно выбрать другое значение коэффициента, отдавая предпочтение тому или иному сценарию использования системы.

Таблица 1 — Надежность распознавания ключевых слов

Число фонем в ключевом слове	Процент ложного отказа	Процент ложного срабатывания
2	6.95	13.27
3	5.22	7.30
4	3.26	4.76
5	4.06	2.34
6	3.32	1.87
7	2.21	1.12
8	1.52	1.48
9	2.09	0.74
10	3.79	0.55
11	4.47	0.38
12	5.73	0.22
По всем длинам	3.67	3.02

Заключение

Статья описывает экспериментальную систему распознавания ключевых слов в потоке речи на основе фонетического стенографа. Проведены эксперименты по распознаванию. Коэффициент ложного отказа равен 3.67% при ложном срабатывании, равном 3.02%. Это позволяет надеяться, что данный алгоритм можно использовать в практических системах.

Список использованной литературы

1. Vintsiuk Taras K. Generalized Automatic Phonetic Transcribing of Speech Signals / Taras K. Vintsiuk // Труды Пятой Всеукраинской международной конференции «Оброблення сигналів і зображень та розпізнавання образів» / УАсОІРО. — Київ, 2000. — с. 95–98.
2. Пилипенко В. В. Використання фонетичного стенографа при розпізнаванні мовлення з великих словників / В. В. Пилипенко // Тезисы 12-й международной конференции «Автоматика — 2005». — Харьков, 2005. — с. 73.
3. The HTK Book / [S. Young, G. Evermann, D. Kershaw and others]. — Cambridge University Engineering Department, 2002.

Речевой интерфейс для интеллектуализации ввода исходного кода программ