Бондаренко ИЮ, Федяев ОИ Голосовое командное управление и проблема временной нестабильности речевого сигнала

Голосовое командное управление и проблема временной нестабильности речевого сигнала

Бондаренко И.Ю., Федяев О.И.

Донецкий национальный технический университет

Источник: Интеллектуальный анализ информации - 2008 / Материалы VІII–й международной конференции ИАИ-2008 «Интеллектуальный анализ информации». - Киев, Национальный технический университет Украины «КПИ» - 2008.

<<< В БИБЛИОТЕКУ

Рассматривается один из аспектов разработки канала голосового управления техническими системами – распознавание голосовых команд пользователя, представляемых как изолированные речевые сигналы. Определяется основная проблема распознавания таких сигналов – их временная нестабильность. Проводится анализ возможных путей решения этой проблемы на примере различных модификаций метода нечёткого сопоставления речевых образов.

Введение

В настоящее время основным каналом управления техническими системами остаётся тактильно-зрительный. В связи со значительным расширением функциональных возможностей современной техники информационная нагрузка на тактильно-зрительный канал при управлении техникой серьёзно возрастает, приводя к переутомлению человека-оператора и, как следствие, ошибкам в его работе. Добавление голосового канала в контур управления техническими системами позволит равномерно распределить информационную нагрузку между каналами управления, что снизит утомляемость оператора и повысит надёжность самого процесса управления [1].

Целью данной работы является разработка и исследование голосового командного интерфейса, дополняющего традиционные тактильно-зрительные средства управления техническими системами и повышающего эргономичность человеко-машинного взаимодействия. Для достижения указанной цели необходимо решить две основные задачи:

разработка структуры канала голосового командного управления;
исследование и решение проблемы временной нестабильности речевого сигнала, возникающей вследствие непроизвольных изменений темпа речи оператора в течение сеанса работы или замены одного оператора другим.

Структура канала голосового командного управления

Задача разработки канала голосового командного управления естественным образом распадается на две задачи: распознавание голосовых команд пользователя и синтез речевого ответа управляемой системы. Если проблема речевого синтеза на научном уровне уже решена, и продолжаются лишь разработки, направленные на точное воспроизведение индивидуальных особенностей человеческих голосов [2], то проблема распознавания речи, несмотря на множество предложенных подходов к её решению, по-прежнему остаётся актуальной.

Ключевой особенностью управления любой технической системы является то, что она в ответ на неограниченное число ситуаций внешнего мира предусматривает выполнение строго ограниченного числа действий. Это позволяет без снижения эргономичности управления представить голосовые команды не как контекстно-свободные фразы слитной речи, а как конечный набор изолированных речевых сигналов, поступающих от пользователя. Таким образом, при разработке голосового канала управления задача распознавания голосовых команд сводится к задаче распознавания изолированных речевых сигналов из ограниченного множества.

В условиях, когда словарь системы распознавания изолированных речевых сигналов не является сверхбольшим, наибольшую точность показывают методы целостного распознавания, основанные на распознавании речевого сигнала как целого слова, без разбиения его на более мелкие речевые единицы (фонемы, аллофоны и т.п.) [3]. Одним из таких методов, показавшим высокие результаты при распознавании слов японской, английской и немецкой речи, является нечёткое сопоставление образов [4]. Речевые сигналы в этом методе путём спектрального анализа преобразуются в двумерные спектрально-временные образы (СВО). Затем для каждого временного среза СВО определяются номера частот, на которых произошли амплитудные всплески, называемые ещё локальными выбросами [4]. Эти номера кодируются единицами, а остальные – нулями, что позволяет отразить изменение структуры локальных выбросов в спектре речевого сигнала с течением времени (рис.1). Получённые двоичные спектрально-временные образы (ДСВО) подаются на вход системы распознавания. Эталоны речевого словаря представляются в виде нечётких отношений между номерами частот, на которых обнаружены локальные выбросы, и номерами временных интервалов спектрального анализа. Данный метод был адаптирован также и для распознавания слов русской речи [5].

Рис.1. Примеры двоичных спектрально-временных образов слова «Больше», произнесённого тремя разными дикторами

Была предложена структурная схема канала голосового управления компьютерными системами с использованием метода нечёткого сопоставления образов для распознавания управляющих команд оператора (рис.2), а также разработана специализированная программная система русскоязычного голосового управления процессом ввода и редактирования текстовой информации, интегрированная в общий контур управления текстовым редактором Microsoft Word [6].

Рис.2. Структура канала голосового управления компьютерными системами

Анализ проблемы временной нестабильности речевых команд

При сопоставлении входного двумерного образа и нечёткого образа-эталона необходимо выполнить процедуру временной нормализации, т.е. привести эти образы к одной длине по оси времени, поскольку различные реализации речевых образов, даже относящихся к одному и тому же классу, могут значительно отличаться друг от друга по длительности. Основной проблемой нормализации, сильно влияющей на качество распознавания, является временная нестабильность речевого сигнала, т.е. неравномерность протекания речевого сигнала во времени, вызванная перманентной нестабильностью темпа речи пользователя, влиянием ударения, интонации, акцента и т.п. С этой проблемой сталкиваются все методы распознавания речевых сигналов.

В исходном варианте метода нечёткого сопоставления образов предлагалось выполнять временную нормализацию путём линейного растяжения/сжатия сопоставляемых образов, что не решало вышеуказанную проблему. Поэтому была предложена модификация метода, основанная на сопоставлении речевых образов путём нелинейной временной нормализации, выполняемой по алгоритму dynamic time warping (DTW), относящемуся к классу алгоритмов динамического программирования. Временная структура сопоставляемых речевых образов изменяется неравномерно: нормализуются отдельные участки образов, имеющие наибольшее подобие, и тем самым достигается наибольшее сходство этих образов в целом. Модифицированный метод получил название нечёткого DTW-сопоставления образов. При проведении экспериментов на русскоязычном словаре малого объёма (5 речевых классов) он правильно распознал 100 % предъявленных речевых сигналов, в то время как исходный метод – лишь 96,67 % [7]. Однако при однодикторных экспериментах на русскоязычном словаре среднего объёма (105 речевых классов) метод нечёткого DTW-сопоставления образов не превысил показателей исходного метода нечёткого сопоставления образов. Это объясняется тем, что вышеописанное изменение временной структуры входного образа и каждого из эталонных образов с целью достижения их максимального сходства приводит к снижению различимости образов из различных речевых классов, особенно если число классов велико.

Для устранения указанных недостатков был предложен метод нечёткого сопоставления образов с оптимальным временным выравниванием, являющийся дальнейшим развитием исходного метода нечёткого DTW-сопоставления образов [8]. Задача оптимального временного выравнивания рассматривается как задача нелинейной оптимизации функции целочисленного аргумента (числа временных интервалов, добавляемых к образу меньшей длины), а критерием оптимальности выравнивания является максимизация степени сходства сопоставляемых образов. Проведённые на русскоязычном словаре среднего объёма (105 речевых классов) однодикторные эксперименты показали высокую надёжность разработанного метода (точность распознавания достигла 99,05 % правильно распознанных слов). В ходе многодикторных экспериментов на этом же словаре, в которых приняли участие 9 дикторов разного пола и возраста (см. табл. 1), точность распознавания достигла 70,37%. При уменьшении объёма словаря до 20 речевых классов точность распознавания речевых сигналов неизвестного диктора повысилась до 81,67% [8]. Графики изменения точности однодикторного и многодикторного распознавания в зависимости от изменения объёма словаря приведёны на рис.3.

Таблица 1. Состав участников формирования многодикторной речевой базы

Рис. 3. Результаты распознавания слов по методу нечёткого сопоставления образов с оптимальным временным выравниванием: 1 – однодикторные; 2 – многодикторные

Заключение

Описанные методы были использованы в канале русскоязычного голосового управления процессом ввода и редактирования текстовой информации, интегрированном в общий контур управления текстовым редактором Microsoft Word. В ходе экспериментов было установлено, что канал голосового управления целесообразно организовывать передачу наиболее употребительных команд, а также макрокоманд (последовательностей простых действий), связанных с рутинным, но сложным редактированием документа. Тактильно-зрительный канал целесообразно использовать для передачи команд, связанных с позиционированием фрагментов документа в пространстве.

Полученные результаты экспериментов свидетельствуют о практической применимости метода нечёткого сопоставления образов с оптимальным временным выравниванием в системах голосового командного управления с предварительной подстройкой под диктора (пользователя). Дальнейшие исследования будут развиваться в следующих направлениях:

формирование такого набора признаков речевого сигнала, который повысит инвариантность данного метода к изменению голосов дикторов;
включение описанного метода распознавания изолированных слов в сегментно-целостную модель восприятия речевого сигнала, что позволит улучшить надёжность распознавания путём учёта коллективного решения распознающих подсистем, основанных на различных принципах анализа речевого сигнала [9].

ЛИТЕРАТУРА

Плотников В.Н. и др. Речевой диалог в системах управления. - М.: Машиностроение. - 1988. - 224 с.
Винцюк Т.К., Сажок М.М., Людовик Т.Л., Селюх Р.А. Автоматич-ний озвучувач українських текстів на основі фонемно-трифонної моделі з використанням природного мовного сигналу // Праці 6-ї Всеукр. міжнар. конф. «УкрОбраз-2002». - К.: УАСОІРО. - 2002. - С. 79-84.
Жожикашвили В.А. и др. Применение распознавания речи в авто-матизированных системах массового обслуживания // Автоматиза-ция и современные технологии. – 2003. – № 11. – С.23-29.
Киедзи Асаи, Дзюндзо Ватада, Сокуке Иваи и др. Распознавание речи // Прикладные нечёткие системы. Под ред. Т.Тэрано, К. Асаи, М. Сугено. – М.: «Мир», – 1993. – С.157-170.
Федяев О.И., Бондаренко И.Ю. Интеграция визуального и речево-го способов управления процессом ввода и редактирования тек-стовой информации // Сб. тр. конф. «Научная сессия МИФИ-2006». Т.3. Интеллектуальные системы и технологии. - М.: МИФИ. - 2006. - С. 194 –195.
Федяев О.И., Бондаренко И.Ю. Речевое управление текстовым редактором MS Word // Сб. тр. 3-й научно-методич. конф. «Проблемы и пути усовершенствования научно-методической и учебно-воспитательной работы в ДонНТУ». - Донецк: ДонНТУ. - 2007.
Бондаренко И.Ю, Федяев О.И. Анализ эффективности метода нечёткого сопоставления образов для распознавания изолирован-ных слов // Сб. тр. VI междунар. науч. конф. «Интеллектуальный анализ информации ИАИ-2006». - 2006. - С.20 – 27.
Федяев О.И., Бондаренко И.Ю. Нечёткое сопоставление образов с оптимальным временным выравниванием для однодикторного и многодикторного распознавания изолированных слов // Сб. науч. трудов Донецкого нац. техн. ун-та. Серия «Информатика, киберне-тика и вычислит. техника». - 2007. - Выпуск 8 (120). - С.273–281.
Бондаренко И.Ю., Гладунов С.А., Федяев О.И. Сегментно-целостная структура канала речевого управления программными системами // Сб. трудов X нац. конференции по искусственному интеллекту с междунар. участием КИИ-2006. – М.: Физматлит, 2006. – с. 841 – 849.