Источник: Интеллектуальный анализ информации - 2008 / Материалы VІII–й международной конференции ИАИ-2008 «Интеллектуальный анализ информации». - Киев, Национальный технический университет Украины «КПИ» - 2008.
Рассматривается один из аспектов разработки канала голосового управления техническими системами – распознавание голосовых команд пользователя, представляемых как изолированные речевые сигналы. Определяется основная проблема распознавания таких сигналов – их временная нестабильность. Проводится анализ возможных путей решения этой проблемы на примере различных модификаций метода нечёткого сопоставления речевых образов.
В настоящее время основным каналом управления техническими системами остаётся тактильно-зрительный. В связи со значительным расширением функциональных возможностей современной техники информационная нагрузка на тактильно-зрительный канал при управлении техникой серьёзно возрастает, приводя к переутомлению человека-оператора и, как следствие, ошибкам в его работе. Добавление голосового канала в контур управления техническими системами позволит равномерно распределить информационную нагрузку между каналами управления, что снизит утомляемость оператора и повысит надёжность самого процесса управления [1].
Целью данной работы является разработка и исследование голосового командного интерфейса, дополняющего традиционные тактильно-зрительные средства управления техническими системами и повышающего эргономичность человеко-машинного взаимодействия. Для достижения указанной цели необходимо решить две основные задачи:
Задача разработки канала голосового командного управления естественным образом распадается на две задачи: распознавание голосовых команд пользователя и синтез речевого ответа управляемой системы. Если проблема речевого синтеза на научном уровне уже решена, и продолжаются лишь разработки, направленные на точное воспроизведение индивидуальных особенностей человеческих голосов [2], то проблема распознавания речи, несмотря на множество предложенных подходов к её решению, по-прежнему остаётся актуальной.
Ключевой особенностью управления любой технической системы является то, что она в ответ на неограниченное число ситуаций внешнего мира предусматривает выполнение строго ограниченного числа действий. Это позволяет без снижения эргономичности управления представить голосовые команды не как контекстно-свободные фразы слитной речи, а как конечный набор изолированных речевых сигналов, поступающих от пользователя. Таким образом, при разработке голосового канала управления задача распознавания голосовых команд сводится к задаче распознавания изолированных речевых сигналов из ограниченного множества.
В условиях, когда словарь системы распознавания изолированных речевых сигналов не является сверхбольшим, наибольшую точность показывают методы целостного распознавания, основанные на распознавании речевого сигнала как целого слова, без разбиения его на более мелкие речевые единицы (фонемы, аллофоны и т.п.) [3]. Одним из таких методов, показавшим высокие результаты при распознавании слов японской, английской и немецкой речи, является нечёткое сопоставление образов [4]. Речевые сигналы в этом методе путём спектрального анализа преобразуются в двумерные спектрально-временные образы (СВО). Затем для каждого временного среза СВО определяются номера частот, на которых произошли амплитудные всплески, называемые ещё локальными выбросами [4]. Эти номера кодируются единицами, а остальные – нулями, что позволяет отразить изменение структуры локальных выбросов в спектре речевого сигнала с течением времени (рис.1). Получённые двоичные спектрально-временные образы (ДСВО) подаются на вход системы распознавания. Эталоны речевого словаря представляются в виде нечётких отношений между номерами частот, на которых обнаружены локальные выбросы, и номерами временных интервалов спектрального анализа. Данный метод был адаптирован также и для распознавания слов русской речи [5].
Была предложена структурная схема канала голосового управления компьютерными системами с использованием метода нечёткого сопоставления образов для распознавания управляющих команд оператора (рис.2), а также разработана специализированная программная система русскоязычного голосового управления процессом ввода и редактирования текстовой информации, интегрированная в общий контур управления текстовым редактором Microsoft Word [6].
При сопоставлении входного двумерного образа и нечёткого образа-эталона необходимо выполнить процедуру временной нормализации, т.е. привести эти образы к одной длине по оси времени, поскольку различные реализации речевых образов, даже относящихся к одному и тому же классу, могут значительно отличаться друг от друга по длительности. Основной проблемой нормализации, сильно влияющей на качество распознавания, является временная нестабильность речевого сигнала, т.е. неравномерность протекания речевого сигнала во времени, вызванная перманентной нестабильностью темпа речи пользователя, влиянием ударения, интонации, акцента и т.п. С этой проблемой сталкиваются все методы распознавания речевых сигналов.
В исходном варианте метода нечёткого сопоставления образов предлагалось выполнять временную нормализацию путём линейного растяжения/сжатия сопоставляемых образов, что не решало вышеуказанную проблему. Поэтому была предложена модификация метода, основанная на сопоставлении речевых образов путём нелинейной временной нормализации, выполняемой по алгоритму dynamic time warping (DTW), относящемуся к классу алгоритмов динамического программирования. Временная структура сопоставляемых речевых образов изменяется неравномерно: нормализуются отдельные участки образов, имеющие наибольшее подобие, и тем самым достигается наибольшее сходство этих образов в целом. Модифицированный метод получил название нечёткого DTW-сопоставления образов. При проведении экспериментов на русскоязычном словаре малого объёма (5 речевых классов) он правильно распознал 100 % предъявленных речевых сигналов, в то время как исходный метод – лишь 96,67 % [7]. Однако при однодикторных экспериментах на русскоязычном словаре среднего объёма (105 речевых классов) метод нечёткого DTW-сопоставления образов не превысил показателей исходного метода нечёткого сопоставления образов. Это объясняется тем, что вышеописанное изменение временной структуры входного образа и каждого из эталонных образов с целью достижения их максимального сходства приводит к снижению различимости образов из различных речевых классов, особенно если число классов велико.
Для устранения указанных недостатков был предложен метод нечёткого сопоставления образов с оптимальным временным выравниванием, являющийся дальнейшим развитием исходного метода нечёткого DTW-сопоставления образов [8]. Задача оптимального временного выравнивания рассматривается как задача нелинейной оптимизации функции целочисленного аргумента (числа временных интервалов, добавляемых к образу меньшей длины), а критерием оптимальности выравнивания является максимизация степени сходства сопоставляемых образов. Проведённые на русскоязычном словаре среднего объёма (105 речевых классов) однодикторные эксперименты показали высокую надёжность разработанного метода (точность распознавания достигла 99,05 % правильно распознанных слов). В ходе многодикторных экспериментов на этом же словаре, в которых приняли участие 9 дикторов разного пола и возраста (см. табл. 1), точность распознавания достигла 70,37%. При уменьшении объёма словаря до 20 речевых классов точность распознавания речевых сигналов неизвестного диктора повысилась до 81,67% [8]. Графики изменения точности однодикторного и многодикторного распознавания в зависимости от изменения объёма словаря приведёны на рис.3.
Описанные методы были использованы в канале русскоязычного голосового управления процессом ввода и редактирования текстовой информации, интегрированном в общий контур управления текстовым редактором Microsoft Word. В ходе экспериментов было установлено, что канал голосового управления целесообразно организовывать передачу наиболее употребительных команд, а также макрокоманд (последовательностей простых действий), связанных с рутинным, но сложным редактированием документа. Тактильно-зрительный канал целесообразно использовать для передачи команд, связанных с позиционированием фрагментов документа в пространстве.
Полученные результаты экспериментов свидетельствуют о практической применимости метода нечёткого сопоставления образов с оптимальным временным выравниванием в системах голосового командного управления с предварительной подстройкой под диктора (пользователя). Дальнейшие исследования будут развиваться в следующих направлениях: