Email: bond005@yandex.ru
Материал взят из сборника трудов региональной научно-практической конференции «Молодь та майбутнє» ( под ред. Гузь Н.Г., Рамазанова С.К. - Краматорск: ДГМА, 2006; страницы 76 – 81 )
РЕЧЕВОЙ ДИАЛОГ В КОМПЬЮТЕРНЫХ СИСТЕМАХ: СОСТОЯНИЕ И ПЕРСПЕКТИВЫ
Диалог с компьютерами, роботами, автоматизированными системами управления с помощью речевых сообщений открывает большие перспективы:
В связи с увеличением интенсивности обмена информацией в системе «человек-машина» особое значение имеет снижение нагрузки на тактильно-зрительные каналы человека. Например, в системах управления востребованной является идея голосового контроля и управления состоянием системы (речевое общение для контроля состояния работы самолета, бескнопочный телефон, речевое управление производственными процессами). Внедрение голосового интерфейса оставит глаза и руки оператора (пилота, водителя, рабочего за станком) свободными от перегрузки, что повысит надёжность и качество управления.
Использование речевого диалога в системах массового обслуживания населения также актуально [1]. Помимо исключительного удобства для населения, такие системы повышают коммерческую выгоду как за счёт привлечения дополнительной клиентуры, так и путём замены человека-оператора компьютерными системами с голосовым интерфейсом.
Реализация речевого диалога основана на решении задачи распознавания речи. Основные этапы распознавания речи приведены на рисунке 1.
Рисунок 1 - Общая схема системы распознавания речи
В зависимости от области применения речевого диалога требования к системе распознавания речи будут различными. Например, для систем массового обслуживания населения распознавание должно удовлетворять следующим критериям [1]:
Для систем голосового управления распознавание слитной речи не столь актуально, т.к. управление может осуществляться с помощью ограниченного набора команд (ключевых слов). В случаях ограниченного доступа к системе управления распознавание слов должно быть дикторозависимым (настраиваться на голос одного лица или группы лиц). Но точность распознавания должна быть еще более высокой, поскольку цена ошибки в управлении потенциально опасными устройствами (самолетами, автомобилями и т.д.) слишком высока.
Для создания системы распознавания речи необходимо решить две основные задачи:
Современные устройства распознавания речи не обеспечивают достаточной точности распознавания или распознают малое количество слов, что накладывает большие ограничения на их использование в реальных системах. Это объясняется не самым удачным решением вышеприведенных задач. Поэтому разработка речевых интерфейсов как для различных систем управления, так и для систем массового обслуживания, – это вопрос, остро стоящий на повестке сегодняшнего дня.
Существуют три базовые модели языка: фонетическая –распознаются фонемы (модель имеет небольшой словарный запас и фактически может распознавать любое количество слов); слоговая – распознаются слоги (модель имеет базовый слоговый словарь в 2 – 3 тысячи наиболее употребительных слогов и, соответственно, имеет некоторую зависимость от словаря); словарная – распознается полностью все слово (соответственно данная система сильно зависит от словаря) [1]. Наиболее точными с точки зрения распознавания являются системы, основанные на словарной модели, но их область применения ограничена системами управления, имеющими небольшое количество команд. Для распознавания слитной речи в системах массового обслуживания населения более пригодна фонетическая, слоговая или смешанная модель, где используются как фонемы и слоги, так и целые слова (цифры, числа, некоторые команды).
Современные методы распознавания основываются на:
Эталоны формируются путем статистической обработки большого числа шаблонов. Сравнение входного сигнала с эталоном возможно путем нечёткого сопоставления образов [2]. Этот метод достаточно прост в реализации, но работает только со словарями небольшого размера.
Вторая модель распознавания является более сложной. В ней процесс произношения моделируется с помощью аппарата скрытых марковских цепей или нейронными сетями [1]. Использование последних дает большую точность, но требует применения эффективного метода обучения системы (в противном случае обучение может не завершится успехом).
Немаловажную роль в качестве распознавания играет и преобразование входного речевого сигнала в форму, наилучшим образом пригодную для выявления характерных свойств сигналов различного вида. Речевые сигналы являются нестационарными случайными процессам. В настоящее время существует четыре основных метода их обработки [3]: преобразование Фурье, линейное предсказание речи, гомоморфная обработка сигналов (кепстральный анализ), вейвлет-преобразование. Последний метод, предложенный в конце 80-х г.г. прошлого века, в отличие от других методов специально ориентирован на обработку нестационарных случайных сигналов, поэтому он лучше подходит для описания частотно-временных и масштабно-временных характеристик речевого сигнала [3].
Список литературы