Бондаренко Иван Юрьевич

Тема магистерской диссертации:

Интеграция визуального и речевого способов управления процессом ввода и редактирования текстовой информации

Руководитель: Федяев О.И., доц., к.т.н.

РЕЧЕВОЙ ДИАЛОГ В КОМПЬЮТЕРНЫХ СИСТЕМАХ: СОСТОЯНИЕ И ПЕРСПЕКТИВЫ

Бондаренко И.Ю., Федяев О.И.

Материал взят из сборника трудов региональной научно-практической конференции «Молодь та майбутнє» ( под ред. Гузь Н.Г., Рамазанова С.К. - Краматорск: ДГМА, 2006; страницы 76 – 81 )

РЕЧЕВОЙ ДИАЛОГ В КОМПЬЮТЕРНЫХ СИСТЕМАХ: СОСТОЯНИЕ И ПЕРСПЕКТИВЫ

Диалог с компьютерами, роботами, автоматизированными системами управления с помощью речевых сообщений открывает большие перспективы:

простота общения с системой (использование речевого интерфейса не требует специальной подготовки, изучения управляющих команд, т.к. общение происходит на естественном языке);
доступность речевого интерфейса людям с нарушениями опорно-двигательного и зрительного аппарата;
возможность работы пользователей в условиях перегруженности тактильно-зрительных каналов.

В связи с увеличением интенсивности обмена информацией в системе «человек-машина» особое значение имеет снижение нагрузки на тактильно-зрительные каналы человека. Например, в системах управления востребованной является идея голосового контроля и управления состоянием системы (речевое общение для контроля состояния работы самолета, бескнопочный телефон, речевое управление производственными процессами). Внедрение голосового интерфейса оставит глаза и руки оператора (пилота, водителя, рабочего за станком) свободными от перегрузки, что повысит надёжность и качество управления.

Использование речевого диалога в системах массового обслуживания населения также актуально [1]. Помимо исключительного удобства для населения, такие системы повышают коммерческую выгоду как за счёт привлечения дополнительной клиентуры, так и путём замены человека-оператора компьютерными системами с голосовым интерфейсом.

Реализация речевого диалога основана на решении задачи распознавания речи. Основные этапы распознавания речи приведены на рисунке 1.

Рисунок 1 - Общая схема системы распознавания речи

В зависимости от области применения речевого диалога требования к системе распознавания речи будут различными. Например, для систем массового обслуживания населения распознавание должно удовлетворять следующим критериям [1]:

независимости от диктора;
способности адекватно понимать естественную речь в рамках конкретного приложения;
высокой точности распознавания речи.

Для систем голосового управления распознавание слитной речи не столь актуально, т.к. управление может осуществляться с помощью ограниченного набора команд (ключевых слов). В случаях ограниченного доступа к системе управления распознавание слов должно быть дикторозависимым (настраиваться на голос одного лица или группы лиц). Но точность распознавания должна быть еще более высокой, поскольку цена ошибки в управлении потенциально опасными устройствами (самолетами, автомобилями и т.д.) слишком высока.

Для создания системы распознавания речи необходимо решить две основные задачи:

рис.1.1

Современные устройства распознавания речи не обеспечивают достаточной точности распознавания или распознают малое количество слов, что накладывает большие ограничения на их использование в реальных системах. Это объясняется не самым удачным решением вышеприведенных задач. Поэтому разработка речевых интерфейсов как для различных систем управления, так и для систем массового обслуживания, – это вопрос, остро стоящий на повестке сегодняшнего дня.

Существуют три базовые модели языка: фонетическая –распознаются фонемы (модель имеет небольшой словарный запас и фактически может распознавать любое количество слов); слоговая – распознаются слоги (модель имеет базовый слоговый словарь в 2 – 3 тысячи наиболее употребительных слогов и, соответственно, имеет некоторую зависимость от словаря); словарная – распознается полностью все слово (соответственно данная система сильно зависит от словаря) [1]. Наиболее точными с точки зрения распознавания являются системы, основанные на словарной модели, но их область применения ограничена системами управления, имеющими небольшое количество команд. Для распознавания слитной речи в системах массового обслуживания населения более пригодна фонетическая, слоговая или смешанная модель, где используются как фонемы и слоги, так и целые слова (цифры, числа, некоторые команды).

Современные методы распознавания основываются на:

Эталоны формируются путем статистической обработки большого числа шаблонов. Сравнение входного сигнала с эталоном возможно путем нечёткого сопоставления образов [2]. Этот метод достаточно прост в реализации, но работает только со словарями небольшого размера.

Вторая модель распознавания является более сложной. В ней процесс произношения моделируется с помощью аппарата скрытых марковских цепей или нейронными сетями [1]. Использование последних дает большую точность, но требует применения эффективного метода обучения системы (в противном случае обучение может не завершится успехом).

Немаловажную роль в качестве распознавания играет и преобразование входного речевого сигнала в форму, наилучшим образом пригодную для выявления характерных свойств сигналов различного вида. Речевые сигналы являются нестационарными случайными процессам. В настоящее время существует четыре основных метода их обработки [3]: преобразование Фурье, линейное предсказание речи, гомоморфная обработка сигналов (кепстральный анализ), вейвлет-преобразование. Последний метод, предложенный в конце 80-х г.г. прошлого века, в отличие от других методов специально ориентирован на обработку нестационарных случайных сигналов, поэтому он лучше подходит для описания частотно-временных и масштабно-временных характеристик речевого сигнала [3].

Список литературы

Жожикашвили В.А. и др. Применение распознавания речи в автоматизированных системах массового обслуживания// Автоматизация и современные технологии, 2003, №11, с. 23-29.
Киедзи Асаи, Дзюдзо Ватада, Сокуке Иваи. Распознавание речи// Прикладные нечёткие системы, Под ред. Т.Тэрано и др. – М.: Мир, 1993, с.157-170.
Юрков П.Ю. и др. Распознавание фонем русского языка с помощью нейронных сетей на основе вейвлет-преобразования// Нейрокомпьютеры: разработка, применение, 2001, №7-8, с. 87-93.

МОЯ БИБЛИОТЕКА