ДонНТУ> Портал магистров ДонНТУ> Главная | Реферат | Библиотека | Ссылки | Отчет о поиске | Индивидуальное задание

Бондаренко Иван Юрьевич

Тема магистерской диссертации:

Интеграция визуального и речевого способов управления процессом ввода и редактирования текстовой информации

Руководитель: Федяев О.И., доц., к.т.н.

Email: bond005@yandex.ru


МОЯ БИБЛИОТЕКА

ОРГАНИЗАЦИЯ РЕЧЕВОГО ВЗАИМОДЕЙСТВИЯ С ИНФОРМАЦИОННЫМИ СИСТЕМАМИ НА ОСНОВЕ НЕЧЕТКОЙ ЛОГИКИ

Бондаренко И.Ю., Федяев О.И.

Материал взят из электронного сборника трудов I международной научной конференции студентов, аспирантов и молодых учёных «Комп'ютерний моніторинг та інформаційні технології 2006» ( Донецк: ДонНТУ, 2005 )


ОРГАНИЗАЦИЯ РЕЧЕВОГО ВЗАИМОДЕЙСТВИЯ С ИНФОРМАЦИОННЫМИ СИСТЕМАМИ НА ОСНОВЕ НЕЧЕТКОЙ ЛОГИКИ

Диалог с компьютерами, роботами, автоматизированными системами управления с помощью речевых сообщений открывает большие перспективы:

В настоящее время увеличивается интенсивность обмена информацией в системе «человек-машина». Поэтому особое значение приобретает снижение нагрузки на тактильно-зрительные каналы человека. В информационных системах востребованной является идея голосового контроля и управления состоянием системы (речевое взаимодействие для контроля состояния работы самолета, бескнопочный телефон, речевое управление производственными процессами). Внедрение голосового интерфейса оставит глаза и руки оператора (пилота, водителя, рабочего за станком) свободными от перегрузки, что повысит надёжность и качество управления.

Реализация речевого диалога включает решение задачи распознавания речи. Требования к блоку распознавания речи, используемому для организации голосового контроля и управления, таковы:

В соответствии с этими требованиями предложена система распознавания речи. В ней используется словарная модель языка, т.е. объектом распознавания является слово целиком. Эта модель обеспечивает более высокую точность распознавания по сравнению с фонетической или слоговой моделью при условии ограниченного размера словаря [1].

Метод распознавания, применяемый в данной системе, основывается на задании эталонов слов словаря. Сравнение входного речевого сигнала с эталоном выполняется путем нечёткого сопоставления образов [2]. Этот метод прост в реализации. Его особенность является возможность эффективной работы только со словарями небольшого объёма, что удовлетворяет вышеизложенным требованиям.

Формирование образа распознаваемого речевого сигнала выполняется методом одномерного дискретного вейвлет-преобразования. Поскольку речевой сигнал характеризуется наличием амплитудных скачков, изменений знака производной функции сигнала и т.д., то вейвлет-преобразование наилучшим образом подходит для его обработки [3].

Структура системы распознавания речи
Рисунок 1 - Структура системы распознавания речи

Структура система изображена на рис.1. Звук с помощью микрофона преобразуется в сигнал; блок дискретного одномерного вейвлет-преобразования вычисляет детализирующие коэффициенты для вейвлет-декомпозиции сигнала уровня k:

formula1

где j – параметр масштаба; k – параметр положения вейвлета на оси времени; a0 – начальное положение вейвлета на оси времени; formula2 – вейвлет-функция formula3 при дискретных значениях масштаба formula4 и положения по оси времени formula5 [3].

Вейвлет-преобразование целесообразно выполнить на 22 масштабах, что позволит полностью покрыть весь спектр речевого сигнала [1]. Базовая вейвлет-функция подбирается экспериментальным путём. В результате получается вейвлет-спектрограмма, которая показывает изменение амплитуды сигнала с течением времени на различных масштабах. Эта спектрограмма рассматривается как образ входного слова, который подаётся на вход блока сопоставления образов. В нём происходит вычисление степеней сходства данного образа с каждым эталонным. Предварительно с помощью линейного растяжения (сжатия) происходит согласование длин входного и эталонного образов. Каждый эталонный образ находится как среднее арифметическое образов из обучающего множества, предварительно сформированного для соответствующего слова. Согласование длин этих образов также происходит с помощью линейного растяжения (сжатия).

На выходе системы формируется номер слова, эталонный образ которого имеет максимальную степень сходства с входным образом.

Список литературы

  1. Юрков П.Ю. и др. Распознавание фонем русского языка с помощью нейронных сетей на основе вейвлет-преобразования// Нейрокомпьютеры: разработка, применение, 2001, №7-8, с. 87-93.
  2. Киедзи Асаи, Дзюдзо Ватада, Сокуке Иваи. Распознавание речи// Прикладные нечёткие системы, Под ред. Т.Тэрано и др. – М.: Мир, 1993, с.157-170.
  3. Дьяконов В.П. Вейвлеты. От теории к практики. – М.: СОЛОН-Пресс, 2004. – 400 c.
МОЯ БИБЛИОТЕКА
ДонНТУ> Портал магистров ДонНТУ> Главная | Реферат | Библиотека | Ссылки | Отчет о поиске | Индивидуальное задание