ДонНТУ> Портал магистров ДонНТУ> Главная | Реферат | Библиотека | Ссылки | Отчет о поиске | Индивидуальное задание

Бондаренко Иван Юрьевич

Тема магистерской диссертации:

Интеграция визуального и речевого способов управления процессом ввода и редактирования текстовой информации

Руководитель: Федяев О.И., доц., к.т.н.

Email: bond005@yandex.ru


МОЯ БИБЛИОТЕКА

МЕТОД НЕЧЁТКОГО СОПОСТАВЛЕНИЯ ОБРАЗОВ ДЛЯ РАСПОЗНАВАНИЯ РУССКОЯЗЫЧНЫХ КОМАНД УПРАВЛЕНИЯ ТЕКСТОВЫМ РЕДАКТОРОМ

Бондаренко И.Ю., Федяев О.И.

Материал взят из электронного сборника трудов I международной студенческой научно-технической конференции «Информатика и компьютерные технологии 2005» ( Донецк: ДонНТУ, 2005, страницы 223 – 224 )


МЕТОД НЕЧЁТКОГО СОПОСТАВЛЕНИЯ ОБРАЗОВ ДЛЯ РАСПОЗНАВАНИЯ РУССКОЯЗЫЧНЫХ КОМАНД УПРАВЛЕНИЯ ТЕКСТОВЫМ РЕДАКТОРОМ

Речевой интерфейс, как более естественный для человека, приобретает всё большую востребованность в современных человеко-машинных системах. В основе его построения лежит задача распознавания речи, для решения которой, несмотря на множество предложенных способов, не найден приемлемый метод. Наметились основные направления, базирующиеся на вероятностном, метрическом и нейросетевом подходах. Также перспективен для решения трудноформализуемых задач, к которым относится задача распознавания речи, подход на основе нечёткой логики[1]. В работе [2] описан метод нечёткого сопоставления образов и приведена высокая оценка его эффективности в распознавании английских, немецких и японских слов. Однако, вопросы применения данного метода к распознаванию русскоязычных слов не рассмотрены.

Данная работа посвящена анализу эффективности метода нечёткого сопоставления в задаче распознавания изолированных русских слов, возникающей при интеллектуализации интерфейса текстового процессора Microsoft Word. Рациональное сочетание речевого и стандартного визуального способов управления процессом ввода и редактирования текстовой информации позволит снизить нагрузку на тактильно-зрительные каналы человека и тем самым повысить эффективность его работы.

Речевой сигнал представляется в виде двумерного спектрального временного образа (СВО), получаемого с помощью оконного преобразования Фурье (рис.1а). Такой образ отражает изменение по времени амплитуд заданных частотных составляющих речевого сигнала и хорошо выражает особенности речи, что даёт возможность его использовать для автоматического распознавания произносимых слов [2]. СВО позволяет выделить местоположение резонансных частот, т.е. локальных выбросов, что является определяющей особенностью речевого сигнала [2]. На этом основании СВО можно преобразовать к двоичному виду, не теряя указанных информативных признаков речи, с помощью следующей замены: 1 – на месте локального выброса, 0 – в других местах. Полученный образ называют двоичным спектральным временным образом (ДСВО) и используют его как отражение особенностей речевого сигнала (рис. 1б).

Пример спектрально-временного представления слова «пять»: а – СВО; б – ДСВО
Рисунок 1 - Пример спектрально-временного представления слова «пять»: а – СВО; б – ДСВО

В качестве единиц речи рассматриваются слова, набор которых определяет словарный состав речевого командного интерфейса с редактором Word.

Для распознавания изолированных слов, произносимых в реальном времени, применялся метод нечёткого сопоставления с эталоном [2]. Эталонные образы для каждого слова словаря формировались как среднее арифметическое ДСВО различных вариантов произношения данного слова и затем подвергались нормализации. В результате формируется бинарное нечёткое отношение между множеством F (номеров частот f) и множеством T (номеров временных интервалов t) в виде:

formula1

где R – нечёткое отношение, которое ставит каждой паре элементов formula2 величину функции принадлежности formula3 [1].

Обозначим число записанных слов через n, множество слов через I = {i1, i2, ...in} и множество нечётких отношений, характерных для каждого слова, через R = {r1, r2, ...rn}. Входной неизвестный образ y рассматривается как обычное (чёткое) отношение между множеством частот и множеством временных интервалов. Для него вычисляются степени сходства Sj с каждым нечётким отношением rj . Результатом распознавания является слово j, такое, что

formula4.

Степень подобия вычисляется по формуле

formula5,

где

formula6,

formula7.

В результате исследований установлено, что метод нечёткого сопоставления точно распознаёт даже сильно зашумлённые образы, если они не деформированы. Однако, при распознавании речевых образов русского языка, которые характеризуются сильной изменчивостью по структуре расположения локальных выбросов, точность составила 85%. Таким образом, возможности для улучшения данной системы распознавания заключаются в разработке такого метода предварительной обработки речевого сигнала, который более устойчив к случайным искажениям СВО.

Список литературы

[1]
Кофман А. Введение в теорию нечетких множеств. – М.: Радио и связь. – 1982. – 432 с.
[2]
Киедзи Асаи, Дзюндзо Ватада, Сокуке Иваи и др. Распознавание речи // Прикладные нечеткие системы. Под редакцией Т.Тэрано, К.Асаи, М.Сугено. – М.:«Мир», – 1993. – с.157-170.
МОЯ БИБЛИОТЕКА
ДонНТУ> Портал магистров ДонНТУ> Главная | Реферат | Библиотека | Ссылки | Отчет о поиске | Индивидуальное задание