ДонНТУ   Портал магістрів

Реферат за темою випускної роботи

Зміст

Мета

Розробити та дослідити систему автоматичного розпізнавання мови на базі інструментального середовища Sphinx для інтелектуалізації введення програм мови програмування.

Завдання

Актуальність теми роботи

Тема відноситься до актуальної проблеми інтелектуалізації людино-комп'ютерної взаємодії. Рішення поставленої наукової задачі дозволить програмістам голосом вводити текст програми на обраної мові програмування.

Передбачувана наукова новизна і практична значимість роботи

Наукова новизна роботи з даної теми полягає у визначенні ефективності комп'ютерного розпізнавання мови на основі прихованих марковських моделей, які використовуютья у інструментальному середовищі Sphinx.

Практична значущість роботи полягає в побудові системи мовного введення тексту програм за допомогою технології Sphinx, що забезпечує можливість вибору акустико-лінгвістичної моделі мови програмування.

Плановані практичні результати

1 Огляд досліджень і розробок

1.1 Методи та алгоритми розпізнавання мови

Існує 3 основних методу розпізнавання мови:

У ДонНТУ розпізнаванням мови займалися наступні магістри:

 

Основні наукові статті ДонНТУ з нейромережевого підхода до розпізнавання мови наведені в таблиці 1:

 

Таблиця 1 - Публікації на теми розпізнавання мови за допомогою нейронних мереж

             
 

Назва статті

 
   

Джерело

 
 

Прізвища співавторів

 
Речевое управление программными системами с помощью нейросетей 7-я конференции по искусственному интеллекту. КИИ-2000. т. 2. - М.: Изд-во Физико-математической литературы, 2000. – С. 464 – 471. Гладунов С.А., Федяев О.И.
Иерархическая нейросетевая структура распознавания слов на основе низкочастотных гармоник Сб. научн. Трудов «Научная сессия МИФИ –2002». В 14 томах. Т. 3. Интеллектуальные системы и технологии. – М.: МИФИ, 2002. – с. 115-116. Гладунов С.А., Федяев О.И.
Распознавание речи на основе нейросетевой аппроксимации фонем. 8-я национальная конференция по искусственному интеллекту. КИИ-2002. Труды конференции. Том 2. Коломна: Коломенская типография,  2002. – с.187-192. Гладунов С.А., Федяев О.И.
Многоуровневая нейросетевая структура распознавания речевых слов по низкочастотным гармоникам В сб. научн. трудов Донецкого национального техн. ун-та. Серия: «Информатика, кибернетика и вычислительная техника», вып. 39.-  Донецк: ДонНТУ, 2002. - с. 30-35. Гладунов С.А., Федяев О.И.
Нейросетевой метод   фонетической сегментации речевого сигнала В сб. научн. трудов Донецкого национального техн. ун-та. Серия: «Проблемы моделирования и автоматизации проектирования динамических систем», вып. 52.-  Донецк: ДонНТУ, 2002. - с. 125-130. Гладунов С.А. Федяев О.И.
Распознавание слитной речи методом нейросетевой аппроксимации сигнала Известия ТРТУ-ДонНТУ. Материалы 3-го  Международного научно-практического семинара «Практика и перспективы развития институционного партнёрства». Кн. 1.- Таганрог: Изд-во ТРТУ, 2002. – с. 140-144. Гладунов С.А. Федяев О.И.
Аппаратная реализация на ПЛИС нейросетевых вычислений при распознавании речи В сб. трудов 3-й Международной научной конференции “Нейросетевые технологии и их применение”. – Краматорськ:  ДГМА, 2004. с. 77 – 88. Гладунов С.А. Федяев О.И.
Реализация метода нечёткого сопоставления речевых образов в нейросетевом базисе В сб. трудов 4-й Международной научной конференции “Нейросетевые технологии и их применение”. – Краматорськ: ДГМА, 2006. с. 149 – 154. Бондаренко И.Ю. Федяев О.И.
Реализация нейросетевых средств распознавания фонем на ПЛИС В сб. трудов научно-практической конференции “Информационные технологии – в науку и образование”. – Харьков, ХНУРЭ, 21 – 22 марта 2005 г.. - с. 68 – 70. Гладунов С.А. Федяев О.И.
Построение нейросетевых аппроксиматоров фонем на основе технологии CUDA Искусственный интеллект. Интеллектуальные системы. Материалы XI Международной научно-технической конференции (ИИ-2010), Том 1.-Донецк: ИПИИ, «Наука і освіта». – 2010. С. 183-187. Бондаренко И.Ю. Федяев О.И.
Нейросетевой распознаватель фонем русской речи на мультипроцессорной графической плате Научно-технический журнал «Искусственный интеллект», № 3, 2010.- С.176-183. Бондаренко И.Ю., Титаренко К.Н., Федяев О.И.
Организация системы автоматического распознавания речи на основе коллектива распознающих автоматов Материалы 4-й международной научно-технической конференции "Моделирование и компьютерная графика" (МКГ-2011), Донецк, 5-8 октября 2011 г. – Донецк, ДонНТУ. - С. 309-316. Бондаренко И.Ю., Федяев О.И.
Колективне розпізнавання фонетичних елементів злитого мовлення Материалы Междунар. научно-техн. конференции «Искусственный интеллект. Интеллектуальные системы» ИИ-2011. – Том 1. – Донецк: Институт проблем искусственного интеллекта, 2011. - С.90-93. Бондаренко І.Ю., Федяев О.И.
               
 

Назва статті

 
 

Джерело

 
 

Прізвища співавторів

 
Анализ методов построения систем распознавания речи на основе нейросетевых и скрытых марковских моделей В сб. трудов 3-й Международной студенческой научно-технической конференции молодых учёных и студентов “Информатика и компьютерные технологии”. – Донецк, ДонНТУ, 11-13 декабря 2007. – с. 406-408 Веренич И.В., Федяев О.И.
Построение системы распознавания речи на основе скрытых марковских моделей В сб. трудов 4-й Международной студенческой научно-технической конференции молодых учёных и студентов “Информатика и компьютерные технологии”. – Донецк, ДонНТУ, 25-27 ноября 2008. – с. 347-348 Веренич И.В., Федяев О.И.

По іншим методам, в т.ч. по динамічному програмуванню:


Таблиця 3 - Публікації на теми розпізнавання мови за допомогою інших методів

   
 

Назва статті

 
   

Джерело

 
 

Прізвища співавторів

Распознавание речевых слов методом доски объявлений В сб. научн. трудов факультета вычислительной техники и информатики  ДонГТУ,  вып. 1, - Донецк, 1996 Буркова О.В., Федяев О.И.
Анализ эффективности метода нечёткого сопоставления образов для распознавания изолированных слов Сб.научн.тр. 6 межд. научн. конф. «Интеллектуальный анализ инфорации» (ИАИ-2006), Киев, 16-19 мая 2006 г.-К.:Просвiта, 2006. с.20-27. Бондаренко И.Ю., Федяев О.И.
Нечёткое сопоставление образов с оптимальным  временным выравниванием для однодикторного  и многодикторного распознавания изолированных слов Научн. тр. Донецкого национального технического университета, серия „Информатика, кибернетика и вычислительная техника” (ИКВТ-2007), выпуск 8(120) – Донецк: ДонНТУ, 2007. – с.273-281. Бондаренко И.Ю. Федяев О.И.
Реализация метода нечёткого сопоставления речевых образов в нейросетевом базисе В сб. трудов 4-й Международной научной конференции “Нейросетевые технологии и их применение”. – Краматорськ: ДГМА, 2006. с. 149 – 154. Бондаренко И.Ю. Федяев О.И.
Метод нечёткого сопоставления образов для распознавания русскоязычных команд управления текстовым редактором В сб. трудов Международной студенческой научно-практической конференции “Информатика и компьютерные технологии”. – Донецк, ДонНТУ, 15 декабря 2005. – с.223-224. Бондаренко И.Ю. Федяев О.И.
Нечёткое сопоставление образов на основе вейвлет–преставления речевых сигналов Сб. материалов 5-й международной   научно-технической конференции   студентов, аспирантов и молодых учёных «Информатика и компьютерные технологи» (ИКТ-2009). – 24-26 ноября 2009 г., Донецк, ДонНТУ, Т 2 .– С. 119-120. Нестеренко Д.С. Бондаренко И.Ю. Федяев О.И.

1.2 Системи введення текстової інформації за допомогою автоматичного розпізнавання мови

 

Найкраща на сьогоднішній день система введення тексту голосом - Dragon NaturallySpeaking Preferred фірми Dragon Systems [1]. Це єдина програма, що наблизилася до того, щоб відповідати заявленим характеристикам. У цілому точність розпізнавання досягає 99%.

 

Компанія М.С. Технолоджі розробила програму «Мікросервіс» для управління функціями операційних систем Windows 98/Me/2000/XP і введення тексту в будь-який редактор. Програма підтримує російську і англійську мови і містить словник порядку 10000 слів. Компанія 1С придбала права на це ПЗ і випускає його під назвою «Диктограф». Однак, за даними тестувань, він показав незадовільні результати - 30-50% правильно розпізнаних слів і команд.

 

Найкраща з програм розпізнавання мови для голосового управління і диктування, орієнтованих на російську мову на даний момент є Sakrament ASR Engine від білоруської компанії «Сакрамент» [2]. Вона може конкурувати за якістю розпізнавання із зарубіжними аналогами. Її точність розпізнавання досягає 95-98 відсотків у дикторозалежному режимі. Але Sakrament має обмежений словник і, на жаль, користувач не має можливості розширити його своїми силами без допомоги розробників «Сакраменту».

 

Якщо говорити про вітчизняні системи розпізнавання мови, то лідером в області мовних технологій в Україні є відділ розпізнавання звукових образів Міжнародного науково-навчального центру інформаційних технологій і систем [3]. З кінця 1960х років по 2012 рік у відділі під керівництвом Вінцюка Т.К. ведуться роботи з розпізнавання мови.

   

1.3 Інструментальні засоби побудови систем розпізнавання мови

 

HTK [4] - інструментарій для побудови прихованих марковських моделей (СММ). СMM може використовуватися для моделювання будь-якого тимчасового ряду, і ядро HTK є також універсальним. Разом з тим, HTK в першу чергу призначений для побудови заснованих на СMM інструментальних засобів обробки мови, зокрема, систем розпізнавання мови. Таким чином, більша частина підтримки інфраструктури в HTK присвячена цьому завданню. Можна виділити дві основних пов'язаних стадії обробки. По-перше, навчальні інструментальні кошти HTK застосовуються для оцінки параметрів безлічі СMM, з використанням навчальних зразків проголошення та відповідних їм транскрипцій. По-друге, невідомі зразки виголошення транскрибируются за допомогою засобів розпізнавання HTK.

 

Sphinx-4 [5] - найвідоміший і працездатний відкритий движок розпізнавання мови на сьогоднішній день. Його розробка в основному ведеться в університеті Карнегі-Меллона. движок Sphinx поширюється на умовах ліцензії BSD і доступний як для комерційного, так і для некомерційного використання, що послужило незаперечним плюсом у виборі засобів для розробки. Ця система надає розробникам зручний інструментарій для дослідження прихованих марковських моделей, а після певного доопрацювання може використовуватися як система автоматичного розпізнавання мовних команд управління комп'ютерними пристроями. Перевагами Sphinx по порівняно з аналогічною інструментальної системою HTK є:

   

Julius - система японського походження. За якістю розпізнавання Julius не поступається Sphinx, однак вона володіє двома недоліками:

     

2 Архітертура системи Sphinx

 

В якості інструментального середовища для розробки системи розпізнавання мови, заснованої на прихованих марковських моделях, використовувалася система Sphinx4. Ця система надає розробнику розвинену бібліотеку класів, що реалізують окремі блоки типової системи розпізнавання мови. Розглянемо процес автоматичного розпізнавання мови в системі Sphinx. Функціональна схема системи розпізнавання мови на базі системи Sphinx зображена на малюнку 1. Користувач вимовляє слова в мікрофон, а звукова карта перетворює звук в цифровий сигнал. Сигнал не обробляється системою в такому вигляді, вона перетворює його в послідовність векторів характеристик. У них виділяються відрізки, на яких присутні слова. Кожне слово розбивається на фонеми і їм у відповідність зіставляються найбільш ймовірні стани прихованої марковської моделі. Так добираються текстові представлення кожному мовленнєвому образу [6].

Малюнок 1 - Функціональна схема системи розпізнавання мови на базі системи Sphinx (swf-анімація, 52,0 кб)

 

Структура Sphinx-4 була розроблена з високим ступенем гнучкості і модульності. Кожен модуль системи може бути легко замінений, що дозволяє дослідникам експериментувати з різними реалізаціями модуля без необхідності зміни інших частин системи [7]. Система Sphinx-4, як і більшість систем розпізнавання мови, має велику кількість параметрів, що настроюються, такі як розмір променя пошуку, для поліпшення продуктивності системи. Для налаштування таких параметрів у Sphinx-4 використовується модуль управління конфігурацією. На відміну від інших систем, управління конфігурацією в Sphinx-4 дозволяє динамічно завантажувати і налаштовувати модулі під час виконання, що робить систему гнучкою і легко підключною. Для відстеження статистики розпізнавання, такої як word error rate, швидкість виконання, і використання пам'яті, Sphinx-4 надає ряд інструментів. Як і в решті частини системи, інструменти є відкритими до налаштовання, що дозволяє користувачам виконувати широкий спектр системного аналізу. Крім того, інструменти також забезпечують інтерактивну середу виконання, що дозволяє користувачам змінювати параметри системи під час її роботи, роблячи доступним швидке експериментування з різними параметрами налаштування.

   

3 Попередні результати оцінки якості акустичної моделі на прикладі лексем мови Паскаль

 

Перші дослідження було присвячено оцінці якості моделі. Було проведено декілька експериментів. Для цього було створено 5 словників різного обсягу: на 20, 40, 60, 80 і 100 слів. Вони містили англійські слова - лексеми мови програмування Паскаль. Використовувалися дві акустичні моделі: дикторонезалежної Voxforge [8] і дикторозалежної, розробленою автором. Дикторозалежна модель налаштовувалася на одного диктора. Кожне слово з 100 було вимовлено 5 разів. В експериментах розпізнавалися ізольовані слова без граматики. Аудіобаза для тестування була однаковою для всіх словників. Вона містила всі слова словника з 20 слів (по 4 повтору в різному порядку). Графік залежності якості розпізнавання від обсягу словника зображений на малюнку 2.

   

Малюнок 2 - Графік залежності якості розпізнавання від обсягу словника

 

Модель, навчена на певного диктора, має кращу якість розпізнавання, ніж дикторонезалежна. Це пояснюється не тільки тим, що система краще розпізнає диктора, на якого навчалася, а й тим, що база Voxforge навчалася на американських дикторах, а записи для тестування записувались російськомовним диктором.

   

Висновки

 

Огляд досліджень і розробок показав, що тема розпізнавання мови вельми актуальна. Відсутність аналогів в розпізнаванні текстів програм підтверджує наукову новизну роботи.

 

Аналіз роботи першої версії системи CoderMinion, розробленої на базі Sphinx, показує, що якість розпізнавання ізольованих слів не задовольняє практичним вимогам. Тому подальші дослідження будуть спрямовані на поліпшення навчання на СММ. Безумовно, використання граматичних зв'язків між ізольованими лексемами також вплине на якість розпізнавання.

 

Перелік посилань

  1. Dragon Speech Recognition Software. - Режим доступа: http://nuance.com/dragon/index.htm
  2. Синтез и распознавание речи. - Режим доступа: http://www.sakrament.com/
  3. Сайт з розпізнавання та синтезу мовлення в Україні. – Режим доступа: http://speech.com.ua
  4. What is HTK? [Electronic resourse] / Интернет-ресурс. - Режим доступа: http://htk.eng.cam.ac.uk/
  5. CMU Sphinx Open Source Toolkit For Speech Recognition Evaluation [Electronic resourse] / Интернет-ресурс. - Режим доступа: http://cmusphinx.sourceforge.net/
  6. Савкова Д.Г., Бондаренко И.Ю. Опыт применения инструментальной системы Sphinx для решения задачи распознавания речевых команд управления компьютерными системами // Сборник материалом 3-й Всеукраинской научно-практической конференции «Информационные управляющие системы и компьютерный мониторинг» ИУС КМ-2012. – Донецк: ДонНТУ. – 2012. – с. 111-117.
  7. Sphinx-4: A Flexible Open Source Framework for Speech Recognition [Electronic resourse] / Интернет-ресурс. - Режим доступа: http://cmusphinx.sourceforge.net/sphinx4/doc/Sphinx4Whitepaper.pdf
  8. Welcome – Russian Evaluation [Electronic resourse] / Интернет-ресурс. - Режим доступа: http://www.voxforge.org/ru