ДонНТУ   Портал магистров

Реферат по теме выпускной работы

Содержание

Цель

Разработать и исследовать систему автоматического распознавания речи на базе инструментальной среды Sphinx для интеллектуализации ввода программ языка программирования.

Задачи

Актуальность темы работы

Тема относится к актуальной проблеме интеллектуализации человеко-компьютерного взаимодействия. Решение поставленной научной задачи позволит программистам голосом вводить текст программы на выбранном языке программирования.

Предполагаемая научная новизна и практическая значимость работы

Научная новизна работы по данной теме заключается в определении эффективности компьютерного распознавания речи на основе скрытых марковских моделей, используемых в инструментальной среде Sphinx.

Практическая значимость работы состоит в построении системы речевого ввода текста программ с помощью технологии Sphinx, обеспечивающей возможность выбора акустико-лингвистической модели языка программирования.

Планируемые практические результаты

1 Обзор исследований и разработок

1.1 Методы и алгоритмы распознавания речи

Существует 3 основных метода распознавания речи:

В ДонНТУ распознаванием речи занимались следующие магистры:


Основные научные статьи ДонНТУ по нейросетевому подходу к распознаванию речи приведены в таблице 1:


 

Таблица 1 - Публикации на темы распознавания речи с помощью нейронных сетей

Название статьи

Источник

Фамилии соавторов

Речевое управление программными системами с помощью нейросетей 7-я конференции по искусственному интеллекту. КИИ-2000. т. 2. - М.: Изд-во Физико-математической литературы, 2000. – С. 464 – 471. Гладунов С.А., Федяев О.И.
Иерархическая нейросетевая структура распознавания слов на основе низкочастотных гармоник Сб. научн. Трудов «Научная сессия МИФИ –2002». В 14 томах. Т. 3. Интеллектуальные системы и технологии. – М.: МИФИ, 2002. – с. 115-116. Гладунов С.А., Федяев О.И.
Распознавание речи на основе нейросетевой аппроксимации фонем. 8-я национальная конференция по искусственному интеллекту. КИИ-2002. Труды конференции. Том 2. Коломна: Коломенская типография,  2002. – с.187-192. Гладунов С.А., Федяев О.И.
Многоуровневая нейросетевая структура распознавания речевых слов по низкочастотным гармоникам В сб. научн. трудов Донецкого национального техн. ун-та. Серия: «Информатика, кибернетика и вычислительная техника», вып. 39.-  Донецк: ДонНТУ, 2002. - с. 30-35. Гладунов С.А., Федяев О.И.
Нейросетевой метод   фонетической сегментации речевого сигнала В сб. научн. трудов Донецкого национального техн. ун-та. Серия: «Проблемы моделирования и автоматизации проектирования динамических систем», вып. 52.-  Донецк: ДонНТУ, 2002. - с. 125-130. Гладунов С.А. Федяев О.И.
Распознавание слитной речи методом нейросетевой аппроксимации сигнала Известия ТРТУ-ДонНТУ. Материалы 3-го  Международного научно-практического семинара «Практика и перспективы развития институционного партнёрства». Кн. 1.- Таганрог: Изд-во ТРТУ, 2002. – с. 140-144. Гладунов С.А. Федяев О.И.
Аппаратная реализация на ПЛИС нейросетевых вычислений при распознавании речи В сб. трудов 3-й Международной научной конференции “Нейросетевые технологии и их применение”. – Краматорськ:  ДГМА, 2004. с. 77 – 88. Гладунов С.А. Федяев О.И.
Реализация метода нечёткого сопоставления речевых образов в нейросетевом базисе В сб. трудов 4-й Международной научной конференции “Нейросетевые технологии и их применение”. – Краматорськ: ДГМА, 2006. с. 149 – 154. Бондаренко И.Ю. Федяев О.И.
Реализация нейросетевых средств распознавания фонем на ПЛИС В сб. трудов научно-практической конференции “Информационные технологии – в науку и образование”. – Харьков, ХНУРЭ, 21 – 22 марта 2005 г.. - с. 68 – 70. Гладунов С.А. Федяев О.И.
Построение нейросетевых аппроксиматоров фонем на основе технологии CUDA Искусственный интеллект. Интеллектуальные системы. Материалы XI Международной научно-технической конференции (ИИ-2010), Том 1.-Донецк: ИПИИ, «Наука і освіта». – 2010. С. 183-187. Бондаренко И.Ю. Федяев О.И.
Нейросетевой распознаватель фонем русской речи на мультипроцессорной графической плате Научно-технический журнал «Искусственный интеллект», № 3, 2010.- С.176-183. Бондаренко И.Ю., Титаренко К.Н., Федяев О.И.
Организация системы автоматического распознавания речи на основе коллектива распознающих автоматов Материалы 4-й международной научно-технической конференции "Моделирование и компьютерная графика" (МКГ-2011), Донецк, 5-8 октября 2011 г. – Донецк, ДонНТУ. - С. 309-316. Бондаренко И.Ю., Федяев О.И.
Колективне розпізнавання фонетичних елементів злитого мовлення Материалы Междунар. научно-техн. конференции «Искусственный интеллект. Интеллектуальные системы» ИИ-2011. – Том 1. – Донецк: Институт проблем искусственного интеллекта, 2011. - С.90-93. Бондаренко І.Ю., Федяев О.И.

Название статьи

Источник

Фамилии соавторов

Анализ методов построения систем распознавания речи на основе нейросетевых и скрытых марковских моделей В сб. трудов 3-й Международной студенческой научно-технической конференции молодых учёных и студентов “Информатика и компьютерные технологии”. – Донецк, ДонНТУ, 11-13 декабря 2007. – с. 406-408 Веренич И.В., Федяев О.И.
Построение системы распознавания речи на основе скрытых марковских моделей В сб. трудов 4-й Международной студенческой научно-технической конференции молодых учёных и студентов “Информатика и компьютерные технологии”. – Донецк, ДонНТУ, 25-27 ноября 2008. – с. 347-348 Веренич И.В., Федяев О.И.

По остальным методам, в т.ч. по динамическому программированию:


Таблица 3 - Публикации на темы распознавания речи с помощью других методов

Название статьи

Источник

Фамилии соавторов

Распознавание речевых слов методом доски объявлений В сб. научн. трудов факультета вычислительной техники и информатики  ДонГТУ,  вып. 1, - Донецк, 1996 Буркова О.В., Федяев О.И.
Анализ эффективности метода нечёткого сопоставления образов для распознавания изолированных слов Сб.научн.тр. 6 межд. научн. конф. «Интеллектуальный анализ инфорации» (ИАИ-2006), Киев, 16-19 мая 2006 г.-К.:Просвiта, 2006. с.20-27. Бондаренко И.Ю., Федяев О.И.
Нечёткое сопоставление образов с оптимальным  временным выравниванием для однодикторного  и многодикторного распознавания изолированных слов Научн. тр. Донецкого национального технического университета, серия „Информатика, кибернетика и вычислительная техника” (ИКВТ-2007), выпуск 8(120) – Донецк: ДонНТУ, 2007. – с.273-281. Бондаренко И.Ю. Федяев О.И.
Реализация метода нечёткого сопоставления речевых образов в нейросетевом базисе В сб. трудов 4-й Международной научной конференции “Нейросетевые технологии и их применение”. – Краматорськ: ДГМА, 2006. с. 149 – 154. Бондаренко И.Ю. Федяев О.И.
Метод нечёткого сопоставления образов для распознавания русскоязычных команд управления текстовым редактором В сб. трудов Международной студенческой научно-практической конференции “Информатика и компьютерные технологии”. – Донецк, ДонНТУ, 15 декабря 2005. – с.223-224. Бондаренко И.Ю. Федяев О.И.
Нечёткое сопоставление образов на основе вейвлет–преставления речевых сигналов Сб. материалов 5-й международной   научно-технической конференции   студентов, аспирантов и молодых учёных «Информатика и компьютерные технологи» (ИКТ-2009). – 24-26 ноября 2009 г., Донецк, ДонНТУ, Т 2 .– С. 119-120. Нестеренко Д.С. Бондаренко И.Ю. Федяев О.И.

1.2 Системы ввода текстовой информации посредством автоматического распознавания речи

Самая лучшая на сегодняшний день система ввода текста голосом - Dragon NaturallySpeaking Preferred фирмы Dragon Systems[1]. Это единственная программа, приблизившаяся к тому, чтобы соответствовать заявленным характеристикам. В целом точность распознавания достигает 99%.

Компания М.С. Технолоджи разработала программу «Микросервис» для управления функциями операционных систем Windows 98/Me/2000/XP и ввода текста в любой редактор. Программа поддерживает русский и английский языки и содержит словарь порядка 10000 слов. Компания 1С приобрела права на это ПО и выпускает его под названием «Диктограф». Однако, по данным тестирований, он показал неудовлетворительные результаты – 30-50% правильно распознанных слов и команд.

Самая лучшая из программ распознавания речи для голосового управления и диктовки, ориентированных на русский язык на данный момент является Sakrament ASR Engine от белорусской компании «Сакрамент»[2]. Она может конкурировать по качеству распознавания с зарубежными аналогами. Её точность распознавания достигает 95-98 процентов в дикторозависимом режиме. Но Sakrament обладает ограниченным словарем и, к сожалению, пользователь не имеет возможности расширить его своими силами без помощи разработчиков «Сакрамента».

Если говорить об отечественных системах распознавания речи, то лидером в области речевых технологий в Украине является отдел распознавания звуковых образов Международного научно-учебного центра информационных технологий и систем[3]. С конца 1960х годов по 2012 год в отделе под руководством Винцюка Т.К. ведутся работы по распознаванию речи.

1.3 Инструментальные средства построения систем распознавания речи

HTK[4] - инструментарий для построения скрытых марковских моделей (СММ). СMM может использоваться для моделирования любого временного ряда, и ядро HTK является также универсальным. Вместе с тем, HTK в первую очередь предназначен для построения основанных на СMM инструментальных средств обработки речи, в частности, систем распознавания речи. Таким образом, большая часть поддержки инфраструктуры в HTK посвящена этой задаче. Можно выделить две основных связанных стадии обработки. Во-первых, обучающие инструментальные средства HTK применяются для оценки параметров множества СMM, с использованием обучающих образцов произнесения и соответствующих им транскрипций. Во-вторых, неизвестные образцы произнесения транскрибируются при помощи средств распознавания HTK.

Sphinx-4[5] — самый известный и работоспособный открытый движок распознавания речи на сегодняшний день. Его разработка в основном ведется в университете Карнеги-Меллона. Движок Sphinx распространяется на условиях лицензии BSD и доступен как для коммерческого, так и для некоммерческого использования, что послужило неоспоримым плюсом в выборе средств для разработки. Эта система предоставляет разработчикам удобный инструментарий для исследования скрытых марковских моделей, а после определённой доработки может использоваться как система автоматического распознавания речевых команд управления компьютерными устройствами. Преимуществами Sphinx по сравнению с аналогичной инструментальной системой HTK являются:

Julius - система японского происхождения. По качеству распознавания Julius не уступает Sphinx, однако он обладает двумя недостатками:

2 Архитертура системы Sphinx

В качестве инструментальной среды для разработки системы распознавания речи, основанной на скрытых марковских моделях, использовалась система Sphinx4. Эта система предоставляет разработчику развитую библиотеку классов, реализующих отдельные блоки типовой системы распознавания речи. Рассмотрим процесс автоматического распознавания речи в системе Sphinx. Функциональная схема системы показана на рисунке 1. Пользователь произносит слова в микрофон, а звуковая карта преобразовывает звук в цифровой сигнал. Сигнал не обрабатывается системой в таком виде, она преобразует его в последовательность векторов характеристик. В них выделяются отрезки, на которых присутствуют слова. Каждое слово разбивается на фонемы и им в соответствие сопоставляются наиболее вероятные состояния скрытой марковской модели. Так находятся текстовые представления каждому речевому образу.[6]

Рисунок 1 - Функциональная схема системы распознавания речи на базе системы Sphinx (swf-анимация, 52,0 кб)

Структура Sphinx-4 была разработана с высокой степенью гибкости и модульности. Каждый модуль системы может быть легко заменен, что позволяет исследователям экспериментировать с различными реализациями модуля без необходимости изменения других частей системы[7]. Система Sphinx-4, как и большинство систем распознавания речи, имеет большое количество настраиваемых параметров, такие как размер луча поиска, для улучшения производительности системы. Для настройки таких параметров в Sphinx-4 используется модуль управления конфигурацией. В отличие от других систем, управление конфигурацией в Sphinx-4 позволяет динамически загружать и настраивать модули во время выполнения, что делает систему гибкой и легко подключаемой. Для отслеживания статистики распознавания, такой как word error rate, скорость выполнения, и использование памяти, Sphinx-4 предоставляет ряд инструментов. Как и в остальной части системы, инструменты являются настраиваемыми, что позволяет пользователям выполнять широкий спектр системного анализа. Кроме того, инструменты также обеспечивают интерактивную среду выполнения, что позволяет пользователям изменять параметры системы во время ее работы, делая доступным быстрое экспериментирование с различными параметрами настройки.

3 Предварительные результаты оценки качества акустической модели на примере лексем языка Паскаль

Первые исследования были посвящены оценке качества модели. Был проведен ряд экспериментов. Для этого было создано 5 словарей разного объема: на 20, 40, 60, 80 и 100 слов. Они содержали английские слова - лексемы языка программирования Паскаль. Использовались две акустческие модели: дикторонезависимая Voxforge[8] и дикторозависимая, разработанная автором. Дикторозависимая модель настраивалась на одного диктора. Каждое слово из 100 было произнесено 5 раз. В экспериментах распознавались изолированные слова без грамматики. Аудиобаза для тестирования была одинаковой для всех словарей. Она содержала все слова словаря из 20 слов (по 4 повтора в разном порядке). График зависимости качества распознавания от объема словаря показан на рисунке 2.

Рисунок 2 - График зависимости качества распознавания от объема словаря

Модель, обученная на определенного диктора, имеет лучшее качество распознавания, чем дикторонезависимая. Это объясняется не только тем, что система лучше распознает диктора, на которого обучалась, но и тем, что база Voxforge обучалась на американских дикторах, а записи для тестирования записывались русскоговорящим диктором.

Выводы

Обзор исследований и разработок показал, что тема распознавания речи весьма актуальна. Отсутствие аналогов в распознавании текстов программ подтверждает научную новизну работы.

Анализ работы первой версии системы CoderMinion, разработанной на базе Sphinx, показывает, что качество распознавания изолированных слов не удовлетворяет практическим требованиям. Поэтому дальнейшие исследования будут направлены на улучшение обучения на СММ. Безусловно, использование грамматических связей между изолированными лексемами также повлияет на качество распознавания.

Список источников

  1. Dragon Speech Recognition Software. - Режим доступа: http://nuance.com/dragon/index.htm
  2. Синтез и распознавание речи. - Режим доступа: http://www.sakrament.com/
  3. Сайт з розпізнавання та синтезу мовлення в Україні. – Режим доступа: http://speech.com.ua
  4. What is HTK? [Electronic resourse] / Интернет-ресурс. - Режим доступа: http://htk.eng.cam.ac.uk/
  5. CMU Sphinx Open Source Toolkit For Speech Recognition Evaluation [Electronic resourse] / Интернет-ресурс. - Режим доступа: http://cmusphinx.sourceforge.net/
  6. Савкова Д.Г., Бондаренко И.Ю. Опыт применения инструментальной системы Sphinx для решения задачи распознавания речевых команд управления компьютерными системами // Сборник материалом 3-й Всеукраинской научно-практической конференции «Информационные управляющие системы и компьютерный мониторинг» ИУС КМ-2012. – Донецк: ДонНТУ. – 2012. – с. 111-117.
  7. Sphinx-4: A Flexible Open Source Framework for Speech Recognition [Electronic resourse] / Интернет-ресурс. - Режим доступа: http://cmusphinx.sourceforge.net/sphinx4/doc/Sphinx4Whitepaper.pdf
  8. Welcome – Russian Evaluation [Electronic resourse] / Интернет-ресурс. - Режим доступа: http://www.voxforge.org/ru