Реферат по теме выпускной работы
Содержание
- Цель
- Задачи
- Актуальность темы работы
- Предполагаемая научная новизна
- Планируемые практические результаты
- 1 Обзор исследований и разработок
- 1.1 Обзор международных разработок
- 1.2 Обзор национальных разработок
- 1.3 Обзор локальных разработок
- 2 Архитектура системы CMU Sphinx
- 3 Предварительные результаты исследований
- Выводы
- Список источников
Цель
Исследование инструментальной среды CMU Sphinx и разработка системы интеллектуализации ввода-вывода кода программы на ее основе.
Задачи
- Обзор существующих методов распознавания речи.
- Обзор существующих систем распознавания речи.
- Формулировка задач по интеллектуализации ввода-вывода кода программ.
- Выбор инструментальных средств для реализации автоматического распознавания речи.
- Разработка архитектуры речевого интерфейса для ввода-вывода кода программы.
- Исследование процессов автоматического распозавания речи в CMU Sphinx.
- Разработка акустико-лингвистических моделей языка.
- Исследование эффективности разработанных моделей голосового взаимодействия при вводе-выводе текста программы.
- Разработка Java приложения.
Актуальность темы работы
В настоящее время набор текстов программ на языках программирования осуществляется вручную с помощью клавиатуры, что требует хороших навыков работы с клавиатурой, большого внимания и напряжения на зрение. Такой способ ввода для человека является трудоемким и не совсем удобным [14]. Устранение этого недостатка возможно путём успешного решения задачи автоматического распознавания речи. Таким образом, становится актуальным интеллектуализация ввода и вывода исходного кода программы, которая может облегчить жизнь как опытных программистов, так и новичков.
Предполагаемая научная новизна и практическая значимость работы
Научная новизна работы состоит в повышении эффективности компьютерного распознавания речи с помощью инструментальной среды CMU Sphinx, что в свою очередь позволит разработать речевой интерфейс для ввода кода программы.
Практическая значимость работы состоит в создании системы речевого ввода-вывода кода программы с помощью CMU Sphinx.
Планируемые практические результаты
- Освоение технологии разработки систем распознавания речи на основе инструментария CMU Sphinx.
- Построение системы голосового ввода-вывода текста программ на языке программирования Pascal.
- Оценка качества распознавания речи системы CMU Sphinx.
1 Обзор исследований и разработок
Существует 3 основных метода распознавания речи:
- скрытые марковские модели;
- динамическое программирование;
- нейронные сети.
Эти методы постоянно переплетаются и в некоторых программных продуктах используюется сразу несколько методов.
1.1 Обзор международных источников
Согласно лингвистическим особенностям человеческой речи, дополнительные артикуляционные данные позволяют более точно выявить речь диктора и автоматически разбить звуковую волну на отдельные фрагменты [13]. В задаче распознавания речи ключевое место занимает создание базы данных, которая будет учитывать все необходимые слова и их произношение.
Ниже будут рассмотрены различные системы распознавания речи с открытым и закрытым исходным кодом.
Sphinx — это дикторонезависимый распознаватель непрерывной речи, который использует Скрытую Марковскую модель и n-граммную статистическую языковую модель. Sphinx имеет возможности распознавания продолжительной речи, дикторонезависимый огромный словарь распознавания [5]. Sphinx4 полный и переписанный речевой движок Sphinx, главная цель которого обеспечить гибкий каркас для исследования в распознавании речи. Sphinx4 написан полностью на языке программирования Java [2]. Sun Microsystems внесла большой вклад в развитие Sphinx4 и помощь в программной экспертизе проекта, что и обуславливает язык программирования на котором написана система.
Текущие цели развития включают в себя:
- Развитие новых акустических моделей для тренировки.
- Реализация системы речевой адаптации.
- Улучшения менеджмента конфигурации.
- Реализация ConfDesigner — графической системы дизайна.
PocketSphinx — эта версия Sphinx может быть встроена в любые другие системы на базе ARM процессора. PocketSphinx активно развивается и встраивается в различные системы с арифметикой фиксированной запятой и в эффективные модели на базе смешанной модели вычислений.
Julius — это высокопроизводительный распознаватель непрерывной речи с большим словарем (large vocabulary continuous speech recognition), декодер программного обеспечения для исследования в области связанной речи и разработки. Он отлично подходит для декодирования в режиме реального времени на большинстве существующих компьютеров, со словарем 60 тысяч слов, используя контекстно независимую Скрытую марковскую модель. Главная особенность проекта заключается в полной встраиваемости. Это также безопасная модуляция может быть независима от модельных структур и различных типов Скрытых Марковских моделей, которая поддерживает общее состояние трифонов и связанной смеси-моделей со множеством микстур, фонем и утверждений [11].
RWTH ASR — это инструментарий распознавания речи с открытым исходным кодом. Инструментарий включает в себя технологию умения распознавать речь для создания автоматических систем распознавания речи. Данная технология развивается Технологическим центром Естественного языка и Образцовой распознавательной группой в Рейнско-Вестфальском техническом университете Ахена. RWTH ASR включает в себя инструментарий для разработки акустических моделей и декодеры, а также компоненты для адаптации речи спикера, адаптивные системы обучения речи спикера, неконтролируемые системы обучения, дифференциальные системы обучения и решетчатые словообразные формы обработки [10].
Simon — система распознавания речи, основанная на речевых движках Julius и HTK. Система Simon спроектирована таким образом, что она довольно удобна для работы с различными языками и разного рода диалектами. При этом реакция распознавания речи полностью настраиваемая и она не подходит для исключительного распознавания единичных голосовых запросов и не может быть сконфигурирована под нужды пользователей. Чтобы легко использовать систему необходимо выполнить определенные сценарии. Пакеты Simon сконфигурированы для специальных задач. Среди возможных сценариев Simon, например Firefox (запуск и управление браузером Firefox).
iATROS — это новое исполнение системы распознавания речи предыдущего поколения ATROS, которая подходит для распознавания как речи, так и для рукописного варианта текста. iATROS основан на модулярной структуре и может использоваться как для построения дифференцированных моделей, чья цель осуществить Ветибри поиск на основе скрытой Марковской модели. iATROS обеспечивает стандартный инструментарий для распознавания речи как в режиме офлайн, так и онлайн. iATROS состоит из 2-х модулей предварительной обработки (для речевого сигнала и изображений написанных от руки) и модуля ядра распознавания. Предварительная обработка данных и черты извлечения модулей обеспечиваются векторами распознавания модулей, которые используют Скрытые Марковские модели и языковые модели, которые исполняются поиском предположений из лучших систем распознавания речи. Все эти модули выполнены на языке программирования C.
Google speech API — продукт компании Google, который позволяет вводить голосовой поиск с помощью технологии распознавания речи. Технология интегрирована в мобильные телефоны и компьютеры, где можно ввести информацию с помощью голоса. С 14 июня 2011 года Google объявила об интеграции речевого движка в Google Search и с тех пор он работает в стабильном режиме с этого времени. Эта технология на персональных компьютерах поддерживается только браузером Google Chrome. Есть также функция голосового управления для введения речевых команд на телефонах с ОС Android. Для работы с базой данных системы распознавания речи достаточно зарегистрировать учетную запись в Google Developers и потом можно работать с системой в рамках правового поля [8].
Комплекс речевых технологий Яндекса включает в себя распознавание и синтез речи, голосовую активацию и выделение смысловых объектов в произносимом тексте. Большим плюсом является мультиплатформенная библиотека для доступа к речевым технологиям Яндекса в мобильных приложениях и облачный сервис, который открывает любым программам и устройствам доступ к речевым технологиям Яндекса. Однако минусом является тяжелая для восприятия документация и ограничение по количеству запросов: 10 000 в сутки. Хотя по уверению разработчиков — этот инструментарий является номером 1 для русского языка и, что исследовательская группа компании, которая работала одна в Швейцарии, другая в Москве смогла сделать технологический прорыв в этой области [9]. Однако с таким решением достаточно тяжело выходить на международный рынок, так как многое в области распознавания речи с точки зрения патентования принадлежит известной Nuance и Яндекс значительно позже других фирм взялся за распознавание речи.
1.2 Обзор национальных разработок
О существовании солидных украинских фирм, которые занимаются созданием программных продуктов на основе распознавания или синтеза речи без помощи Международного научно-учебного центра информационных технологий и систем неизвестно. Видимо, потому что их просто нет. Существуют или научные учреждения, занимающиеся исследованиями в области распознавания и синтеза, или одинокие разработчики [1].
О лидере в Украине по распознаванию и синтезу речи можно прочитать ниже. Ведь кроме лидера есть и другие люди, которые интересуются проблематикой распознавания и синтеза.
В Донецке в отделе распознавания речевых образов Государственного института искусственного интеллекта ведутся работы по распознаванию речи.
Есть еще человек, который самостоятельно занимается распознаванием и синтезом. Это — харьковчанин Анатолий Черный с его Проектом альтернативного интеллекта. Одна из его разработок — синтезатор
Розмовлялька
.
Влад Савченко на основе голосового движка Digalo Russian и SAPI разработал программу Болтун.
Во Львове Ярослав Козак создал систему озвучивания украинских текстов UkrVox на платформе SAPI.
Есть синтезаторы русского и украинского языка
Vikno
(авторы: Г.В. Юсим и В.Бы. Кон), которые позволяют озвучивать произвольные тексты, написанные на русском или украинском языке, с возможными англоязычными или немецкоязычными включениями.
Недавно появилась программа для озвучивания украинских текстов Декламатор. В ней предусмотрено три вида использования: чтение электронных книг специального формата, проведения диктанта, выбранного из сборника диктантов или отдельного текста, редактирование текстов с прослушиванием. Автор применяет собственный синтезатор речи.
В Луганской области Сергей Баранников создал синтезатор украинского и русского языков Голос. Программа настраивается с тембром, частотой, скоростью и имеет возможность создания собственного голоса.
Отдел распознавания звуковых образов Международного научно-учебного центра информационных технологий и систем — ведущий лидер в области речевых технологий в Украине. С конца 1960х годов в отделе (тогда при Институте Кибернетики) под руководством Винцюка Т.К. ведутся работы по распознаванию речи [1].
Сейчас отдел занимается следующими направлениями в распознавании речи:
- распознавание в портативных устройствах;
- дикторонезависимое распознавание;
- распознавание сверхбольших словарей;
- распознавание ключевых слов;
- распознавание через телефонные каналы связи.
Отдел является ведущим лидером в области синтеза речи в Украине. Созданный разработчиками синтезатор украинской речи используется при озвучивании СМС-ок в проекте SMS2Voice компании Global Message Services. Отдел отличается отличными знаниями современных алгоритмов распознавания и синтеза речи плюс наличие самых больших речевых баз данных в Украине.
В помощь небольшим коллективам исследователей на сайте выкладывается часть украинского многодикторного речевого корпуса UkReco. Эта часть корпуса содержит записи изолированных слов.
1.3 Обзор локальных разработок
В ДонНТУ под руководством доцента кафедры прикладной информатики и математики О.И. Федяева, распознаванием речи занимались следующие магистры:
- Бондаренко Иван Юрьевич (Интеграция визуального и речевого способов управления процессом ввода и редактирования текстовой информации);
- Веренич Иван Владимирович (Анализ методов построения систем распознавания речи на основе гибрида скрытой марковской модели и нейросети);
- Нестеренко Дмитрий Сергеевич (Автоматическое распознавание изолированных слов русского языка на основе вейвлет-анализа);
- Савкова Дарья Григорьевна (Речевой интерфейс для интеллектуализации ввода текста программ на языках программирования).
Основные научные статьи ДонНТУ по распознаванию речи приведены в таблице 1:
Таблица 1 — Публикации на темы связанные с распознаванием речи
Название статьи |
Источник |
Фамилии соавторов |
Анализ эффективности метода нечёткого сопоставления образов для распознавания изолированных слов |
Сб.научн.тр. 6 межд. научн. конф.
Интеллектуальный анализ инфорации(ИАИ–2006), Киев, 16–19 мая 2006 г..:Просвiта, 2006. — с. 20–27. |
Бондаренко И. Ю., Федяев О. И. |
Нечёткое сопоставление образов с оптимальным временным выравниванием для однодикторного и многодикторного распознавания изолированных слов |
Научн. тр. Донецкого национального технического университета, серия
Информатика, кибернетика и вычислительная техника(ИКВТ–2007), выпуск 8(120) — Донецк: ДонНТУ, 2007. — с. 273–281. |
Бондаренко И. Ю., Федяев О. И. |
Реализация метода нечёткого сопоставления речевых образов в нейросетевом базисе |
В сб. трудов 4–й Международной научной конференции
Нейросетевые технологии и их применение. — Краматорськ: ДГМА, 2006. — с. 149–154. |
Бондаренко И. Ю., Федяев О. И. |
Метод нечёткого сопоставления образов для распознавания русскоязычных команд управления текстовым редактором |
В сб. трудов Международной студенческой научно–практической конференции
Информатика и компьютерные технологии. — Донецк, ДонНТУ, 15 декабря 2005. — с. 223–224. |
Бондаренко И. Ю., Федяев О. И. |
Построение нейросетевых аппроксиматоров фонем на основе технологии CUDA |
Искусственный интеллект. Интеллектуальные системы. Материалы XI Международной научно–технической конференции (ИИ–2010), Том 1.–Донецк: ИПИИ,
Наука і освіта. — 2010. — с. 183–187. |
Бондаренко И. Ю., Федяев О. И. |
Организация системы автоматического распознавания речи на основе коллектива распознающих автоматов |
Материалы 4–й международной научно–технической конференции
Моделирование и компьютерная графика(МКГ–2011), Донецк, 5–8 октября 2011 г. — Донецк, ДонНТУ. — с. 309–316. |
Бондаренко И. Ю., Федяев О. И. |
Колективне розпізнавання фонетичних елементів злитого мовлення |
Материалы Междунар. научно–техн. конференции
Искусственный интеллект. Интеллектуальные системыИИ–2011. — Том 1. — Донецк: Институт проблем искусственного интеллекта, 2011. — с. 90–93. |
Бондаренко И. Ю., Федяев О. И. |
Нейросетевой распознаватель фонем русской речи на мультипроцессорной графической плате |
Научно–технический журнал
Искусственный интеллект, № 3, 2010. — с. 176–183. |
Бондаренко И. Ю., Федяев О. И., Титаренко К. Н. |
Построение системы распознавания речи на основе скрытых марковских моделей |
В сб. трудов 4–й Международной студенческой научно-технической конференции молодых учёных и студентов
Информатика и компьютерные технологии. — Донецк, ДонНТУ, 25–27 ноября 2008. — с. 347–348 |
Веренич И. В., Федяев О. И. |
Анализ методов построения систем распознавания речи на основе нейросетевых и скрытых марковских моделей |
В сб. трудов 3–й Международной студенческой научно-технической конференции молодых учёных и студентов
Информатика и компьютерные технологии. — Донецк, ДонНТУ, 11–13 декабря 2007. — с. 406–408 |
Веренич И. В., Федяев О. И. |
Нечёткое сопоставление образов на основе вейвлет— реставления речевых сигналов |
Сб. материалов 5–й международной научно–технической конференции студентов, аспирантов и молодых учёных
Информатика и компьютерные технологи(ИКТ–2009). — 24–26 ноября 2009 г. Донецк, ДонНТУ, Т.2. — с. 119–120. |
Нестеренко Д. С., Бондаренко И. Ю., Федяев О. И. |
Опыт применения инструментальной системы Sphinx для решения задачи распознавания речевых команд управления компьютерными системами | Информационные управляющие системы и компьютерный мониторинг — 2012 (ИУС и КМ — 2012) / Материалы III Всеукраинской научно–техническая конференция студентов, аспирантов и молодых ученых — 16–18 апреля 2012 — Донецк, ДонНТУ — 2012. — с. 111–117. | Савкова Д. Г., Бондаренко И. Ю. |
Исследование системы Sphinx4 для решения задач однодикторного и дикторонезависимого распознавания речевых команд |
Исследование системы Sphinx4 для решения задач однодикторного и дикторонезависимого распознавания речевых команд / Бондаренко И. Ю., Савкова Д. Г. // Наукові праці ДонНТУ. — Донецк, 2012. — (Серия
Інформатика, кібернетика та обчислювальна техніка). — № 16 (204). — с. 116–128. |
Савкова Д. Г., Бондаренко И. Ю. |
Акустико-лингвистическая модель распознавания речи | Информационные управляющие системы и компьютерный мониторинг — 2013 (ИУС и КМ — 2013) / Материалы IV Всеукраинской научно–технической конференции студентов, аспирантов и молодых ученых — 23–25 апреля 2013 — Донецк, ДонНТУ — 2013, — В 2 тт. — Т.1. — с. 442–445. | Савкова Д. Г., Федяев О. И. |
Реализация нейросетевых средств распознавания фонем на ПЛИС |
В сб. трудов научно–практической конференции
Информационные технологии — в науку и образование. — Харьков, ХНУРЭ, 21–22 марта 2005 г. — с. 68–70. |
Гладунов С. А., Федяев О. И. |
Речевое управление программными системами с помощью нейросетей | 7-–я конференции по искусственному интеллекту. КИИ–2000. т. 2. — М.: Изд–во Физико–математической литературы, 2000. — с. 464–471. | Гладунов С. А., Федяев О. И. |
Иерархическая нейросетевая структура распознавания слов на основе низкочастотных гармоник |
Сб. научн. Трудов
Научная сессия МИФИ — 002. В 14 томах. Т. 3. Интеллектуальные системы и технологии. — М.: МИФИ, 2002. — с. 115–116. |
Гладунов С. А., Федяев О. И. |
Распознавание речи на основе нейросетевой аппроксимации фонем. | 8–я национальная конференция по искусственному интеллекту. КИИ–2002. Труды конференции. Том 2. Коломна: Коломенская типография, 2002. — с. 187–192. | Гладунов С. А., Федяев О. И. |
Многоуровневая нейросетевая структура распознавания речевых слов по низкочастотным гармоникам |
В сб. научн. трудов Донецкого национального техн. ун–та. Серия:
Информатика, кибернетика и вычислительная техника, вып. 39.— Донецк: ДонНТУ, 2002. — с. 30–35. |
Гладунов С. А., Федяев О. И. |
Нейросетевой метод фонетической сегментации речевого сигнала |
В сб. научн. трудов Донецкого национального техн. ун–та. Серия:
Проблемы моделирования и автоматизации проектирования динамических систем, вып. 52.— Донецк: ДонНТУ, 2002. — с. 125–130. |
Гладунов С. А., Федяев О. И. |
Распознавание слитной речи методом нейросетевой аппроксимации сигнала |
Известия ТРТУ-ДонНТУ. Материалы 3–го Международного научно–практического семинара
Практика и перспективы развития институционного партнёрства. Кн. 1.— Таганрог: Изд–во ТРТУ, 2002. — с. 140–144. |
Гладунов С. А., Федяев О. И. |
Аппаратная реализация на ПЛИС нейросетевых вычислений при распознавании речи |
В сб. трудов 3–й Международной научной конференции
Нейросетевые технологии и их применение. — Краматорськ: ДГМА, 2004. — с. 77–88. |
Гладунов С. А., Федяев О. И. |
2 Архитектура системы CMU Sphinx
В качестве инструментальной среды для разработки системы интеллектуализации ввода-вывода кода программы на основе речевых технологий, использовалась система Sphinx4.
CMU Sphinx — комлекс, который включает в себя несколько видов систем. Из существующих сегодня самыми популярными являются Sphinx 4 и PocketSphinx. Каждая система Sphinx состоит из двух компонентов [3]:
тренера
(trainer) и декодера. Тренер необходим для создания акустической модели, адаптированной под конкретные потребности, а декодер выполняет собственно распознавание. Следует подчеркнуть, что trainer Sphinx выполняет построение акустической модели, а не адаптацию под конкретные речевые особенности. Тренер Sphinx предназначен для разработчиков, которые хорошо понимают, как устроено распознавание речи; с рядовым же пользователем система должна взаимодействовать без подготовки [12]. Возможность работы в таком режиме очень полезна при создании общедоступных сервисов, например, автоматизированных телефонных служб и т.д.
Следует отметить, что на текущий момент разработчиками предпринимаются попытки по руссификации открытых средств распознавания речи. CMU Sphinx постоянно изменяется и на данный момент, на официальном сайте идет голосование о том, какую языковую модель следует добавить, пока что лидирует немецкая и русская. Есть уверенность, что разработчики возьмутся за русскую языковую модель, что бы качество распознавания русской речи было таким же, как и у английской.
Sphinx 4 использует API Java Speech, хотя и не реализует стандартного интерфейса распознавателя речи этой системы. Для демонстрации возможностей системы разработчики предлагают небольшие словари, предназначенные для применения в специальных областях (например, распознавание числительных). Надо отметить, что входящие в состав Sphinx 4 демонстрационные программы справляются с распознаванием числительных гораздо увереннее, нежели прошлые версии Sphinx. В принципе, Sphinx 4 уже можно использовать на практике для распознавания, например, голосовых команд — при условии, что их общее число будет невелико.
Архитектура верхнего уровня для Sphinx4 относительно проста. Как показано на рис.1, архитектура состоит из клиентской части, декодера, базы знаний и приложения [4].
Блок Front End отвечает за сбор, аннотирование и обработку входных данных. Кроме того, он извлекает объекты из входных данных для чтения с помощью декодера.
База знаний содержит информацию необходимую для декодера. Эта информация включает в себя акустическую модель и модель языка. База знаний также может получить ответ от декодера, что позволяет базе знаний динамически изменяться себя на основе результатов поиска. Эти модификации могут включать в себя переключение акустических моделей и/или языка модели, а также обновлять параметры, такие как среднее и дисперсия преобразования для акустических моделей.
Декодер выполняет большую часть работы. Он считывает данные с Front End, сопоставляет их с данными из базы знаний и откликом приложения и выполняет поиск наиболее вероятных последовательностей слов, которые могли бы быть представлены рядом особенностей.
В отличии от множества архитектур распознавания речи, Sphinx4 позволяет приложению контролировать множество функций речевого движка. Во время декодирования, приложение может получать данные от декодера, в то время, когда он осуществляет поиск. Эти данные позволяют приложению отслеживать, как происходит процесс декодирования и также позволяет приложению влиять на процесс декодирования до его завершения. Кроме того, приложение может обновлять базу знаний в любое время. На рисунке 2 показана схема системы распознавания речи на базе CMU Sphinx.
Структура Sphinx-4 отличается гибкостью и модульностью. Каждый модуль системы может быть заменен, что позволяет разработчикам проводить эксперименты с разными реализациями модуля без необходимости изменения других частей системы. Система Sphinx-4 имеет большое количество настраиваемых параметров, каждый из которых может быть использован для улучшения производительности системы. Для настройки этих параметров можно использовать API либо же XML-файл с параметрами. Система конфигурирования Sphinx-4 позволяет динамически загружать и настраивать модули во время выполнения, что делает систему гибкой и легко настраиваемой. Для отслеживания качества распознавания и сбора статистики Sphinx предоставляет ряд инструментов. Как и вся система, инструменты сбора статистики являются настраиваемыми, что позволяет разработчикам проводить качественный анализ [6].
3 Предварительные результаты исследований
Первые исследования были посвящены оценке качества модели. Был проведен ряд экспериментов. Для этого были созданы словари на 10, 20 и 168 слов. Они содержали английские слова — лексемы языка программирования Паскаль. Использовалась дикторонезависимая акустическая модель. В экспериментах распознавались как изолированные слова без грамматики, так и словосочетания. Предварительные результаты по опыту работу с применением CMU Sphinx для своей задачи показан на рисунке 2.
После нескольких опытов с различными словарями были сделаны выводы, что система начинает значительно терять в качестве при увеличении объема словаря. Наибольшая точность при использовании простых словарей была у наименьшего с 10 словами. Повысить качество распознавания речи можно специально сконструировав словарь и триграммную модель для него. Такой подход позволяет выделять устойчивые конструкции вместо разрозненных слов. Для повышения точности требуется подстройка под окружение, в котором будет производиться работа, т.е. настройки в конфигурационном файле для оборудования и микрофона. Дальнейшая работа по улучшению уровня распознавания ведется.
Выводы
Обзор статей и текущих разработок показал, что тема распознавания речи актуальна сегодня, как никогда. Отсутствие, в открытом доступе, похожих систем интеллектуального ввода кода программы с помощью речи подтверждает научную новизну работы и востребованность.
Анализ результатов работы построенной системы показывает, что нужна доработка как словарей, так и акустической модели. Для улучшения результата распознавания требуется подстройка под оборудование диктора. Дальнейшая работа будет вестись по этим направлениям.
Список источников
- Сайт з розпізнавання та синтезу мовлення в Україні [Электронный ресурс]. — Режим доступа: http://speech.com.ua.
- CMU Sphinx Open Source Toolkit For Speech Recognition Evaluation [Электронный ресурс]. — Режим доступа: http://cmusphinx.sourceforge.net/.
- Sphinx-4: A Flexible Open Source Framework for Speech Recognition [Электронный ресурс]. — Режим доступа: http://twiki.di.uniroma1.it/pub/NLP/WebHome/Sphinx4Whitepaper.pdf.
-
Федяев О. И., Савкова Д. Г., Бакаленко В. С. Речевой интерфейс для интеллектуализации ввода исходного кода программ // 15 международная научная конференция им. Т. А. Таран
Интеллектуальный анализ информации (ИАИ–2015)
, Киев, 20–21 мая 2015 г. — К.: Просвіта, 2015. — c. 21–28. - Рабинер Л. Р. Скрытые марковские модели и их применение в избранных приложениях при распознавании речи// ТИИЭР. — 1984. — Т.72, № 2. — с. 86–120.
-
Савкова Д. Г., Бондаренко И. Ю. Опыт применения инструментальной системы Sphinx для решения задачи распознавания речевых команд управления компьютерными системами // Сборник материалом 3–й Всеукраинской научно–практической конференции
Информационные управляющие системы и компьютерный мониторинг
ИУС КМ–2012. — Донецк: ДонНТУ. — 2012. — с. 111–117. - Welcome — Russian Evaluation [Электронный ресурс]. — Режим доступа: http://www.voxforge.org/ru.
- Использование Google Speech API для управления компьютером [Электронный ресурс]. — Режим доступа: http://habrahabr.ru/post/144535/.
- Речевые технологии SpeechKit [Электронный ресурс]. — Режим доступа: https://tech.yandex.ru/speechkit/.
- RWTH ASR — The RWTH Aachen University Speech Recognition System [Электронный ресурс]. — Режим доступа: http://www-i6.informatik.rwth-aachen.de/rwth-asr/.
- Open-Source Large Vocabulary CSR Engine Julius [Электронный ресурс]. — Режим доступа: http://julius.osdn.jp/en_index.php.
- Example of the Baum–Welch Algorithm [Электронный ресурс]. — Режим доступа: http://www.indiana.edu/~iulg/moss/hmmcalculations.pdf.
- Винцюк Т. К. Анализ, распознавание и интерпретация речевых сигналов. — К.: Наукова думка, 1987. — с. 264.
- Чистович Л. А., Венцов А. В., Ганстрем М. П. и др. Физиология речи. Восприятие речи человеком. — Л.: Наука, 1976.