Українська   English
ДонНТУ  Портал магистров

Реферат по теме выпускной работы

Содержание

Цель

Исследование инструментальной среды CMU Sphinx и разработка системы интеллектуализации ввода-вывода кода программы на ее основе.

Задачи

  1. Обзор существующих методов распознавания речи.
  2. Обзор существующих систем распознавания речи.
  3. Формулировка задач по интеллектуализации ввода-вывода кода программ.
  4. Выбор инструментальных средств для реализации автоматического распознавания речи.
  5. Разработка архитектуры речевого интерфейса для ввода-вывода кода программы.
  6. Исследование процессов автоматического распозавания речи в CMU Sphinx.
  7. Разработка акустико-лингвистических моделей языка.
  8. Исследование эффективности разработанных моделей голосового взаимодействия при вводе-выводе текста программы.
  9. Разработка Java приложения.

Актуальность темы работы

В настоящее время набор текстов программ на языках программирования осуществляется вручную с помощью клавиатуры, что требует хороших навыков работы с клавиатурой, большого внимания и напряжения на зрение. Такой способ ввода для человека является трудоемким и не совсем удобным [14]. Устранение этого недостатка возможно путём успешного решения задачи автоматического распознавания речи. Таким образом, становится актуальным интеллектуализация ввода и вывода исходного кода программы, которая может облегчить жизнь как опытных программистов, так и новичков.

Предполагаемая научная новизна и практическая значимость работы

Научная новизна работы состоит в повышении эффективности компьютерного распознавания речи с помощью инструментальной среды CMU Sphinx, что в свою очередь позволит разработать речевой интерфейс для ввода кода программы.

Практическая значимость работы состоит в создании системы речевого ввода-вывода кода программы с помощью CMU Sphinx.

Планируемые практические результаты

1 Обзор исследований и разработок

Существует 3 основных метода распознавания речи:

Эти методы постоянно переплетаются и в некоторых программных продуктах используюется сразу несколько методов.

1.1 Обзор международных источников

Согласно лингвистическим особенностям человеческой речи, дополнительные артикуляционные данные позволяют более точно выявить речь диктора и автоматически разбить звуковую волну на отдельные фрагменты [13]. В задаче распознавания речи ключевое место занимает создание базы данных, которая будет учитывать все необходимые слова и их произношение.

Ниже будут рассмотрены различные системы распознавания речи с открытым и закрытым исходным кодом.

Sphinx — это дикторонезависимый распознаватель непрерывной речи, который использует Скрытую Марковскую модель и n-граммную статистическую языковую модель. Sphinx имеет возможности распознавания продолжительной речи, дикторонезависимый огромный словарь распознавания [5]. Sphinx4 полный и переписанный речевой движок Sphinx, главная цель которого обеспечить гибкий каркас для исследования в распознавании речи. Sphinx4 написан полностью на языке программирования Java [2]. Sun Microsystems внесла большой вклад в развитие Sphinx4 и помощь в программной экспертизе проекта, что и обуславливает язык программирования на котором написана система.

Текущие цели развития включают в себя:

PocketSphinx — эта версия Sphinx может быть встроена в любые другие системы на базе ARM процессора. PocketSphinx активно развивается и встраивается в различные системы с арифметикой фиксированной запятой и в эффективные модели на базе смешанной модели вычислений.

Julius — это высокопроизводительный распознаватель непрерывной речи с большим словарем (large vocabulary continuous speech recognition), декодер программного обеспечения для исследования в области связанной речи и разработки. Он отлично подходит для декодирования в режиме реального времени на большинстве существующих компьютеров, со словарем 60 тысяч слов, используя контекстно независимую Скрытую марковскую модель. Главная особенность проекта заключается в полной встраиваемости. Это также безопасная модуляция может быть независима от модельных структур и различных типов Скрытых Марковских моделей, которая поддерживает общее состояние трифонов и связанной смеси-моделей со множеством микстур, фонем и утверждений [11].

RWTH ASR — это инструментарий распознавания речи с открытым исходным кодом. Инструментарий включает в себя технологию умения распознавать речь для создания автоматических систем распознавания речи. Данная технология развивается Технологическим центром Естественного языка и Образцовой распознавательной группой в Рейнско-Вестфальском техническом университете Ахена. RWTH ASR включает в себя инструментарий для разработки акустических моделей и декодеры, а также компоненты для адаптации речи спикера, адаптивные системы обучения речи спикера, неконтролируемые системы обучения, дифференциальные системы обучения и решетчатые словообразные формы обработки [10].

Simon — система распознавания речи, основанная на речевых движках Julius и HTK. Система Simon спроектирована таким образом, что она довольно удобна для работы с различными языками и разного рода диалектами. При этом реакция распознавания речи полностью настраиваемая и она не подходит для исключительного распознавания единичных голосовых запросов и не может быть сконфигурирована под нужды пользователей. Чтобы легко использовать систему необходимо выполнить определенные сценарии. Пакеты Simon сконфигурированы для специальных задач. Среди возможных сценариев Simon, например Firefox (запуск и управление браузером Firefox).

iATROS — это новое исполнение системы распознавания речи предыдущего поколения ATROS, которая подходит для распознавания как речи, так и для рукописного варианта текста. iATROS основан на модулярной структуре и может использоваться как для построения дифференцированных моделей, чья цель осуществить Ветибри поиск на основе скрытой Марковской модели. iATROS обеспечивает стандартный инструментарий для распознавания речи как в режиме офлайн, так и онлайн. iATROS состоит из 2-х модулей предварительной обработки (для речевого сигнала и изображений написанных от руки) и модуля ядра распознавания. Предварительная обработка данных и черты извлечения модулей обеспечиваются векторами распознавания модулей, которые используют Скрытые Марковские модели и языковые модели, которые исполняются поиском предположений из лучших систем распознавания речи. Все эти модули выполнены на языке программирования C.

Google speech API — продукт компании Google, который позволяет вводить голосовой поиск с помощью технологии распознавания речи. Технология интегрирована в мобильные телефоны и компьютеры, где можно ввести информацию с помощью голоса. С 14 июня 2011 года Google объявила об интеграции речевого движка в Google Search и с тех пор он работает в стабильном режиме с этого времени. Эта технология на персональных компьютерах поддерживается только браузером Google Chrome. Есть также функция голосового управления для введения речевых команд на телефонах с ОС Android. Для работы с базой данных системы распознавания речи достаточно зарегистрировать учетную запись в Google Developers и потом можно работать с системой в рамках правового поля [8].

Комплекс речевых технологий Яндекса включает в себя распознавание и синтез речи, голосовую активацию и выделение смысловых объектов в произносимом тексте. Большим плюсом является мультиплатформенная библиотека для доступа к речевым технологиям Яндекса в мобильных приложениях и облачный сервис, который открывает любым программам и устройствам доступ к речевым технологиям Яндекса. Однако минусом является тяжелая для восприятия документация и ограничение по количеству запросов: 10 000 в сутки. Хотя по уверению разработчиков — этот инструментарий является номером 1 для русского языка и, что исследовательская группа компании, которая работала одна в Швейцарии, другая в Москве смогла сделать технологический прорыв в этой области [9]. Однако с таким решением достаточно тяжело выходить на международный рынок, так как многое в области распознавания речи с точки зрения патентования принадлежит известной Nuance и Яндекс значительно позже других фирм взялся за распознавание речи.

1.2 Обзор национальных разработок

О существовании солидных украинских фирм, которые занимаются созданием программных продуктов на основе распознавания или синтеза речи без помощи Международного научно-учебного центра информационных технологий и систем неизвестно. Видимо, потому что их просто нет. Существуют или научные учреждения, занимающиеся исследованиями в области распознавания и синтеза, или одинокие разработчики [1].

О лидере в Украине по распознаванию и синтезу речи можно прочитать ниже. Ведь кроме лидера есть и другие люди, которые интересуются проблематикой распознавания и синтеза.

В Донецке в отделе распознавания речевых образов Государственного института искусственного интеллекта ведутся работы по распознаванию речи.

Есть еще человек, который самостоятельно занимается распознаванием и синтезом. Это — харьковчанин Анатолий Черный с его Проектом альтернативного интеллекта. Одна из его разработок — синтезатор Розмовлялька.

Влад Савченко на основе голосового движка Digalo Russian и SAPI разработал программу Болтун.

Во Львове Ярослав Козак создал систему озвучивания украинских текстов UkrVox на платформе SAPI.

Есть синтезаторы русского и украинского языка Vikno (авторы: Г.В. Юсим и В.Бы. Кон), которые позволяют озвучивать произвольные тексты, написанные на русском или украинском языке, с возможными англоязычными или немецкоязычными включениями.

Недавно появилась программа для озвучивания украинских текстов Декламатор. В ней предусмотрено три вида использования: чтение электронных книг специального формата, проведения диктанта, выбранного из сборника диктантов или отдельного текста, редактирование текстов с прослушиванием. Автор применяет собственный синтезатор речи.

В Луганской области Сергей Баранников создал синтезатор украинского и русского языков Голос. Программа настраивается с тембром, частотой, скоростью и имеет возможность создания собственного голоса.

Отдел распознавания звуковых образов Международного научно-учебного центра информационных технологий и систем — ведущий лидер в области речевых технологий в Украине. С конца 1960х годов в отделе (тогда при Институте Кибернетики) под руководством Винцюка Т.К. ведутся работы по распознаванию речи [1].

Сейчас отдел занимается следующими направлениями в распознавании речи:

Отдел является ведущим лидером в области синтеза речи в Украине. Созданный разработчиками синтезатор украинской речи используется при озвучивании СМС-ок в проекте SMS2Voice компании Global Message Services. Отдел отличается отличными знаниями современных алгоритмов распознавания и синтеза речи плюс наличие самых больших речевых баз данных в Украине.

В помощь небольшим коллективам исследователей на сайте выкладывается часть украинского многодикторного речевого корпуса UkReco. Эта часть корпуса содержит записи изолированных слов.

1.3 Обзор локальных разработок

В ДонНТУ под руководством доцента кафедры прикладной информатики и математики О.И. Федяева, распознаванием речи занимались следующие магистры:


Основные научные статьи ДонНТУ по распознаванию речи приведены в таблице 1:


Таблица 1 — Публикации на темы связанные с распознаванием речи

Название статьи

Источник

Фамилии соавторов

Анализ эффективности метода нечёткого сопоставления образов для распознавания изолированных слов Сб.научн.тр. 6 межд. научн. конф. Интеллектуальный анализ инфорации (ИАИ–2006), Киев, 16–19 мая 2006 г..:Просвiта, 2006. — с. 20–27. Бондаренко И. Ю., Федяев О. И.
Нечёткое сопоставление образов с оптимальным временным выравниванием для однодикторного и многодикторного распознавания изолированных слов Научн. тр. Донецкого национального технического университета, серия Информатика, кибернетика и вычислительная техника (ИКВТ–2007), выпуск 8(120) — Донецк: ДонНТУ, 2007. — с. 273–281. Бондаренко И. Ю., Федяев О. И.
Реализация метода нечёткого сопоставления речевых образов в нейросетевом базисе В сб. трудов 4–й Международной научной конференции Нейросетевые технологии и их применение. — Краматорськ: ДГМА, 2006. — с. 149–154. Бондаренко И. Ю., Федяев О. И.
Метод нечёткого сопоставления образов для распознавания русскоязычных команд управления текстовым редактором В сб. трудов Международной студенческой научно–практической конференции Информатика и компьютерные технологии. — Донецк, ДонНТУ, 15 декабря 2005. — с. 223–224. Бондаренко И. Ю., Федяев О. И.
Построение нейросетевых аппроксиматоров фонем на основе технологии CUDA Искусственный интеллект. Интеллектуальные системы. Материалы XI Международной научно–технической конференции (ИИ–2010), Том 1.–Донецк: ИПИИ, Наука і освіта. — 2010. — с. 183–187. Бондаренко И. Ю., Федяев О. И.
Организация системы автоматического распознавания речи на основе коллектива распознающих автоматов Материалы 4–й международной научно–технической конференции Моделирование и компьютерная графика (МКГ–2011), Донецк, 5–8 октября 2011 г. — Донецк, ДонНТУ. — с. 309–316. Бондаренко И. Ю., Федяев О. И.
Колективне розпізнавання фонетичних елементів злитого мовлення Материалы Междунар. научно–техн. конференции Искусственный интеллект. Интеллектуальные системы ИИ–2011. — Том 1. — Донецк: Институт проблем искусственного интеллекта, 2011. — с. 90–93. Бондаренко И. Ю., Федяев О. И.
Нейросетевой распознаватель фонем русской речи на мультипроцессорной графической плате Научно–технический журнал Искусственный интеллект, № 3, 2010. — с. 176–183. Бондаренко И. Ю., Федяев О. И., Титаренко К. Н.
Построение системы распознавания речи на основе скрытых марковских моделей В сб. трудов 4–й Международной студенческой научно-технической конференции молодых учёных и студентов Информатика и компьютерные технологии. — Донецк, ДонНТУ, 25–27 ноября 2008. — с. 347–348 Веренич И. В., Федяев О. И.
Анализ методов построения систем распознавания речи на основе нейросетевых и скрытых марковских моделей В сб. трудов 3–й Международной студенческой научно-технической конференции молодых учёных и студентов Информатика и компьютерные технологии. — Донецк, ДонНТУ, 11–13 декабря 2007. — с. 406–408 Веренич И. В., Федяев О. И.
Нечёткое сопоставление образов на основе вейвлет— реставления речевых сигналов Сб. материалов 5–й международной научно–технической конференции студентов, аспирантов и молодых учёных Информатика и компьютерные технологи (ИКТ–2009). — 24–26 ноября 2009 г. Донецк, ДонНТУ, Т.2. — с. 119–120. Нестеренко Д. С., Бондаренко И. Ю., Федяев О. И.
Опыт применения инструментальной системы Sphinx для решения задачи распознавания речевых команд управления компьютерными системами Информационные управляющие системы и компьютерный мониторинг — 2012 (ИУС и КМ — 2012) / Материалы III Всеукраинской научно–техническая конференция студентов, аспирантов и молодых ученых — 16–18 апреля 2012 — Донецк, ДонНТУ — 2012. — с. 111–117. Савкова Д. Г., Бондаренко И. Ю.
Исследование системы Sphinx4 для решения задач однодикторного и дикторонезависимого распознавания речевых команд Исследование системы Sphinx4 для решения задач однодикторного и дикторонезависимого распознавания речевых команд / Бондаренко И. Ю., Савкова Д. Г. // Наукові праці ДонНТУ. — Донецк, 2012. — (Серия Інформатика, кібернетика та обчислювальна техніка). — № 16 (204). — с. 116–128. Савкова Д. Г., Бондаренко И. Ю.
Акустико-лингвистическая модель распознавания речи Информационные управляющие системы и компьютерный мониторинг — 2013 (ИУС и КМ — 2013) / Материалы IV Всеукраинской научно–технической конференции студентов, аспирантов и молодых ученых — 23–25 апреля 2013 — Донецк, ДонНТУ — 2013, — В 2 тт. — Т.1. — с. 442–445. Савкова Д. Г., Федяев О. И.
Реализация нейросетевых средств распознавания фонем на ПЛИС В сб. трудов научно–практической конференции Информационные технологии — в науку и образование. — Харьков, ХНУРЭ, 21–22 марта 2005 г. — с. 68–70. Гладунов С. А., Федяев О. И.
Речевое управление программными системами с помощью нейросетей 7-–я конференции по искусственному интеллекту. КИИ–2000. т. 2. — М.: Изд–во Физико–математической литературы, 2000. — с. 464–471. Гладунов С. А., Федяев О. И.
Иерархическая нейросетевая структура распознавания слов на основе низкочастотных гармоник Сб. научн. Трудов Научная сессия МИФИ — 002. В 14 томах. Т. 3. Интеллектуальные системы и технологии. — М.: МИФИ, 2002. — с. 115–116. Гладунов С. А., Федяев О. И.
Распознавание речи на основе нейросетевой аппроксимации фонем. 8–я национальная конференция по искусственному интеллекту. КИИ–2002. Труды конференции. Том 2. Коломна: Коломенская типография, 2002. — с. 187–192. Гладунов С. А., Федяев О. И.
Многоуровневая нейросетевая структура распознавания речевых слов по низкочастотным гармоникам В сб. научн. трудов Донецкого национального техн. ун–та. Серия: Информатика, кибернетика и вычислительная техника, вып. 39.— Донецк: ДонНТУ, 2002. — с. 30–35. Гладунов С. А., Федяев О. И.
Нейросетевой метод фонетической сегментации речевого сигнала В сб. научн. трудов Донецкого национального техн. ун–та. Серия: Проблемы моделирования и автоматизации проектирования динамических систем, вып. 52.— Донецк: ДонНТУ, 2002. — с. 125–130. Гладунов С. А., Федяев О. И.
Распознавание слитной речи методом нейросетевой аппроксимации сигнала Известия ТРТУ-ДонНТУ. Материалы 3–го Международного научно–практического семинара Практика и перспективы развития институционного партнёрства. Кн. 1.— Таганрог: Изд–во ТРТУ, 2002. — с. 140–144. Гладунов С. А., Федяев О. И.
Аппаратная реализация на ПЛИС нейросетевых вычислений при распознавании речи В сб. трудов 3–й Международной научной конференции Нейросетевые технологии и их применение. — Краматорськ: ДГМА, 2004. — с. 77–88. Гладунов С. А., Федяев О. И.

2 Архитектура системы CMU Sphinx

В качестве инструментальной среды для разработки системы интеллектуализации ввода-вывода кода программы на основе речевых технологий, использовалась система Sphinx4.

CMU Sphinx — комлекс, который включает в себя несколько видов систем. Из существующих сегодня самыми популярными являются Sphinx 4 и PocketSphinx. Каждая система Sphinx состоит из двух компонентов [3]: тренера (trainer) и декодера. Тренер необходим для создания акустической модели, адаптированной под конкретные потребности, а декодер выполняет собственно распознавание. Следует подчеркнуть, что trainer Sphinx выполняет построение акустической модели, а не адаптацию под конкретные речевые особенности. Тренер Sphinx предназначен для разработчиков, которые хорошо понимают, как устроено распознавание речи; с рядовым же пользователем система должна взаимодействовать без подготовки [12]. Возможность работы в таком режиме очень полезна при создании общедоступных сервисов, например, автоматизированных телефонных служб и т.д.

Следует отметить, что на текущий момент разработчиками предпринимаются попытки по руссификации открытых средств распознавания речи. CMU Sphinx постоянно изменяется и на данный момент, на официальном сайте идет голосование о том, какую языковую модель следует добавить, пока что лидирует немецкая и русская. Есть уверенность, что разработчики возьмутся за русскую языковую модель, что бы качество распознавания русской речи было таким же, как и у английской.

Sphinx 4 использует API Java Speech, хотя и не реализует стандартного интерфейса распознавателя речи этой системы. Для демонстрации возможностей системы разработчики предлагают небольшие словари, предназначенные для применения в специальных областях (например, распознавание числительных). Надо отметить, что входящие в состав Sphinx 4 демонстрационные программы справляются с распознаванием числительных гораздо увереннее, нежели прошлые версии Sphinx. В принципе, Sphinx 4 уже можно использовать на практике для распознавания, например, голосовых команд — при условии, что их общее число будет невелико.

Архитектура верхнего уровня для Sphinx4 относительно проста. Как показано на рис.1, архитектура состоит из клиентской части, декодера, базы знаний и приложения [4].

Архитектура верхнего уровня CMU Sphinx

Рисунок 1 — Архитектура верхнего уровня CMU Sphinx

Блок Front End отвечает за сбор, аннотирование и обработку входных данных. Кроме того, он извлекает объекты из входных данных для чтения с помощью декодера.

База знаний содержит информацию необходимую для декодера. Эта информация включает в себя акустическую модель и модель языка. База знаний также может получить ответ от декодера, что позволяет базе знаний динамически изменяться себя на основе результатов поиска. Эти модификации могут включать в себя переключение акустических моделей и/или языка модели, а также обновлять параметры, такие как среднее и дисперсия преобразования для акустических моделей.

Декодер выполняет большую часть работы. Он считывает данные с Front End, сопоставляет их с данными из базы знаний и откликом приложения и выполняет поиск наиболее вероятных последовательностей слов, которые могли бы быть представлены рядом особенностей.

В отличии от множества архитектур распознавания речи, Sphinx4 позволяет приложению контролировать множество функций речевого движка. Во время декодирования, приложение может получать данные от декодера, в то время, когда он осуществляет поиск. Эти данные позволяют приложению отслеживать, как происходит процесс декодирования и также позволяет приложению влиять на процесс декодирования до его завершения. Кроме того, приложение может обновлять базу знаний в любое время. На рисунке 2 показана схема системы распознавания речи на базе CMU Sphinx.

Схема системы распознавания речи на основе CMU Sphinx

Рисунок 2 — Схема системы распознавания речи на основе CMU Sphinx
(анимация: 6 кадров, 6 циклов повторения, 38.2 килобайт)

Структура Sphinx-4 отличается гибкостью и модульностью. Каждый модуль системы может быть заменен, что позволяет разработчикам проводить эксперименты с разными реализациями модуля без необходимости изменения других частей системы. Система Sphinx-4 имеет большое количество настраиваемых параметров, каждый из которых может быть использован для улучшения производительности системы. Для настройки этих параметров можно использовать API либо же XML-файл с параметрами. Система конфигурирования Sphinx-4 позволяет динамически загружать и настраивать модули во время выполнения, что делает систему гибкой и легко настраиваемой. Для отслеживания качества распознавания и сбора статистики Sphinx предоставляет ряд инструментов. Как и вся система, инструменты сбора статистики являются настраиваемыми, что позволяет разработчикам проводить качественный анализ [6].

3 Предварительные результаты исследований

Первые исследования были посвящены оценке качества модели. Был проведен ряд экспериментов. Для этого были созданы словари на 10, 20 и 168 слов. Они содержали английские слова — лексемы языка программирования Паскаль. Использовалась дикторонезависимая акустическая модель. В экспериментах распознавались как изолированные слова без грамматики, так и словосочетания. Предварительные результаты по опыту работу с применением CMU Sphinx для своей задачи показан на рисунке 2.

Окно программы на основе Sphinx с результатами ввода

Рисунок 3 — Окно программы на основе Sphinx с результатами ввода

После нескольких опытов с различными словарями были сделаны выводы, что система начинает значительно терять в качестве при увеличении объема словаря. Наибольшая точность при использовании простых словарей была у наименьшего с 10 словами. Повысить качество распознавания речи можно специально сконструировав словарь и триграммную модель для него. Такой подход позволяет выделять устойчивые конструкции вместо разрозненных слов. Для повышения точности требуется подстройка под окружение, в котором будет производиться работа, т.е. настройки в конфигурационном файле для оборудования и микрофона. Дальнейшая работа по улучшению уровня распознавания ведется.

Выводы

Обзор статей и текущих разработок показал, что тема распознавания речи актуальна сегодня, как никогда. Отсутствие, в открытом доступе, похожих систем интеллектуального ввода кода программы с помощью речи подтверждает научную новизну работы и востребованность.

Анализ результатов работы построенной системы показывает, что нужна доработка как словарей, так и акустической модели. Для улучшения результата распознавания требуется подстройка под оборудование диктора. Дальнейшая работа будет вестись по этим направлениям.

Список источников

  1. Сайт з розпізнавання та синтезу мовлення в Україні [Электронный ресурс]. — Режим доступа: http://speech.com.ua.
  2. CMU Sphinx Open Source Toolkit For Speech Recognition Evaluation [Электронный ресурс]. — Режим доступа: http://cmusphinx.sourceforge.net/.
  3. Sphinx-4: A Flexible Open Source Framework for Speech Recognition [Электронный ресурс]. — Режим доступа: http://twiki.di.uniroma1.it/pub/NLP/WebHome/Sphinx4Whitepaper.pdf.
  4. Федяев О. И., Савкова Д. Г., Бакаленко В. С. Речевой интерфейс для интеллектуализации ввода исходного кода программ // 15 международная научная конференция им. Т. А. Таран Интеллектуальный анализ информации (ИАИ–2015), Киев, 20–21 мая 2015 г. — К.: Просвіта, 2015. — c. 21–28.
  5. Рабинер Л. Р. Скрытые марковские модели и их применение в избранных приложениях при распознавании речи// ТИИЭР. — 1984. — Т.72, № 2. — с. 86–120.
  6. Савкова Д. Г., Бондаренко И. Ю. Опыт применения инструментальной системы Sphinx для решения задачи распознавания речевых команд управления компьютерными системами // Сборник материалом 3–й Всеукраинской научно–практической конференции Информационные управляющие системы и компьютерный мониторинг ИУС КМ–2012. — Донецк: ДонНТУ. — 2012. — с. 111–117.
  7. Welcome — Russian Evaluation [Электронный ресурс]. — Режим доступа: http://www.voxforge.org/ru.
  8. Использование Google Speech API для управления компьютером [Электронный ресурс]. — Режим доступа: http://habrahabr.ru/post/144535/.
  9. Речевые технологии SpeechKit [Электронный ресурс]. — Режим доступа: https://tech.yandex.ru/speechkit/.
  10. RWTH ASR — The RWTH Aachen University Speech Recognition System [Электронный ресурс]. — Режим доступа: http://www-i6.informatik.rwth-aachen.de/rwth-asr/.
  11. Open-Source Large Vocabulary CSR Engine Julius [Электронный ресурс]. — Режим доступа: http://julius.osdn.jp/en_index.php.
  12. Example of the Baum–Welch Algorithm [Электронный ресурс]. — Режим доступа: http://www.indiana.edu/~iulg/moss/hmmcalculations.pdf.
  13. Винцюк Т. К. Анализ, распознавание и интерпретация речевых сигналов. — К.: Наукова думка, 1987. — с. 264.
  14. Чистович Л. А., Венцов А. В., Ганстрем М. П. и др. Физиология речи. Восприятие речи человеком. — Л.: Наука, 1976.