Русский   English
ДонНТУ   Портал магістрів

Реферат за темою випускної роботи

Зміст

Мета

Дослідження інструментальної середовища CMU Sphinx і розробка системи інтелектуалізації введення-виведення коду програми на її основі.

Завдання

  1. Огляд існуючих методів розпізнавання мовлення.
  2. Огляд існуючих систем розпізнавання мови.
  3. Формулювання завдань по інтелектуалізації введення-виведення коду програм.
  4. Вибір інструментальних коштів для реалізації автоматичного розпізнавання мови.
  5. Розробка архітектури мовного інтерфейсу для введення-виведення коду програми.
  6. Дослідження процесів автоматичного розпізнавання мови в CMU Sphinx.
  7. Розробка акустико-лінгвістичних моделей мови.
  8. Дослідження ефективності розроблених моделей голосового взаємодії при введенні-виведенні тексту програми.
  9. Розробка Java програми.

Актуальність теми роботи

В даний час набір текстів програм на мовах програмування здійснюється вручну з допомогою клавіатури, що вимагає хороших навичок роботи з клавіатурою, великої уваги і напруги на зір. Такий спосіб введення для людини є трудомістким і не зовсім зручним [14]. Усунення цього недоліку можливе шляхом успішного вирішення завдання автоматичного розпізнавання мови. Таким чином, стає актуальним інтелектуалізація введення і виведення вихідного коду програми, яка може полегшити життя як досвідчених програмістів, так і новачків.

Передбачувана наукова новизна і практична значимість роботи

Наукова новизна роботи полягає в підвищенні ефективності комп’ютерного розпізнавання мови за допомогою інструментальної середовища CMU Sphinx, що в свою чергу дозволить розробити мовний інтерфейс для введення коду програми.

Практична значущість роботи полягає у створенні системи мовного введення-виведення коду програми за допомогою CMU Sphinx.

Плановані практичні результати

1 Огляд досліджень та розробок

Існує 3 основних методи розпізнавання мови:

Ці методи постійно переплітаються і в деяких програмних продуктах використовується відразу кілька методів.

1.1 Огляд міжнародних джерел

Згідно з лінгвістичним особливостям людської мови, додаткові артикуляційні дані дозволяють більш точно виявити мова диктора і автоматично розбити звукову хвилю на окремі фрагменти [13]. У задачі розпізнавання мови ключове місце посідає створення бази даних, яка буде враховувати всі необхідні слова і їх вимова.

Нижче будуть розглянуті різні системи розпізнавання мови з відкритим і закритим вихідним кодом.

Sphinx — це дикторонезалежного розпізнавач безперервної мови, який використовує Приховану Марковскую модель і n-граммную статистичну мовну модель. Sphinx має можливості розпізнавання тривалої промови, дикторонезалежного величезний словник розпізнавання [5]. Sphinx4 повний і переписаний мовної движок Sphinx, головна мета якого забезпечити гнучкий каркас для дослідження в розпізнаванні мови. Sphinx4 повністю написаний на мові програмування Java [2]. Sun Microsystems внесла великий внесок у розвиток Sphinx4 і допомогу в програмній експертизі проекту, що і обумовлює мову програмування, на якому написана система.

Поточні цілі розвитку включають в себе:

PocketSphinx — ця версія Sphinx може бути вбудований в будь-які інші системи на базі процесора ARM. PocketSphinx активно розвивається і вбудовується в різні системи з арифметикою фіксованою комою і ефективні моделі на базі змішаної моделі обчислень.

Julius — це високопродуктивний розпізнавач безперервної мови з великим словником (large vocabulary continuous speech recognition), декодер програмного забезпечення для дослідження в галузі пов’язаної мови і розробки. Він відмінно підходить для декодування в режимі реального часу на більшості існуючих комп’ютерів, зі словником 60 тисяч слів, використовуючи контекстно незалежну Приховану марковскую модель. Головна особливість проекту полягає в повній встраїваємость. Це також безпечна модуляція може бути незалежна від модельних структур і різних типів Прихованих Марковських моделей, яка підтримує загальний стан трифонов і пов’язаної суміші-моделей з безліччю мікстур, фонем і тверджень [11].

RWTH ASR — це інструментарій розпізнавання мовлення з відкритим вихідним кодом. Інструментарій включає в себе технологію вміння розпізнавати мову для створення автоматичних систем розпізнавання мови. Дана технологія розвивається Технологічним центром Природної мови і Зразковою розпізнавальної групою в Рейнсько-Вестфальському технічному університеті Ахена. RWTH ASR включає в себе інструменти для розробки акустичних моделей і декодери, а також компоненти для адаптації промови спікера, адаптивні системи навчання промови спікера, неконтрольовані системи навчання, диференціальні системи навчання і гратчасті словообразні форми обробки [10].

Simon — система розпізнавання мови, заснована на мовних движках Julius і HTK. Система Simon спроектована таким чином, що вона досить зручна для роботи з різними мовами і різного роду діалектами. При цьому реакція розпізнавання мови, що повністю налаштовується і вона не підходить для виключного розпізнавання одиничних голосових запитів і не може бути налаштована під потреби користувачів. Щоб легко використовувати систему необхідно виконати певні сценарії. Пакети Simon сконфігуровані для спеціальних завдань. Серед можливих сценаріїв Simon, наприклад Firefox (запуск і керування браузером Firefox).

iATROS — це нове виконання системи розпізнавання мовлення попереднього покоління ATROS, яка підходить для розпізнавання як мовлення, так і для рукописного варіанту тексту. iATROS заснований на модулярної структури і може використовуватися як для побудови диференційованих моделей, чия мета здійснити Ветибри пошук на основі прихованої Марківської моделі. iATROS забезпечує стандартний інструментарій для розпізнавання мовлення як в режимі офлайн та онлайн. iATROS складається з 2-х модулів попередньої обробки (для мовного сигналу і зображень написаних від руки) і модуля ядра розпізнавання. Попередня обробка даних і риси вилучення модулів забезпечуються векторами розпізнавання модулів, які використовують Приховані Марківські моделі і мовні моделі, які виконуються пошуком припущень з кращих систем розпізнавання мови. Всі ці модулі виконані на мові програмування C.

Google speech API — продукт компанії Google, який дозволяє вводити голосовий пошук за допомогою технології розпізнавання мови. Технологія інтегрована в мобільні телефони і комп’ютери, де можна ввести інформацію за допомогою голосу. З 14 червня 2011 року Google оголосила про інтеграцію мовного движка Google Search і з тих пір він працює в стабільному режимі з цього часу. Ця технологія на персональних комп’ютерах підтримується тільки браузером Google Chrome. Є також функція голосового управління для запровадження мовних команд на телефонах з ОС Android. Для роботи з базою даних системи розпізнавання мови достатньо зареєструвати обліковий запис Google Developers і потім можна працювати з системою в рамках правового поля [8].

Комплекс мовленнєвих технологій Яндекса включає в себе розпізнавання і синтез мови, голосову активацію і виділення смислових об’єктів у вимовному тексті. Великим плюсом є мультиплатформена бібліотека для доступу до мовних технологій Яндекса в мобільних додатках і хмарний сервіс, який відкриває будь-яким програмам і пристроям доступ до мовних технологій Яндекса. Однак мінусом є важка для сприйняття документація і обмеження за кількістю запитів: 10 000 на добу. Хоча за запевненням розробників — цей інструментарій є номером 1 для російської мови і, що дослідницька група компанії, яка працювала одна в Швейцарії, інша в Москві змогла зробити технологічний прорив в цій області [9]. Проте з таким вирішенням досить важко виходити на міжнародний ринок, так як багато чого в області розпізнавання мовлення з точки зору патентування належить відомій Nuance і Яндекс значно пізніше інших фірм взявся за розпізнавання мови.

1.2 Огляд національних розробок

Про існування солідних українських фірм, які займаються створенням програмних продуктів на основі розпізнавання або синтезу мовлення без допомоги Міжнародного науково-навчального центру інформаційних технологій і систем невідомо. Мабуть, тому що їх просто немає. Існують або наукові установи, що займаються дослідженнями в області розпізнавання і синтезу, або самотні розробники [1].

Про лідера в Україні з розпізнавання і синтезу мови можна прочитати нижче. Адже крім лідера є й інші люди, які цікавляться проблематикою розпізнавання і синтезу.

У Донецьку у відділі розпізнавання мовних образів Державного інституту штучного інтелекту ведуться роботи з розпізнавання мови.

Є ще людина, яка самостійно займається розпізнаванням і синтезом. Це — харків’янин Анатолій Чорний з його Проектом альтернативного інтелекту. Одна з його розробок — синтезатор Розмовлялька.

Влад Савченко на основі голосового движка Digalo Russian і SAPI розробив програму Базіка.

У Львові Ярослав Козак створив систему озвучення українських текстів UkrVox на платформі SAPI.

Є синтезатори російської та української мови Vikno (автори: Г. В. Юсім і Ст. Б. Кон), які дозволяють озвучувати довільні тексти, написані російською або українською мовою, з можливими англомовними або німецькомовними включеннями.

Нещодавно з’явилася програма для озвучення українських текстів Декламатор. У ній передбачено три види використання: читання електронних книг спеціального формату, проведення диктанту, вибраного зі збірника диктантів або окремого тексту, редагування текстів з прослуховуванням. Автор застосовує власний синтезатор мови.

В Луганській області Сергій Баранников створив синтезатор української та російської мов Голос. Програма налаштовується за тембром, частотою, швидкістю і має можливість створення власного голосу.

Відділ розпізнавання звукових образів Міжнародного науково-навчального центру інформаційних технологій і систем — провідний лідер в області мовних технологій в Україні. З кінця 1960х років у відділі (тоді при Інституті Кібернетики під керівництвом Винцюка Т. К.) ведуться роботи з розпізнавання мови [1].

Зараз відділ займається наступними напрямками в розпізнаванні мови:

Відділ є провідним лідером в області синтезу мови в Україні. Створений розробниками синтезатор української мови використовується при озвучуванні СМС-ок в проекті SMS2Voice компанії Global Message Services. Відділ відрізняється відмінними знаннями сучасних алгоритмів розпізнавання та синтезу мовлення плюс наявність найбільших мовних баз даних в Україні.

В допомогу невеликим колективам дослідників на сайті викладається частина українського многодикторного мовленнєвого корпусу UkReco. Ця частина корпусу містить записи ізольованих слів.

1.3 Огляд локальних розробок

У ДонНТУ під керівництвом доцента кафедри прикладної інформатики та математики О. В. Федяєва, розпізнавання мовлення займалися такі магістри:


Основні наукові статті ДонНТУ по розпізнаванню мови наведені в таблиці 1:


Таблиця 1 — Публікації на теми пов’язані з розпізнаванням мови

Назва статті

Джерело

Прізвища співавторів

Аналіз ефективності методу нечіткого зіставлення образів для розпізнавання ізольованих слів Сб.наук.тр. 6 міжн. наук. конф. Інтелектуальний аналіз інфорації (ИАИ–2006), Київ, 16–19 травня 2006 р.: Просвіта, 2006. — с. 20–27. Бондаренко В. Ю., Федяєв О. В.
Нечітке зіставлення образів з оптимальним тимчасовим вирівнюванням для однодикторного і многодикторного розпізнавання ізольованих слів Наук. тр. Донецького національного технічного університету, серія Інформатика, кібернетика та обчислювальна техніка (ИКВТ–2007), випуск 8(120) — Донецьк: ДонНТУ, 2007. — с. 273–281. Бондаренко В. Ю., Федяєв О. В.
Реалізація методу нечіткого зіставлення мовних образів в нейромережевому базисі В зб. праць 4–ї Міжнародної наукової конференції Нейромережні технології та їх застосування. — Краматорськ: ДДМА, 2006. — с. 149–154. Бондаренко В. Ю., Федяєв О. В.
Реалізація методу нечіткого зіставлення мовних образів в нейромережевому базисі В зб. праць 4–ї Міжнародної наукової конференції Нейромережні технології та їх застосування. — Краматорськ: ДДМА, 2006. — с. 149–154. Бондаренко В. Ю., Федяєв О. В.
Метод нечіткого зіставлення образів для розпізнавання російськомовних команд керування текстовим редактором В зб. праць Міжнародної студентської науково–практичної конференції Інформатика і комп’ютерні технології. — Донецьк, ДонНТУ, 15 грудня 2005. — с. 223–224. Бондаренко В. Ю., Федяєв О. В.
Побудова нейромережевих аппроксиматоров фонем на основі технології CUDA Штучний інтелект. Інтелектуальні системи. Матеріали XI Міжнародної науково–технічної конференції (ІІ–2010), Том 1. — Донецьк: ІПШІ, Наука і освіта. — 2010. — с. 183–187. Бондаренко В. Ю., Федяєв О. В.
Організація системи автоматичного розпізнавання мови на основі колективу розпізнають автоматів Матеріали 4–ї міжнародної науково–технічної конференції Моделювання і комп’ютерна графіка (МКГ–2011), Донецьк, 5–8 жовтня 2011 р. — Донецьк, ДонНТУ. — с. 309–316. Бондаренко В. Ю., Федяєв О. В.
Колективне розпізнавання фонетичних елементів злитого мовлення Матеріали Міжнар. науково–техн. конференції Штучний інтелект. Інтелектуальні системи ШІ–2011. — Тому 1. — Донецьк: Інститут проблем штучного інтелекту, 2011. — с. 90–93. Бондаренко В. Ю., Федяєв О. В.
Нейромережевої розпізнавач фонем російської мови на мультипроцесорної графічної плати Науково–технічний журнал Штучний інтелект, № 3, 2010. — с. 176–183. Бондаренко В. Ю., Федяєв О. В., Титаренко К. Н.
Побудова системи розпізнавання мови на основі прихованих марківських моделей В зб. праць 4–ї Міжнародної студентської науково–технічної конференції молодих учених і студентів Інформатика і комп’ютерні технології. — Донецьк, ДонНТУ, 25–27 листопада 2008. — с. 347–348 Веренич В. В., Федяєв О. В.
Аналіз методів побудови систем розпізнавання мови на основі нейромережевих і прихованих марковських моделей В зб. праць 3–ї Міжнародної студентської науково–технічної конференції молодих учених і студентів Інформатика і комп’ютерні технології. — Донецьк, ДонНТУ, 11–13 грудня 2007. — с. 406–408 Веренич В. В., Федяєв О. В.
Нечітке зіставлення образів на основі вейвлет— реставления мовних сигналів Сб. матеріалів 5–ї міжнародної науково–технічній конференції студентів, аспірантів та молодих вчених Інформатика і комп’ютерні технології (ІКТ–2009). — 24–26 листопада 2009 р. Донецьк, ДонНТУ, Т. 2. — с. 119–120. Нестеренко Д. С., Бондаренко В. Ю., Федяєв О. В.
Досвід застосування інструментальної системи Sphinx для вирішення задачі розпізнавання мовних команд управління комп’ютерними системами Інформаційні управляючі системи та комп’ютерний моніторинг — 2012 (ІУС і КМ — 2012) / Матеріали III Всеукраїнської науково–технічна конференція студентів, аспірантів та молодих вчених — 16–18 квітня 2012 — Донецьк, ДонНТУ — 2012. — с. 111–117. Савкова Д. Р., Бондаренко В. Ю.
Дослідження системи Sphinx4 для вирішення завдань однодикторного і дикторонезалежного розпізнавання мовних команд Дослідження системи Sphinx4 для вирішення завдань однодикторного і дикторонезалежного розпізнавання мовних команд / Бондаренко В. Ю., Савкова Д. Р. // Наукові праці ДонНТУ. — Донецьк, 2012. — (Серія Інформатика, кібернетика та обчислювальна техніка). — № 16 (204). — с. 116–128. Савкова Д. Р., Бондаренко В. Ю.
Акустико-лінгвістична модель розпізнавання мови Інформаційні управляючі системи та комп’ютерний моніторинг — 2013 (ІУС і КМ — 2013) / Матеріали IV Всеукраїнської науково–технічної конференції студентів, аспірантів та молодих вчених 23–25 квітня 2013 — Донецьк, ДонНТУ — 2013, — В 2 тт. — Т. 1. — с. 442–445. Савкова Д. Р., Федяєв О. В.
Реалізація нейромережевих засобів розпізнавання фонем на ПЛІС В зб. праць науково–практичної конференції Інформаційні технології — в науку і освіту. — Харків, ХНУРЕ, 21 — 22 березня 2005 р. — с. 68–70. Гладунов С. А., Федяєв О. В.
Мовленнєвий управління програмними системами за допомогою нейромереж 7–й конференції по штучному інтелекту. КИЇ–2000. т. 2. — М: Изд–во Фізико–математичної літератури, 2000. — с. 464–471. Гладунов С. А., Федяєв О. В.
Ієрархічна нейромережева структура розпізнавання слів на основі низькочастотних гармонік Сб. наук. Праць Наукова сесія МІФІ — 002. У 14 томах. Т. 3. Інтелектуальні системи і технології. — М.: МИФИ, 2002. — с. 115–116. Гладунов С. А., Федяєв О. В.
Розпізнавання мови на основі нейромережевої апроксимації фонем. 8–я національна конференція з штучного інтелекту. КИЇ–2002. Праці конференції. Том 2. Коломна: Коломенська друкарня, 2002. — с. 187–192. Гладунов С. А., Федяєв О. В.
Багаторівнева нейромережева структура розпізнавання мовних слів по низькочастотних гармонік В зб. наук. праць Донецького національного техн. ун–та. Серія: Інформатика, кібернетика та обчислювальна техніка, вип. 39.— Донецьк: ДонНТУ, 2002. — с. 30–35. Гладунов С. А., Федяєв О. В.
Нейромережевої метод фонетичної сегментації мовного сигналу В зб. наук. праць Донецького національного техн. ун–та. Серія: Проблеми моделювання та автоматизації проектування динамічних систем, вип. 52.— Донецьк: ДонНТУ, 2002. — с. 125–130. Гладунов С. А., Федяєв О. В.
Розпізнавання злитої мови методом нейромережевої апроксимації сигналу Известия ТРТУ–ДонНТУ. Матеріали 3–го Міжнародного науково–практичного семінару Практика і перспективи розвитку інституційного партнерства. Кн. 1.— Таганрог: Изд–во ТРТУ, 2002. — с. 140–144. Гладунов С. А., Федяєв О. В.
Апаратну реалізацію на ПЛІС нейромережевих обчислень при розпізнаванні мови В зб. праць 3–ї Міжнародної наукової конференції Нейромережеві технології та їх застосування. — Краматорськ: ДДМА, 2004. — с. 77–88. Гладунов С. А., Федяєв О. В.

2 Архітектура системи CMU Sphinx

В якості інструментального середовища для розробки системи інтелектуалізації введення-виведення коду програми на основі мовленнєвих технологій, використовувалася система Sphinx4.

CMU Sphinx — комплекс, який включає в себе кілька видів систем. З існуючих сьогодні найпопулярнішими є Sphinx 4 і PocketSphinx. Кожна система Sphinx складається з двох компонентів [3]: тренера (trainer) і декодера. Тренер необхідний для створення акустичної моделі, адаптованої під конкретні потреби, а декодер виконує власне розпізнавання. Слід підкреслити, що trainer Sphinx виконує побудову акустичної моделі, а не адаптацію під конкретні мовні особливості. Тренер Sphinx призначений для розробників, які добре розуміють, як влаштовано розпізнавання мовлення; з рядовим користувачем система повинна взаємодіяти без підготовки [12]. Можливість роботи в такому режимі дуже корисна при створенні загальнодоступних сервісів, наприклад, автоматизованих телефонних служб і т. д.

Слід зазначити, що на поточний момент розробниками робляться спроби русифікації відкритих засобів розпізнавання мови. CMU Sphinx постійно змінюється і на даний момент, на офіційному сайті триває голосування про те, яку мовну модель слід додати, поки що лідирує німецька і російська. Є впевненість, що розробники візьмуться за російську мовну модель, що б якість розпізнавання російської мови було таким же, як і в англійській.

Sphinx 4 використовує API Java Speech, хоча і не реалізує стандартного інтерфейсу розпізнавання мови цієї системи. Для демонстрації можливостей системи розробники пропонують невеликі словники, призначені для застосування у спеціальних галузях (наприклад, розпізнавання числівників). Треба зазначити, що входять до складу Sphinx 4 демонстраційні програми справляються з розпізнаванням числівників набагато впевненіше, ніж минулі версії Sphinx. В принципі, Sphinx 4 вже можна використовувати на практиці для розпізнавання, наприклад, голосових команд — за умови, що їх загальна кількість буде невелика.

Архітектура верхнього рівня для Sphinx4 відносно проста. Як показано на рис.1, архітектура складається з клієнтської частини, декодера, бази знань і додатки [4].

Архітектура верхнього рівня CMU Sphinx

Рисунок 1 — Архітектура верхнього рівня CMU Sphinx

Блок Front End відповідає за збір, анотування та обробку вхідних даних. Крім того, він витягує об’єкти з вхідних даних для читання за допомогою декодера.

База знань містить інформацію необхідну для декодера. Ця інформація включає в себе акустичну модель і модель мови. База знань може отримати відповідь від декодера, що дозволяє базі знань динамічно змінюватися себе на основі результатів пошуку. Ці модифікації можуть включати в себе перемикання акустичних моделей і/або язика моделі, а також оновлювати параметри, такі як середнє і дисперсія для перетворення акустичних моделей.

Декодер виконує більшу частину роботи. Він зчитує дані з Front End, зіставляє їх з даними з бази знань і відгуком програми і виконує пошук найбільш ймовірних послідовностей слів, які могли б бути представлені низкою особливостей.

На відміну від багатьох архітектур розпізнавання мовлення, Sphinx4 дозволяє додатком контролювати безліч функцій мовного движка. Під час декодування, додаток може отримувати дані від декодера, в той час, коли він здійснює пошук. Ці дані дозволяють додатком відстежувати, як відбувається процес декодування і також дає змогу впливати на процес декодування до його завершення. Крім того, програма може оновлювати базу знань у будь-який час. На малюнку 2 показана схема системи розпізнавання мови на базі CMU Sphinx.

Схема системи розпізнавання мови на основі CMU Sphinx

Рисунок 2 — Схема системи розпізнавання мови на основі CMU Sphinx
(анімація: 6 кадрів, 6 циклів повторення, 38.2 кілобайт)

Структура Sphinx-4 відрізняється гнучкістю і модульність. Кожен модуль системи може бути замінений, що дозволяє розробникам проводити експерименти з різними реалізаціями модуля без необхідності зміни інших частин системи. Система Sphinx-4 має велику кількість параметрів, кожен з яких може бути використаний для поліпшення продуктивності системи. Для налаштування цих параметрів можна використовувати API або XML-файл з параметрами. Система конфігурування Sphinx-4 дозволяє динамічно завантажувати і налаштовувати модулі під час виконання, що робить систему гнучкою і легко настроюється. Для відстеження якості розпізнавання і збору статистики Sphinx надає ряд інструментів. Як і вся система, інструменти збору статистики є налаштованим, що дозволяє розробникам проводити якісний аналіз [6].

3 Попередні результати досліджень

Перші дослідження були присвячені оцінці якості моделі. Був проведений ряд експериментів. Для цього були створені словники на 10, 20 і 168 слів. Вони містили англійські слова — лексеми мови програмування Паскаль. Використовувалася дикторонезалежна акустична модель. В експериментах розпізнавалися як ізольовані слова без граматики, так і словосполучення. Попередні результати з досвіду роботу із застосуванням CMU Sphinx для своєї задачі показано на рисунку 2.

Вікно програми на основі Sphinx з результатами введення

Рисунок 3 — Вікно програми на основі Sphinx з результатами введення

Після декількох дослідів з різними словниками були зроблені висновки, що система починає значно втрачати в якості при збільшенні обсягу словника. Найбільша точність при використанні простих словників була у найменшого з 10 словами. Підвищити якість розпізнавання мовлення можна спеціально сконструювавши словник і триграммную модель для нього. Такий підхід дозволяє виділяти стійкі конструкції замість розрізнених слів. Для підвищення точності потрібно підстроювання під оточення, в якому буде проводитися робота, тобто налаштування в конфігураційному файлі для обладнання і мікрофона. Подальша робота із покращення рівня розпізнавання ведеться.

Висновки

Огляд статей та поточних розробок показав, що тема розпізнавання мовлення актуальна сьогодні, як ніколи. Відсутність у відкритому доступі, схожих систем інтелектуального введення коду програми за допомогою мови підтверджує наукову новизну роботи і затребуваність.

Аналіз результатів роботи побудованої системи показує, що потрібна доробка як словників, так і акустичної моделі. Для поліпшення результату розпізнавання потрібно підстроювання під обладнання диктора. Подальша робота буде вестися за цими напрямками.

Список джерел

  1. Сайт з розпізнавання та синтезу мовлення в Україні [Електронний ресурс]. — Режим доступу: http://speech.com.ua.
  2. CMU Sphinx Open Source Toolkit For Speech Recognition Evaluation [Електронний ресурс]. — Режим доступу: http://cmusphinx.sourceforge.net/.
  3. Sphinx–4: A Flexible Open Source Framework for Speech Recognition [Електронний ресурс]. — Режим доступу: http://twiki.di.uniroma1.it/pub/NLP/WebHome/Sphinx4Whitepaper.pdf.
  4. Федяев О. И., Савкова Д. Г., Бакаленко В. С. Речевой интерфейс для интеллектуализации ввода исходного кода программ // 15 международная научная конференция им. Т. А. Таран Интеллектуальный анализ информации (ИАИ–2015), Киев, 20–21 мая 2015 г. — К.: Просвіта, 2015. — c. 21–28.
  5. Рабинер Л. Р. Скрытые марковские модели и их применение в избранных приложениях при распознавании речи // ТИИЭР. — 1984. — Т.72, № 2. — с. 86–120.
  6. Савкова Д. Г., Бондаренко И. Ю. Опыт применения инструментальной системы Sphinx для решения задачи распознавания речевых команд управления компьютерными системами // Сборник материалом 3–й Всеукраинской научно–практической конференции Информационные управляющие системы и компьютерный мониторинг ИУС КМ–2012. — Донецк: ДонНТУ. — 2012. — с. 111–117.
  7. Welcome — Russian Evaluation [Електронний ресурс]. — Режим доступу: http://www.voxforge.org/ru.
  8. Использование Google Speech API для управления компьютером [Електронний ресурс]. — Режим доступу: http://habrahabr.ru/post/144535/.
  9. Речевые технологии SpeechKit [Електронний ресурс]. — Режим доступу: https://tech.yandex.ru/speechkit/.
  10. RWTH ASR — The RWTH Aachen University Speech Recognition System [Електронний ресурс]. — Режим доступу: http://www-i6.informatik.rwth-aachen.de/rwth-asr/.
  11. Open–Source Large Vocabulary CSR Engine Julius [Електронний ресурс]. — Режим доступу: http://julius.osdn.jp/en_index.php.
  12. Example of the Baum–Welch Algorithm [Електронний ресурс]. — Режим доступу: http://www.indiana.edu/~iulg/moss/hmmcalculations.pdf.
  13. Винцюк Т. К. Анализ, распознавание и интерпретация речевых сигналов. — К.: Наукова думка, 1987. — с. 264.
  14. Чистович Л. А., Венцов А. В., Ганстрем М. П. и др. Физиология речи. Восприятие речи человеком. — Л.: Наука, 1976.