ДонНТУ   Портал магістрів

Реферат за темою випускної роботи

Зміст

Вступ

Основна трудність, яка перешкоджає впровадженню мовних технологій в численні сфери діяльності і побуту людини, це недостатня стійкість процесу розпізнавання і розуміння мови. Створенню методів розуміння мови, стійких до різних видів спотворень (зовнішні шуми, варіації вимови, синтаксичні відхилення тощо) присвячена робота великої кількості фахівців по всьому світу. Було розроблено велику кількість алгоритмів для розпізнавання окремо вимовлених слів. Однак роздільне вимова на відміну від злитого мовлення істотно уповільнює та ускладнює мовної діалог між диктором і комп'ютером.

Суть проблеми полягає в тому, що серед існуючих мовних технологій немає методів розпізнавання злитої мови, стійких по відношенню до різного роду відхилень, що не може привести до робастної розуміння мови. Практично всі відомі підходи до розпізнавання злитої промови засновані на семантико-синтаксичних або стохастичних обмеженнях в моделях генерації гіпотетичних фраз (як складових еталонів або моделей) [1, 2, 3, 4]. Такі моделі можуть розпізнавати тільки ідеально побудовані і чітко вимовленні в повній тиші фрази. Іншими словами фрази з частковими неточностями відкидаються вже на рівні розпізнавання ланцюжків слів. Зняти ці обмеження в рамках існуючих підходів (наприклад, шляхом повного перебору) неможливо, оскільки це призвело б до катастрофічного ускладнення моделі розпізнавання. При великих розмірах словника число фраз побудованих методом перебору досягало б величезного обсягу, що призвело б до масштабних обчислювальним операціями, і така система просто стала б практично не придатною.

1. Мета та задачі дослідження

Основною метою магістерської роботи є розробка алгоритму для розпізнавання злитого мовлення та його реалізацію у вигляді програмного продукту.

Для виконання поставленої мети виділені наступні задачі:

2. Актуальність теми дослідження

Питаннями автоматичного розпізнавання мови вчені стали займатися з моменту появи перших комп'ютерів, оскільки текстовий командний інтерфейс взаємодії з ЕОМ не забезпечував прийнятною швидкості і природності роботи. За багато років досліджень був розроблений широкий спектр методів та комп'ютерних програм, спрямованих на вирішення проблем розпізнавання мови.

Сьогодні отримані багатообіцяючі результати і створені діючі комерційні системи, в основному, для англійської мови, а також іспанської, французької, японської, китайської та арабських мов. Це багато в чому пов'язане з економічними і політичними аспектами розвитку мовних технологій. Наприклад, англійська мова є найбільш поширеним і тому інвестиції в розвиток технологій для автоматизованої обробки англійської мови окупилися досить швидко. У той же час мовним технологіям інших мов приділяється недостатньо уваги, внаслідок чого їх розвиток кілька стримується.

Тим часом, російська мова є одним з найпопулярніших мов світу, на ньому говорить понад двадцять відсотків населення Європи. Незважаючи на це, діючих систем автоматичного розпізнавання російської злитого мовлення фактично не існує. Крім економічних проблем, на розвиток мовних технологій, в першу чергу, впливають особливості російської мови і мови, що викликають труднощі у процесі обробки. Основні з них: відсутність строгих граматичних конструкцій побудови пропозицій, а також численні правила словотворення, фонетичного уявлення слів і розстановки наголосів з великою кількістю винятків.

Для оцінки ефективності розроблюваних систем автоматичного розпізнавання мови застосовують багато показників, інтегральними ж критеріями оцінки продуктивності таких систем служать точність розпізнавання мови (звуків, слів або фраз) і швидкість обробки мовного сигналу. В ідеальному випадку система повинна забезпечувати практично 100% точність розпізнавання мови при миттєвому виведення результату. Проте, враховуючи обмежені можливості існуючих обчислювальних ресурсів при вирішенні таких складних інтелектуальних завдань як автоматичне розпізнавання мови людини, доводиться знаходити компроміс між точністю та швидкістю обробки. На рисунку 1 приведені основні елементи системи розпізнавання злитої мови на прикладі розробок ЦРТ [5] (Росія).

Основні елементи систем розпізнавання злитого мовлення ЦРТ

Рисунок 1 Основні елементи систем розпізнавання злитого мовлення ЦРТ

3. Передбачувана наукова новизна

Передбачається, що в даній магістерській роботі буде запропоновано новий метод розпізнавання злитої мови і також для прискорення роботи системи розпізнавання будуть задіяні обчислювальні ресурси графічного адаптера, що дозволить значно збільшити швидкість розпізнавання.

4. Плановані практичні результати

В якості основних планованих результатів передбачається досягнення поставленої мети: розробка алгоритму розпізнавання злитого мовлення і його реалізація у вигляді програмного продукту.

5 Огляд існуючих розробок з розпізнавання злитого мовлення

Всі спроби розробки систем розпізнавання російської мови за межами країн СНД не увінчалися успіхом, або не знайшли свого розвитку, тому буде проведений огляд систем розроблених в країнах СНД.

5.1 Розробки на глобальному рівні

Перші діючі системи автоматичного розпізнавання мови були дікторозавісімимі, могли розпізнавати обмежена кількість слів і вимагали попереднього налаштування на користувача [6]. З найбільш відомих систем розпізнавання російської мови можна привести пристрої "Речь", розроблені в 80-х роках минулого століття під керівництвом Т.К. Вінцюк. В основі даної системи закладена концепція послідовної переробки мовної інформації на основі динамічного програмування і на тимчасовому уявленні мови як результату нелінійного стискування і розтягування. Інший напрямок в області розпізнавання мови було закладено В.Н. Труніним-Донським. Тут особлива увага приділялася акустичним ознаками способу і місця освіти промови (тимчасові, частотні, амплітудні) для прийняття рішення на кожному кроці обробки мовної інформації. У цьому принципова відмінність даного підходу від концепції, прийнятої в роботах колективу Т.К. Вінцюк, що спирається в основному на математичний метод.

З найбільш відомих розробок наведемо пристрій розпізнавання-синтезу мови МАРС-1, МАРС-2 на основі формантного аналізу та синтезу. До середини 90-х років XX століття були розроблені дикторонезалежність пристрої зі словником до 1000 слів, які забезпечували надійність розпізнавання 87-99% мовлення в залежності від словника [6]. В основі цих систем лежав принцип ієрархічного розпізнавання, процедура обробки була заснована на динамічному програмуванні. Також досить ефективним вважався підхід, заснований на обчисленні мінімальної заходи подібності методом градієнтного спуску, який, зокрема, був використаний при розробці пристрою розпізнавання мови ДІС-332. Цей пристрій було розраховано на розпізнавання 200 команд на базі мікропроцесора К580ИК80 і забезпечувало 96-98% надійності розпізнавання.

В останні роки активно розвиваються інтелектуальні системи, призначені для цілей телекомунікації і різних інформаційних сервісів. Все більша кількість людей воліють використовувати новітні інтелектуальні технології, які полегшують доступ до інформації та економлять час. У зв'язку з цим на першому плані виявилася така характеристика систем автоматичного розпізнавання мови, як диктор-незалежність, яка не вимагає від користувача попередньої установки, а дозволяє йому відразу почати діалог з системою.

До теперішнього часу з'явився ряд розробок з диктор-незалежному розпізнаванню російської мови, в основі яких лежать статистичні моделі мови, що використовують різні одиниці мови в якості базової (словоформа, лема, морфема тощо) [7-10]. З появою високошвидкісних ЕОМ найбільш широко стали застосовуватися статистичні методи, засновані на складній в обчислювальному плані техніці прихованих марковських моделей (СММ), які створили нові можливості для розпізнаванні мови.

Однак необхідно враховувати, що розробка будь-якої системи автоматичного розпізнавання і розуміння мови в першу чергу пов'язана з вивченням специфіки мови, а отже, необхідно проводити дослідження відразу в декількох суміжних галузях знань про мову, мови і комунікації, таких як комп'ютерна лінгвістика, фонетика, розпізнавання образів , обробка сигналу та інших.

Серед російських наукових колективів, які займаються розпізнаванням мови, можна назвати ІППІ РАН, ВЦ РАН, ІСА РАН, ІПУ РАН, СПІІ РАН, мовні групи філологічного та механіко-математичного факультетів МДУ, Московський лінгвістичний університет, Петербурзький державний університет, Таганрозький радіотехнічний університет, Томський державний університет, Центр мовних технологій (Санкт-Петербург).

Найбільш суттєвих результатів серед російських дослідників добилися наукові групи, що мають можливість придбати або створити словники та мовні бази великого розміру. В середині 90-х років учені Інституту системного аналізу РАН за підтримки компанії СТЕЛ та у співпраці з дослідниками мовної групи МГУ брали активну участь у створенні перших великомасштабних баз даних російської мови. Крім питань побудови локальних словників, ІСА РАН [10] займається проблемами мовного управління і диктор-незалежного розпізнавання. В основі запропонованих підходів лежить спільне використання штучних нейронних мереж і методів аналізу, заснованих на фонологічних знаннях. В даний час ведуться роботи по впровадженню модулів мовного управління в прикладні системи, пов'язані з організацією документообігу.

У Обчислювальному центрі РАН проводяться дослідження і розробка методів розпізнавання мовлення, які зберігали працездатність в природних умовах мовних комунікацій. Завдання полягає в тому, щоб зберегти досить високу точність розпізнавання в реальній ситуації при наявності різних каналів передачі інформації, шумів, немовних акустичних подій, варіабельності голосів дикторів і т.п. Загальний підхід полягає у використанні множинних паралельних акустико-фонетичних моделей алофонів і немовних акустичних подій [12, с. 575-579]. Сектором автоматичного розпізнавання і цифрової обробки ВЦ РАН була також розроблена система розпізнавання мови для телекомунікаційних додатків. Областю застосування є реалізація функцій віддаленого доступу до користувальницьким баз даних, мовної поштою по телефонному каналу. Також з метою фундаментальних досліджень створено мовної корпус TeCoRus.

Більше 30 років ведуться мовні дослідження в лабораторії автоматизованих систем масового обслуговування Інституту проблем управління РАН. Головним науковим і практичним напрямком діяльності лабораторії в даний час є застосування комп'ютерного розпізнавання злитого мовлення в системах обслуговування населення з можливістю використання російської та інших мов [13]. Створена лабораторна система зі спеціальними функціями для пошуку характеристик для базового програмного забезпечення розпізнавання мови і для визначення впливу різних параметрів на розпізнавання і розуміння мовлення. В якості базової платформи розпізнавання мовлення використовується інструментарій SpeechPearl компанії ScanSoft [14] і програмне забезпечення з розпізнавання мовлення від Nuance Communication [15]. В результаті був створений голосовий інтерфейс системи "Сирена", призначеної для диспетчерської служби таксі, а також пакети розпізнавання мовлення до служб системи Web Money [16, с. 304-308].

На кафедрі математичної теорії інтелектуальних систем і лабораторії проблем теоретичної кібернетики механіко-математичного факультету МДУ ім. М.В. Ломоносова проводяться дослідження різних аспектів розпізнавання мови: дискретні алгоритми розпізнавання мови, розпізнавання в умовах шуму, читання по губах, граматики природних мов, синтез мови. В останні роки була розроблена диктор-залежна система розпізнавання мови, що дозволяє надійно розпізнавати команди диктора в умовах виробничих шумів. Для особливостей російської мови розроблені методи обліку контексту в розпізнаванні мовлення, а також математичні підходи до задачі виправлення помилок в текстах на задану тему [7, с. 185-193].

Групою мовної інформатики Санкт-Петербурзького інституту інформатики та автоматизації РАН був розроблений комплекс методів і програмних модулів для навчання акустичних моделей фонетичних одиниць дикторонезалежної системи розпізнавання російськомовної мови, а також підготовлений необхідний навчальний матеріал для моделювання механізмів навчання акустичних моделей [9]. Створена система, що дозволяє автоматично транскрибувати російськомовні тексти і ізольовані слова, а також бази даних різних типів морфем російської мови. Розроблено модель дикторонезалежної системи розпізнавання злитої російської мови на основі морфемного аналізу. За рахунок поділу словоформи на морфеми словник розпізнаваних лексичних одиниць скоротився в декілька разів. В результаті такої обробки забезпечується інваріантність до граматичним відхилень, а також збільшується швидкість розпізнавання. Крім того, даний підхід може бути використаний не тільки для розпізнавання російської мови, але й інших мов зі складним механізмом словотворення. В результаті апробації розроблених методів створено експериментальну модель з голосовим доступом для пошуку рубрик в електронному каталозі "Жовті сторінки Санкт-Петербурга". У цьому завданню розмір словника склав 1850 слів, а точність розпізнавання - понад 90% [17, с. 219-228].

Sakrament ASR Engine [18] - розробка компанії «Сакрамент», що здійснює високоточне розпізнавання мови на різних платформах. Технологія розпізнавання мовлення використовується при створенні засобів мовного управління - програм, керуючих діями комп'ютера або іншого електронного пристрою за допомогою голосових команд, а також при організації телефонних довідкових та інформаційних служб. Програма розрахована на застосування в різних апаратних системах і програмних додатках, що використовують технології розпізнавання мови, таких як: IVR-системи, мобільні електронні пристрої, побутова техніка і т.д. Sakrament ASR Engine може бути легко перенесена на будь-яку існуючу програмну або апаратну платформу, а також налаштована під конфігурацію будь-якої програми.

Технічні характеристики системи розпізнавання мови Sakrament ASR Engine наступні:

  1. Мови: Не залежна від мови.
  2. Точність: Точність розпізнавання досягає 95-98 відсотків. Якість розпізнавання залежить від розміру використовуваних словників, якості транскрипції, показника пов'язаності розпізнаваних слів, від рівня фонового шуму, від параметрів використовуваних каналів зв'язку та характеристик мікрофонів.
  3. Розмір Словника: Віртуально необмежений, розпізнавання в реальному часі з використанням активних словників. Можливість створення активних словників на вимогу замовника, навчання системи за допомогою синтезатора мови.
  4. Дикторонезалежна: Система розпізнавання підтримує дикторонезалежність і дикторозалежний режими роботи.
  5. Підтримувані стандарти: MS SAPI 4.1, SAPI 5.1, TAPI 3.0.
  6. Підтримувані платформи: Windows 98, ME, NT, 2000, XP, 2003, Vista.

Система розпізнавання мови Sakrament ASR Engine повністю сумісна з синтезатором мови Sakrament TTS Engine і може бути легко в нього інтегрована, що значно розширює сферу застосування розробок компанії "Сакрамент". Спільне використання технологій дозволяє створювати повнофункціональні онлайнові телефонні інформаційно-довідкові служби та Інтернет-сервіси.
Короткий опис більш менш суттєвих зарубіжних розробок приведено в таблиці 1.


Таблиця 1 Список зарубіжних систем розпізнавання мови


Система, розробник

Характеристика

Горыныч, VoiceLock и White Computers, Россия

VoiceCom, Центр речевых технологий, Росія [17]


IstraSoft Voice Commander", ИстраСофт, Росія


Sakrament ASR Engine", Сакрамент, Білорусія



SpeechPearl", ScanSoft , США

Дикторозалежне розпізнавання до 10000 слів, рівень розпізнавання 70%

Дикторозалежне розпізнавання 100-200 команд (якість розпізнавання - 98%), дикторонезалежність розпізнавання 30-50 команд

Дикторозалежне розпізнавання 45 команд, також підтримує дікторозавісмий режим, на малому словнику рівень розпізнавання 98%

Дикторозалежний та дикторонезалежний режими. Якість розпізнавання 95-98% залежно від розміру використовуваних словників

Підтримує дикторозалежний режим. Словник розпізнавання до 1.5 млн. слів в дикторонезалежному режимі

5.2 Вітчизняні розробки

Основними розробками в сфері розпізнавання мови займається ІПШІ (м.Донецьк). Відділом розпізнавання мовних образів ІПШІ (Донецьк) були розроблені програми, які автоматично розпізнають до 1000 ізольовано вимовлених слів з ​​високою надійністю. На їх основі розроблено ряд прикладних програм, зокрема, програма голосового набору математичних формул в системі "Equation", програма голосового управління мобільним роботом. В даний час відділ займається проблемою пофонемного розпізнавання [18​​, с. 662-669]. Для цього розроблені оригінальні методи сегментації (автоматичного розбиття мовного сигналу на ділянки, що відповідають окремим фонемам). Крім того, активно розробляються програмні засоби та бібліотеки для автоматичного освіти російських словоформ, а також морфологічного аналізу [19, с. 632-642].

6. Короткий виклад власних результатів

В результаті проведеного аналізу існуючих методів розпізнавання злитого мовлення було вирішено використовувати в подальших дослідженнях з розпізнавання злитого мовлення по Фонемні методи розпізнавання, засновані на сегментації сигналу на окремі фонеми і подальший аналіз сегментованого сигналу рисунок 2.

Отсегментоване слово заголовок

Рисунок 2 Отсегментоване слово заголовок

Отримані мітки (рисунок 2) можуть бути використані для подальшої роботи зі злитою мовою. На даному етапі програма може розпізнавати окремо вимовлені слова, але за рахунок отсегментованного сигналу метод розпізнавання окремих слів можна буде застосувати до злитого мовлення, аналізуючи сигнал і розділяючи його на окремі слова. Передбачувана схема роботи програми з розпізнавання злитої промови зображена на рисунку 3.

Передбачувана схема роботи програми з розпізнавання злитого мовлення

Рисунок 3 Передбачувана схема роботи програми з розпізнавання злитого мовлення
(анімація, кількість кадрів 5, кількість повторень 4, розмір 31 Кбайт)

Висновки

На сьогоднішній день вирішення проблеми злитого мовлення можливе лише методом генерації гіпотез фраз шляхом повного перебору складових еталонів / моделей слів, але це призводить до неприйнятного ускладнення моделі розпізнавання, тому такий метод використовується тільки при дуже обмеженому розмірі словника. В даній випускній роботі передбачається відмовитися від повного перебору гіпотез фраз, на користь по фонемного розпізнавання.

В ході проведеного огляду існуючих систем розпізнавання мови можна зробити висновки, що завдання розпізнавання злитого мовлення є міждисциплінарною, тому до розробки мовних технологій повинні залучатися фахівці різного профілю (інженери, математики, філологи, медики, педагоги тощо). У зв'язку з цим назріла необхідність в об'єднанні потенціалу дослідників відразу в декількох областях науки, таких як обробка сигналу, розпізнавання образів, фонетика, комп'ютерна лінгвістика, що пов'язано з використанням великих фінансових і часових ресурсів.

Список джерел

  1. Jelinek F. The Development of an experimental Discrete Dictation Recognizer - In Proceedings of the IEEE, 1985.-vol. 73,no. 11, 1616-1624 стр.
  2. Sakoe H, Chiba S. Recognition of Continuously Spoken Words based on Time-Normalization by Dynamic Programming. - J. Acoust. Soc. Japan, 1971 - 7, 9, 483-49О стр.
  3. Myers C. S., RabinerL. R. A Level Building Dynamic Time Warping Algorithm for Connected Word Recognition. - IEEE Trans. ASSP-29, 1981. - No. 2, 284-297 стр.
  4. Винцюк Т.К. Распознавание слов устной речи методами динамического программирования. Кибернетика, 1968, № 1,с. 81-88.
  5. Центр Речевых Технологий ЦРТ [Электронный ресурс]. – Режим доступа: htpp:// www.speechpro.ru.
  6. Косарев Ю.А. Естественная форма диалога с ЭВМ. Л.: Машиностроение, 1989.
  7. Холоденко А.Б. Использование лексических и синтаксических анализаторов в задачах распознавания для естественных языков // Интеллектуальные системы. Т. 4. Вып. 1-2. 1999.
  8. Соколова Е.Н. Алгоритмы лемматизации для русского языка // Рабочий проект многоязычного автоматического словаря на 60 тыс. словарных статей. Т. 1. Лингвистическое обеспечение. М., 1984.
  9. Карпов А.А., Ронжин АЛ, Ли ИВ. SIRIUS - cистема дикторонезависимого распознавания слитной русской речи // Известия ТРТУ. 2005. № 10.
  10. Oparin I, Talanov A. Stem-Based Approach to Pronun­ciation Vocabulary Construction and Language Model­ing for Russian // Proc. of 10-th International Conference "Speech and Computer" SPEC0M'2005, Patras, Greece.
  11. Институт системного анализа РАН  [Электронный ресурс]. – Режим доступа:  http://www.isa.ru
  12. Чучупал В.Я, Маковкин К.А., Чичагов А.В. К во­просу об оптимальном выборе алфавита моделей звуков русской речи для распознавания речи // Искусственный интеллект. 2002. № 2.
  13. Института проблем управления им. В. А. Трапезникова РАН  [Электронный ресурс]. – Режим доступа: http://www.ipu.ru
  14. Scansoft, Inc. [Электронный ресурс]. – Режим доступа: http://scansoft.com
  15. Scansoft, Inc. [Электронный ресурс]. – Режим доступа: http://nuance.com
  16. Zhozhikashvili V.A., Farkhadov M.P., Petukhova N.V., Zhozhikashvili A.V. The first voice recognition applica­tions in Russian language for use in the interactive infor­mation systems // 9th International Conference SPEC0M'2004/St.-Petersburg: "Anatoliya", 2004.
  17. Karpov A.A., Ronzhin A.L. Speech Interface for Internet Service Yellow Pages // Intelligent Information Proces­sing and Web Mining: Advances in Soft Computing, Proc. of the International IIS: IIPWM'05 Conference, Gdansk, Poland, Springer-Verlag, 2005.
  18. Шелепов ВЮ, Ниценко ВЮ. К проблеме по фонемного распознавания // Искусственный интеллект. 2005. № 4.
  19. Дорохина ГВ, Павлюкова А.П. Модуль морфологического анализа слов русского языка // Искусственный интеллект. 2004. № 3.