ДонНТУ   Портал магистров

Реферат по теме выпускной работы

Содержание

Введение

Основная трудность, которая препятствует внедрению речевых технологий в многочисленные сферы деятельности и быта человека, это недостаточная устойчивость процесса распознавания и понимания речи. Созданию методов понимания речи, устойчивых к различным видам искажений (внешние шумы, вариации произношения, синтаксические отклонения и др.) посвящена работа большого количества специалистов по всему миру. Было разработано большое количество алгоритмов для распознавания отдельно произносимых слов. Однако раздельное произношение в отличие от слитной речи существенно замедляет и усложняет речевой диалог между диктором и компьютером.

Суть проблемы состоит в том, что среди существующих речевых технологий нет методов распознавания слитной речи, устойчивых по отношению к различного рода отклонениям, что не может привести к робастному пониманию речи. Практически все известные подходы к распознаванию слитной речи основаны на семантико-синтаксических или стохастических ограничениях в моделях генерации гипотетических фраз (как составных эталонов или моделей) [1, 2, 3, 4]. Такие модели могут распознавать только идеально построенные и четко произнесенные в полной тишине фразы. Иными словами фразы с частичными неточностями отвергаются уже на уровне распознавания цепочек слов. Снять эти ограничения в рамках существующих подходов (например, путем полного перебора) невозможно, поскольку это привело бы к катастрофическому усложнению модели распознавания. При больших размерах словаря число фраз построенных методом перебора достигало бы огромного объема, что привело бы к масштабным вычислительным операциям, и такая система просто стала бы практически не применимой.

1. Цели и задачи исследования

Основной целью магистерской работы является разработка алгоритма для распознавания слитной речи и его реализацию в виде программного продукта.

Для выполнения поставленной цели выделены следующие задачи:

2. Актуальность темы исследования

Вопросами автоматического распознавания речи ученые стали заниматься с момента появления первых компьютеров, поскольку текстовый командный интерфейс взаимодействия с ЭВМ не обеспечивал приемлемой скорости и естественности работы. За многие годы исследований был разработан широкий спектр методов и компьютерных программ, направленных на решение проблем распознавания речи.

Сегодня получены многообещающие результаты и созданы действующие коммерческие системы, в основном, для английского языка, а также испанского, французского, японского, китайского и арабских языков. Это во многом связано с экономическими и политическими аспектами развития речевых технологий. Например, английский язык является наиболее распространенным и поэтому инвестиции в развитие технологий для автоматизированной обработки английской речи окупились достаточно быстро. В то же время речевым технологиям других языков уделяется недостаточно внимания, вследствие чего их развитие несколько сдерживается.

Между тем, русский язык является одним из самых популярных языков мира, на нем говорит свыше двадцати процентов населения Европы. Несмотря на это, действующих систем автоматического распознавания русской слитной речи фактически не существует. Кроме экономических проблем, на развитие речевых технологий, в первую очередь, влияют особенности русского языка и речи, вызывающие сложности в процессе обработки. Основные из них: отсутствие строгих грамматических конструкций построения предложений, а также многочисленные правила словообразования, фонетического представления слов и расстановки ударений с большим количеством исключений.

Для оценки эффективности разрабатываемых систем автоматического распознавания речи применяют много показателей, интегральными же критериями оценки производительности таких систем служат точность распознавания речи (звуков, слов или фраз) и скорость обработки речевого сигнала. В идеальном случае система должна обеспечивать практически 100% точность распознавания речи при мгновенном выводе результата. Тем не менее, учитывая ограниченные возможности существующих вычислительных ресурсов при решении таких сложных интеллектуальных задач как автоматическое распознавание речи человека, приходится находить компромисс между точностью и скоростью обработки. На рисунке 1 приведена основные элементы системы распознавания слитной речи на примере разработок ЦРТ [5] (Россия).

Основные элементы систем распознавания слитной речи ЦРТ

Рисунок 1 Основные элементы систем распознавания слитной речи ЦРТ

3. Предполагаемая научная новизна

Предполагается, что в данной магистерской работе будет предложен новый метод распознавания слитной речи и также для ускорения работы системы распознавания будут задействоваться вычислительные ресурсы графического адаптера, что позволит значительно увеличить скорость распознавания.

4. Планируемые практические результаты

В качестве основных планируемых результатов предполагается достижение поставленной цели: разработка алгоритма распознавания слитной речи и его реализация в виде программного продукта.

5 Обзор существующих разработок по распознаванию слитной речи

Все попытки разработки систем распознавания русской речи за пределами стран СНГ не увенчались успехом, либо не нашли своего развития, поэтому будет произведен обзор систем разработанных в странах СНГ.

5.1 Разработки на глобальном уровне

Первые действующие системы автоматического распознавания речи были дикторозависимыми, могли распознавать ограниченное количество слов и требовали предварительной настройки на пользователя [6]. Из наиболее известных систем распознавания русской речи можно привести устройства "Речь", разработанные в 80-х годах прошлого столетия под руководством Т.К. Винцюка. В основе данной системы заложена концепция последовательной переработки речевой информации на основе динамического программирования и на временном представлении речи как результата нелинейного сжатия и растяжения. Другое направление в области распознавания речи было заложено В.Н. Труниным-Донским. Здесь особое внимание уделялось акустическим признакам способа и места образования речи (временные, частотные, амплитудные) для принятия решения на каждом шаге обработки речевой информации. В этом принципиальное отличие данного подхода от концепции, принятой в работах коллектива Т.К. Винцюка, опирающегося в основном на математический метод.

Из наиболее известных разработок приведем устройство распознавания-синтеза речи МАРС-1, МАРС-2 на основе формантного анализа и синтеза. К середине 90-х годов XX столетия были разработаны дикторонезависимые устройства со словарём до 1000 слов, которые обеспечивали надёжность распознавания 87-99% речи в зависимости от словаря [6]. В основе этих систем лежал принцип иерархического распознавания, процедура обработки была основана на динамическом программировании. Также весьма эффективным считался подход, основанный на вычислении минимальной меры сходства методом градиентного спуска, который, в частности, был использован при разработке устройства распознавания речи ДИС-332. Данное устройство было рассчитано на распознавание 200 команд на базе микропроцессора К580ИК80 и обеспечивало 96-98% надёжности распознавания.

В последние годы активно развиваются интеллектуальные системы, предназначенные для целей телекоммуникации и различных информационных сервисов. Всё большее количество людей предпочитают использовать новейшие интеллектуальные технологии, которые облегчают доступ к информации и экономят время. В связи с этим на первом плане оказалась такая характеристика систем автоматического распознавания речи, как дикторо-независимость, которая не требует от пользователя предварительной настройки, а позволяет ему сразу начать диалог с системой.

К настоящему времени появился ряд разработок по дикторо-независимому распознаванию русской речи, в основе которых лежат статистические модели языка, использующие различные единицы речи в качестве базовой (словоформа, лемма, морфема и др.) [7-10]. С появлением высокоскоростных ЭВМ наиболее широко стали применяться статистические методы, основанные на сложной в вычислительном плане технике скрытых марковских моделей (СММ), которые создали новые возможности для распознавании речи.

Однако необходимо учитывать, что разработка любой системы автоматического распознавания и понимания речи в первую очередь связана с изучением специфики языка, а следовательно, необходимо проводить исследования сразу в нескольких смежных областях знаний о языке, речи и коммуникации, таких как компьютерная лингвистика, фонетика, распознавание образов, обработка сигнала и других.

Среди российских научных коллективов, которые занимаются распознаванием речи, можно назвать ИППИ РАН, ВЦ РАН, ИСА РАН, ИПУ РАН, СПИИ РАН, речевые группы филологического и механико-математического факультетов МГУ, Московский лингвистический университет, Петербургский государственный университет, Таганрогский радиотехнический университет, Томский государственный университет, Центр речевых технологий (Санкт-Петербург).

Наиболее существенных результатов среди российских исследователей добились научные группы, имеющие возможность приобрести или создать словари и речевые базы большого размера. В середине 90-х годов учёные Института системного анализа РАН при поддержке компании СТЕЛ и в сотрудничестве с исследователями речевой группы МГУ принимали активное участие в создании первых крупномасштабных баз данных русского языка. Кроме вопросов построения локальных словарей, ИСА РАН [10] занимается проблемами речевого управления и дикторо- независимого распознавания. В основе предложенных подходов лежит совместное использование искусственных нейронных сетей и методов анализа, основанных на фонологических знаниях. В настоящее время ведутся работы по внедрению модулей речевого управления в прикладные системы, связанные с организацией документооборота.

В Вычислительном центре РАН проводятся исследования и разработка методов распознавания речи, сохраняющих работоспособность в естественных условиях речевых коммуникаций. Задача состоит в том, чтобы сохранить достаточно высокую точность распознавания в реальной ситуации при наличии различных каналов передачи информации, шумов, неречевых акустических событий, вариабельности голосов дикторов и т.п. Общий подход состоит в использовании множественных параллельных акустико-фонетических моделей аллофонов и неречевых акустических событий [12, с. 575-579]. Сектором автома-тического распознавания и цифровой обработки ВЦ РАН была также разработана система распознавания речи для телекоммуникационных приложений. Областью применения является реализация функций удалённого доступа к пользовательским базам данных, речевой почте по телефонному каналу. Также в целях фундаментальных исследований создан речевой корпус TeCoRus.

Более 30 лет ведутся речевые исследования в лаборатории автоматизированных систем массового обслуживания Института проблем управления РАН. Главным научным и практическим направлением деятельности лаборатории в настоящее время является применение компьютерного распознавания слитной речи в системах обслуживания населения с возможностью использования русского и других языков [13]. Создана лабораторная система со специальными функциями для поиска характеристик для базового программного обеспечения распознавания речи и для определения влияния различных параметров на распознавание и понимание речи. В качестве базовой платформы распознавания речи используется инструментарий SpeechPearl компании ScanSoft [14] и программное обеспечение по распознаванию речи от Nuance Communication [15]. В результате был создан голосовой интерфейс системы "Сирена", предназначенной для диспетчерской службы такси, а также пакеты распознавания речи к службам системы Web Money [16, с. 304-308].

На кафедре математической теории интеллектуальных систем и лаборатории проблем теоретической кибернетики механико-математического факультета МГУ им. М.В. Ломоносова проводятся исследования различных аспектов распознавания речи: дискретные алгоритмы распознавания речи, распознавание в условиях шума, чтение по губам, грамматики естественных языков, синтез речи. В последние годы была разработана дикторо-зависимая система распознавания речи, позволяющая надёжно распознавать команды диктора в условиях производственных шумов. Для особенностей русского языка разработаны методы учёта контекста в распознавании речи, а также математические подходы к задаче исправления ошибок в текстах на заданную тему [7, с. 185-193].

Группой речевой информатики Санкт-Петербургского института информатики и автоматизации РАН был разработан комплекс методов и программных модулей для обучения акустических моделей фонетических единиц дикторонезависимой системы распознавания русскоязычной речи, а также подготовлен необходимый обучающий ма-териал для моделирования механизмов обучения акустических моделей [9]. Создана система, позволяющая автоматически транскрибировать русскоязычные тексты и изолированные слова, а также базы данных различных типов морфем русского языка. Разработана модель дикторонезависимой системы распознавания слитной русской речи на основе морфемного анализа. За счёт разделения словоформы на морфемы словарь распознаваемых лексических единиц сократился в несколько раз. В результате такой обработки обеспечивается инвариантность к грамматическим отклонениям, а также увеличивается скорость распознавания. Кроме того, данный подход может быть использован не только для распознавания русской речи, но и других языков со сложным механизмом словообразования. В результате апробации разработанных методов создана экспериментальная модель с голосовым доступом для поиска рубрик в электронном каталоге "Жёлтые страницы Санкт-Петербурга". В данной задаче размер словаря составил 1850 слов, а точность распознавания - свыше 90% [17, с. 219-228].

Sakrament ASR Engine [18] - разработка компании «Сакрамент», осуществляющая высокоточное распознавание речи на различных платформах. Технология распознавания речи используется при создании средств речевого управления – программ, управляющих действиями компьютера или другого электронного устройства с помощью голосовых команд, а также при организации телефонных справочных и информационных служб. Программа рассчитана на применение в различных аппаратных системах и программных приложениях, использующих технологии распознавания речи, таких как: IVR-системы, мобильные электронные устройства, бытовая техника и т.д. Sakrament ASR Engine может быть легко перенесена на любую существующую программную или аппаратную платформу, а также настроена под конфигурацию любого приложения.

Технические характеристики  системы распознавания речи Sakrament ASR Engine следующие:

  1. Языки: Не зависимая от языка.
  2. Точность: Точность распознавания достигает 95-98 процентов. Качество распознавания зависит от размера используемых словарей, качества транскрипции, показателя связанности распознаваемых слов, от уровня фонового шума, от параметров используемых каналов связи и характеристик микрофонов.
  3. Размер Словаря: Виртуально неограничен, распознавание в реальном времени с использованием активных словарей. Возможность создания активных словарей по требованию заказчика, обучение системы с помощью синтезатора речи.
  4. Дикторонезависмая: Система распознавания поддерживает дикторонезависимый и дикторозависимый режимы работы.
  5. Поддерживаемые стандарты: MS SAPI 4.1, SAPI 5.1, TAPI 3.0.
  6. Поддерживаемые платформы: Windows 98, ME, NT, 2000, XP, 2003, Vista.

Система распознавания речи Sakrament ASR Engine полностью совместима с синтезатором речи Sakrament TTS Engine и может быть легко в него интегрирована, что значительно расширяет область применения разработок компании “Сакрамент”. Совместное использование технологий позволяет создавать полнофункциональные онлайновые телефонные информационно-справочные службы и Интернет-сервисы.
Краткое описание более менее существенных зарубежных разработок приведено в таблице 1.


Таблица 1 Список зарубежных систем распознавания речи


Система, разработчик

Характеристика

Горыныч, VoiceLock и White Computers, Россия

VoiceCom, Центр речевых технологий, Россия [17]


IstraSoft Voice Commander", ИстраСофт, Россия


Sakrament ASR Engine", Сакрамент, Белоруссия



SpeechPearl", ScanSoft , США

Дикторозависимое распознавание до 10000 слов, уровень распознавания 70%

Дикторозависимое распознавание 100-200 команд (качество распознавания - 98%), дикторонезависимое распознавание 30-50 команд

Дикторозависимое распознавание 45 команд, также поддерживает дикторозависмый режим, на малом словаре уровень распознавания 98%

Дикторозависимый и дикторонезависмый режимы. Качество распознавания 95-98% в зависимости от размера используемых словарей

Поддерживает дикторозависимый режим. Словарь распознавания до 1.5 млн. слов в дикторонезависимом режиме

5.2 Отечественные разработки

Основными разработками в сфере распознавания речи занимается ИПИИ (г.Донецк). Отделом распознавания речевых образов ИПИИ (Донецк) были разработаны программы, которые автоматически распознают до 1000 изолированно произнесённых слов с высокой надёжностью. На их основе разработан ряд прикладных программ, в частности, программа голосового набора математических формул в системе "Equation", программа голосового управления мобильным роботом. В настоящее время отдел занимается проблемой пофонемного распознавания [18, с. 662-669]. Для этого разработаны оригинальные методы сегментации (автоматического разбиения речевого сигнала на участки, отвечающие отдельным фонемам). Кроме того, активно разрабатываются программные средства и библиотеки для автоматического образования русских словоформ, а также морфологического анализа [19, с. 632-642].

6. Краткое изложение собственных результатов

В результате проведенного анализа существующих методов распознавания слитной речи было решено использовать в дальнейших исследованиях по распознаванию слитной речи по фонемные методы распознавания, основанные на сегментации сигнала на отдельные фонемы и последующий анализ сегментированного сигнала рисунок 2.

Отсегментированное слово заголовок

Рисунок 2 Отсегментированное слово заголовок

Полученные метки (рисунок 2) могут быть использованы для дальнейшей работы со слитной речью. На данном этапе программа может распознавать отдельно произносимые слова, но за счет отсегментированного сигнала метод распознавания отдельных слов можно будет применить к слитной речи, анализируя сигнал и разделяя его на отдельные слова. Предполагаемая схема работы программы по распознаванию слитной речи изображена на рисунке 3.

Предполагаемая схема работы программы по распознаванию слитной речи

Рисунок 3 Предполагаемая схема работы программы по распознаванию слитной речи
(анимация, колличество кадров 5, колличество повторений 4, размер 31 Кбайт)

Выводы

На сегодняшний день решение проблемы слитной речи возможно только методом генерации гипотез фраз путем полного перебора составных эталонов/моделей слов, но это приводит к неприемлемому усложнению модели распознавания, поэтому такой метод используется только при очень ограниченном размере словаря. В данной выпускной работе предполагается отказаться от полного перебора гипотез фраз, в пользу по фонемного распознавания.

В ходе проведенного обзора существующих систем распознавания речи можно сделать выводы, что задача распознавания слитной речи является междисциплинарной, поэтому к разработке речевых технологий должны привлекаться специалисты различного профиля (инженеры, математики, филологи, медики, педагоги и др.). В связи с этим назрела необходимость в объединении потенциала исследователей сразу в нескольких областях науки, таких как обработка сигнала, распознавание образов, фонетика, компьютерная лингвистика, что связано с использованием больших финансовых и временных ресурсов.

Список источников

  1. Jelinek F. The Development of an experimental Discrete Dictation Recognizer - In Proceedings of the IEEE, 1985.-vol. 73,no. 11, 1616-1624 стр.
  2. Sakoe H, Chiba S. Recognition of Continuously Spoken Words based on Time-Normalization by Dynamic Programming. - J. Acoust. Soc. Japan, 1971 - 7, 9, 483-49О стр.
  3. Myers C. S., RabinerL. R. A Level Building Dynamic Time Warping Algorithm for Connected Word Recognition. - IEEE Trans. ASSP-29, 1981. - No. 2, 284-297 стр.
  4. Винцюк Т.К. Распознавание слов устной речи методами динамического программирования. Кибернетика, 1968, № 1,с. 81-88.
  5. Центр Речевых Технологий ЦРТ [Электронный ресурс]. – Режим доступа: htpp:// www.speechpro.ru.
  6. Косарев Ю.А. Естественная форма диалога с ЭВМ. Л.: Машиностроение, 1989.
  7. Холоденко А.Б. Использование лексических и синтаксических анализаторов в задачах распознавания для естественных языков // Интеллектуальные системы. Т. 4. Вып. 1-2. 1999.
  8. Соколова Е.Н. Алгоритмы лемматизации для русского языка // Рабочий проект многоязычного автоматического словаря на 60 тыс. словарных статей. Т. 1. Лингвистическое обеспечение. М., 1984.
  9. Карпов А.А., Ронжин АЛ, Ли ИВ. SIRIUS - cистема дикторонезависимого распознавания слитной русской речи // Известия ТРТУ. 2005. № 10.
  10. Oparin I, Talanov A. Stem-Based Approach to Pronun­ciation Vocabulary Construction and Language Model­ing for Russian // Proc. of 10-th International Conference "Speech and Computer" SPEC0M'2005, Patras, Greece.
  11. Институт системного анализа РАН  [Электронный ресурс]. – Режим доступа:  http://www.isa.ru
  12. Чучупал В.Я, Маковкин К.А., Чичагов А.В. К во­просу об оптимальном выборе алфавита моделей звуков русской речи для распознавания речи // Искусственный интеллект. 2002. № 2.
  13. Института проблем управления им. В. А. Трапезникова РАН  [Электронный ресурс]. – Режим доступа: http://www.ipu.ru
  14. Scansoft, Inc. [Электронный ресурс]. – Режим доступа: http://scansoft.com
  15. Scansoft, Inc. [Электронный ресурс]. – Режим доступа: http://nuance.com
  16. Zhozhikashvili V.A., Farkhadov M.P., Petukhova N.V., Zhozhikashvili A.V. The first voice recognition applica­tions in Russian language for use in the interactive infor­mation systems // 9th International Conference SPEC0M'2004/St.-Petersburg: "Anatoliya", 2004.
  17. Karpov A.A., Ronzhin A.L. Speech Interface for Internet Service Yellow Pages // Intelligent Information Proces­sing and Web Mining: Advances in Soft Computing, Proc. of the International IIS: IIPWM'05 Conference, Gdansk, Poland, Springer-Verlag, 2005.
  18. Шелепов ВЮ, Ниценко ВЮ. К проблеме по фонемного распознавания // Искусственный интеллект. 2005. № 4.
  19. Дорохина ГВ, Павлюкова А.П. Модуль морфологического анализа слов русского языка // Искусственный интеллект. 2004. № 3.