Автобиография Реферат Библиотека Ссылки Отчет о поиске Индивидуальное задание  


Деменко Денис Анатольевич

Факультет: Вычислительная техника и информатика

Специальность: Программное обеспечение автоматизированных систем

Тема магистерской диссертации: "Автоматический синтез речевых сигналов для интеллектуализации вывода текстовой информации путем ее озвучивания"

Руководитель: к.т.н. Федяев О.И.


Содержание


Введение

Актуальность работы

Проблемой синтеза речи задавались еще в XII веке, когда были предприняты попытки сделать механическую "говорящую" голову. На сегодняшний день, достижения в этой области достаточно велики. На первый взгляд, может даже показаться, что проблема синтезирования речи уже полностью решена. И действительно: нам очень часто приходится "общаться" с роботами-секретарями, бытовые приборы "обращаются" к нам на разных языках…. Однако, это не так. Ведь "говорящие" машины используют заранее предопределенный набор фраз и не могут сказать ничего, кроме того, что записано в их памяти. "Настоящие" синтезаторы речи разрабатываются еще с 80х годов ХХ века. Существуют как программные, так и аппаратные реализации, однако все они имеют серьезные недостатки и, как правило, представляют собой пародию на человеческую речь - "железный" акцент и отрывистость позволяют только догадываться о смысле текста, да и то, не всегда. Поэтому разработка синтезатора речи, "произношение" которого не возможно было бы отличить от человеческой представляется актуальной задачей.


Степень научной разработанности и нерешенные проблемы

В сфере синтеза речи, на сегодняшний день, существует достаточно много направлений. Вот основные из них:

  • Компиляционный синтез
  • Синтез по правилам
  • Параметрический синтез речи

Каждый из подходов обладает своими достоинствами и недостатками. Наиболее простым представляется компиляционный синтез, который базируется на соединении "кусков" в слитную речь. Несмотря на кажущуюся простоту, метод сложен в реализации, так как в местах склейки слышны разрывы, а применение крупных кусков (слов и словосочетаний вместо слогов) в качестве фонетической базы невозможно в силу системных ограничений. К тому же, передача интонации при таком подходе очень затруднительна. При использовании параметрического синтеза, варьируя характеристики, можно осуществлять моделирование эмоциональной загрузки текста, однако избавиться от металлической окраски речи проблематично. Параметрический синтез является более гибким, в силу параметризации на основе мелких фонетических единиц (аллофонов, дифонов, слогов…). Однако результаты, показываемые этим методом, пока далеки от совершенства во всех отношениях. На основе анализа основных методов, можно сделать выводы о существующих проблемах в области синтезирования речи [4]:

  -  искусственность речи;
  -  отсутствие эмоциональной нагрузки;
  -  низкая помехоустойчивость синтезированной речи.

Проблема искусственности речи заключается в том, что, несмотря на кажущееся качество произношения речевых синтезаторов, такая речь воспринимается человеком с трудом. В основе технологии синтеза речи используется заранее записанная фонетическая база и слова формируются с помощью статистического расчёта по принципу максимального правдоподобия фонетической сочетаемости, а пробелы и недочеты заполняет человеческий мозг. Т.е. Достаточно качественный синтезатор с хорошо подобранной фонетической базой будет прекрасно восприниматься на слух в течение 15 - 20 минут, но потом абсолютное большинство людей перестаёт воспринимать смысл того, что произносится. Происходит это из-за того, что для прослушивания синтезированной речи используются дополнительные центры обработки головного мозга, и мозг просто устает. Таким образом, головной мозг не воспринимает синтезированную речь как естественную, которая сразу обрабатывается в речевом центре. Подобный эффект многие испытывали на себе, изучая иностранный язык. Следующей проблемой является отсутствие эмоциональной нагрузки - личного восприятия произносимого текста читателем. Когда текст читает человек, он поневоле пропускает смысл воспроизводимого через себя, и в интонациях и нюансах чувствуется его отношение к воспроизводимому. Современные программы этого не могут, но самые передовые из них пытаются имитировать интонацию путем модуляции тембра, длительности фонем и пауз. Но это тоже всего лишь подражание, поэтому мозг быстро устает исправлять огрехи воспроизведения, и слушатель теряет нить повествования. Очевидно, для решения этой задачи требуются методы из области теории искусственного интеллекта для "извлечения смысла" из воспроизводимого текста. Поэтому такие синтезаторы должны строиться с учётом результатов междисциплинарных исследований Третья проблема - низкая помехоустойчивость синтезированной речи. Как показали и показывают эксперименты, достаточно лишь небольшого шума, чтобы слушатель перестал воспринимать смысл текста, произносимого синтезатором. Объяснение этому также находится в области нейрофизиологии. Т.к. Для обработки синтезированной речи головной мозг использует дополнительные центры, то при наличии постороннего шума, разговора или необходимости выполнения слушателем какой-то работы, мозг просто не справляется ("перегружается"), и человек перестает понимать смысл произносимого. Эффект помех существенно ограничивает возможности применения синтезатора в реальных условиях техногенных и природных шумов[3].

Цели и задачи

Целью работы является исследование и поиск оптимального алгоритма, синтезирующего человеческую речь и затем его программную реализацию. Для достижения указанной цели в магистерской работе поставлены и решены следующие задачи:

  1. Изучение литературных источников и проведение теоретического анализа алгоритмов синтеза речи.
  2. Установление особенностей функционирования алгоритмов конкатенативного синтеза а также формантного синтеза по правилам.
  3. Формирование некоторого гибридного алгоритма, который бы заключал в себя все достижения современных разработок и минимизировал бы их недостатки.
  4. Формирование фонетической базы на основе специально разработанного ПО, выбор оптимальной фонетической единицы, сравнительный анализ результатов, формулирование выводов.
  5. Сравнительный анализ проделанной работы.
Предмет исследования - гибридный алгоритм синтеза речи на основе конкатенативного синтеза и формантного синтеза по правилам.
Объект исследования - методы синтеза речи.
Способы исследования включают проведение вычислительных экспериментов, сравнительный анализ результатов, сравнение результатов с аналогами на рынке, объектно-ориентированное программирование.

Предполагаемая научная новизна

Научная новизна уже проведенных и планируемых в работе исследований предполагается в следующем:

  • На стадии разработки программное обеспечение, позволяющее проводить выделение фонем из слитной речи и последующий их анализ.
  • Выявление лингвистических особенностей русского языка.
  • Нахождение новых способов эмоциональной закраски речи.
  • Формирование новых модификаций гибридного алгоритма синтеза.

Описание результатов работы

На текущем этапе ведется разработка вспомогательного ПО, при помощи которого будет осуществлено формирование фонетической базы, анализ характеристик выходного сигнала и экспериментирование над реалистичностью результирующей звуковой волны. Основная работа запланирована на 11 семестр, когда будет розрабатываться непосредственно синтезатор.


Приблизительная схема разрабатываемого синтезатора речи
Анимация из 5 кадров. Длина кадров 0.8(с). Размер файла 60 кб


Заключение

На основе проведенных исследований и экспериментов можно сделать некоторые выводы. Самые перспективные решения в области синтеза речи сегодня базируются на статистических моделях, параметры которых просчитываются по аннотированной тексто-фонетической базе данных. Идеальным вариантом для учета многофакторной природы этого просодического феномена, является такая база данных, которая содержит информацию, статистически значимую по объему, а список учитываемых параметров по возможности расширен и включает все значимые факторы (смысловой, синтаксический, фонетический, пунктуационный). Как основа дальнейшей разработки, был выбран подход, основанный на сочетании методов компилятивного синтеза и формантного синтеза по правилам, который будет положен в основу построения системы синтеза речи по тексту с контекстно-зависимой грамматикой как части канала голосового управления.

ЛИТЕРАТУРА
  1. Dutoit t., Аn introduction to text-to-speech synthesis. - Boston-London, 1997. - 269 p.
  2. Галунов В.И., Помехоустойчивость как системообразующий фактор речи. Проблемы и методы экспериментально-фонетических исследований. - СПБ, 2002. - 327 с.
  3. D.Kraft, Speech perception. J.Phonetics, 1979. , p.279-312.
  4. P.K.Kuhl, P.Inverson Linguistic experience and the "perceptual magnet effect". In W.Strange (Ed). Speech perception and linguistic experience, 1995. p. 121-154.
  5. G.A.Fowler, An event approach in the study of speech perception from direct-realist perception. J.Phonetics, 1986. , p. 3-28.
  6. K.N.Stevens, On the quantal theory of speech. J.Phonetics, 1989, p. 3-15.
  7. Д.В.Разумихин, Использование нейронных сетей на уровне семантики в системе распознавания речи. IV всероссийская конференция "Нейрокомпьютеры и их применение, с. 208-210.
  8. Д.Разумихин, А.Соловьев, Системы автоматического распознавания речи с различными моделями организации диалога. XIII сессия российского акустического общества, т.3, с. 141-144.
ДонНТУ <> Портал магистров ДонНТУ

Автобиография Реферат Библиотека Ссылки Отчет о поиске Индивидуальное задание