Разработка программного обеспечения для синтеза русской речи

Авторы: Крамаренко А.В., Жук А.В.
Источник: Сучасна інформаційна Україна: інформатика, економіка, філософія / Матерiали V мiжнародної науково-технiчної конференцiї молодих учених, аспiрантiв, студентів. — Донецьк, ДУІіШІ — 2011, Том 1, с. 57–61.

Синтез речи — искусственное восстановление сигналов путем преобразования принимаемой закодированной информации в звуковую, имитирующую человеческую речь. Синтез речи используется в системах многоканальной связи, читающих машинах для слепых, в управлении автоматическими устройствами, для осуществления связи "человек — ЭВМ" и т.п. [1].

Сегодня технология синтеза речи уже практически готова для коммерческого применения, разработано множество библиотек, которыми могут пользоваться сторонние разработчики систем [2].

Все способы синтеза речи можно подразделить на три группы: параметрический синтез, компиляционный синтез и синтез по правилам [3].

Параметрический синтез речи является конечной операцией в вокодерных системах, где речевой сигнал представляется набором небольшого числа непрерывно изменяющихся параметров.

Компиляционный синтез сводится к составлению сообщения из предварительно записанного словаря исходных элементов синтеза. Размер элементов синтеза не меньше слова.

Полный синтез речи по правилам обеспечивает управление всеми параметрами речевого сигнала и, таким образом, может генерировать речь по заранее неизвестному тексту. В этом случае параметры, полученные при анализе речевого сигнала, сохраняются в памяти так же, как и правила соединения звуков в слова и фразы.

Однако всем методам присущ ряд проблем [4].

Искусственность речи. Заключается в том, что, несмотря на кажущееся качество произношения текста речевыми синтезаторами, такая речь тяжела для восприятия и понимание человеком.
Отсутствие эмоциональной нагрузки, то есть личного восприятия произносимого текста читателем.
Низкая помехоустойчивость синтезированной речи. Как показывают эксперименты, достаточно наличие лишь слабого источника шума, чтобы слушатель перестал воспринимать смысл текста, воспроизводимого речевым синтезатором.

Целью данной работы является разработка программного обеспечения для синтеза русской речи. Методом реализации был выбран полный синтез по правилам, поскольку он в теории позволяет достичь наибольшего качества синтезированной речи.

Схематически процесс синтеза изображен на рисунке 1. Цельными блоками отмечены готовые части синтезатора, пунктирными — реализуемые в следующих работах.

В разрабатываемом программном обеспечение вводимый текст сначала подвергается анализу при котором символы и сокращения преобразуются в обычные слова. После чего слова транскрибируются с помощью транскриптора по правилам произношения русского языка. Полученные транскрипции слов разбиваются на единицы имеющегося словаря звукосочетаний. Основной единицей словаря являются звукосочетания типа шумная согласная — гласная, шумная согласная — сонорная согласная, сонорная согласная — гласная. Используемая классификация звуков соответствует фонетике русского языка [5]. Звукосочетания вместо отдельных звуков используются из-за переходных процессов, возникающих в

Рисунок 1 — Схема процесса синтеза звука

голосовом тракте человека при переходе от одного звука к другому. Эти процессы довольно трудно формализуемые, однако использование звукосочетаний позволяет достаточно просто решить эту проблему. Выбор набора звукосочетаний обусловлен тем, что при произнесении гласных и сонорных согласных человеком получаются звуки с определенным периодом основного тона. Это позволяет продлевать участки таких звуков при синтезе на необходимое время при условии использования специальной обработки области слияния звуков этих категорий. Полученные из словаря звукосочетания склеиваются в единую синтезируемую речь и сглаживается к монотонному сигналу. На полученной звуковой дорожке расставляются ударения на слова и накладывается интонационный контур.

В текущей реализации описанного подхода были обнаружены следующие проблемы:

эффекты заикания на стыках звуков с не ярко выраженной периодической структурой;
неправильная расстановка ударений в словах;
отсутствие интонации в предложениях;
сложность составления словаря из мелких звукосочетаний.

В будущем проблема заикания будет решена с помощью распознавания границ между звуками в звукосочетании и приведением длины согласного звука к допустимой.

Для решения проблем с интонацией планируется изменять частоту основного тона в соответствии с мелодическим контуром, соответствующим интонационной конструкции, связанной с предложением.

Что касается проблемы составления словаря звукосочетаний, она будет решена с помощью процедуры автоматического сегментирования звукового сигнала с использованием априорно заданного значения соответствующего ему слова.

Выводы: в рамках работы была спроектирована структурная схема синтезатора русской речи, часть блоков которой реализованы программно. Дальнейшее исследование позволило выявить ряд проблем, понижающих качество получаемого результата синтеза. Реализация всех предусмотренных элементов синтезатора позволит устранить найденные проблемы.

Используемые источники:

Электронный ресурс: http://dic.academic.ru/dic.nsf/polytechnic/8440/СИНТЕЗ
Электронный ресурс: http://www.asterisk.by/node/222
Электронный ресурс: http://ru.wikipedia.org/wiki/Синтез_речи
Науковий вісник Чернівецького університету. 2008. Випуск 423. Фізика.Електроніка c. 139–141.
С.В. Кодзасов, О.Ф. Кривнова. Общая фонетика. Российский государственный гуманитарный университет. — М. — 2001