Синтез по печатному тексту с произвольным диктором средним голосом
Автор: Masatsune Tamura, Takashi Masuko, Keiichi Tokuda, Takao Kobayashi
Источник: Text-to-speech synthesis with arbitrary speaker’s voice from average voice. 2001
Назад в библиотеку
Синтез по печатному тексту с произвольным диктором средним голосомАвтор: Masatsune Tamura, Takashi Masuko, Keiichi Tokuda, Takao Kobayashi АннотацияДанная статья описывает метод синтеза речи с любым голосом. Метод основан на скрытой марковской модели (СММ) системы синтеза по печатному тексту и адаптированном алгоритме линейной регрессии максимальной правдоподобности (ЛРМП). Для формирования речи под произвольно заданного диктора, используются дикторонезависимые единицы речи, то есть, средняя модель голоса приспособленная к заданному диктору с использованием ЛРМП системы. В дополнение к спектру и адаптации тона мы получаем алгоритм для адаптации длительности состояний. Мы покажем, что несколько фраз произнесенных заданным диктором достаточно чтобы адаптироваться не только по характеристикам голоса, но и по просодическим признакам. Синтезированная речь полученная адаптационной моделью, используя только четыре предложения, очень близка к дикторозависимой модели, обучаемой на большом количестве речевых данных. 1. ВведениеРеализация синтезатора по печатному тексту, который может говорить любым голосом, является одним из наиболее важным вопросом области исследования систем человеко-компьютерного взаимодействия. Для этой цели были опубликованы различные методики преобразования голоса [1]-[5]. Однако, большинство этих методик рассматривают спектральное преобразование и меньше внимания уделяют просодическим преобразующим функциям. Например, только средний тон учитывается когда тон изменяется в соответствии просодических особенностей целевого диктора. Мы предложили подход который позволяет системе синтеза по печатному тексту изменять не только спектральные характеристики голоса, но также и просодические элементы. В подходе, в СММ системе синтеза используется голосовые характеристики искусственной речи, изменяющиеся трансформированием параметров СММ речевых единиц в адаптированной ЛРМП системе. Хотя мы сказали, что такой подход может синтезировать речь, которая напоминает голос диктора в обеих спектральных и просодических особенностях, адаптация длительности состояний не была реализована и осталась как будующая разработка. В это статье мы представляем адаптационную технику продолжительности состояния для СММ системы синтеза по печатному тексту. В СММ системе синтеза спектр, тон и состояние продолжительности моделируются в рамках единой системы СММ [8]. В частности спектр и тон звука моделируются непрерывным распределением вероятностей СММ и мульти-пространством распределения СММ, соответственно, и состояние продолжительности моделируется многомерным распределением Гауса. Мы получим ЛРМП алгоритм, который может быть применен к адаптации продолжительности состояния. В результате, все адаптационные процедуры спектральных и просодических особенностей включая тон звука и продолжительность сделаны в рамках ЛРМП системы, используя предложенную методику вместе с предыдущей работой над [6] и [7]. Для формирования речи для произвольно заданного диктора мы делаем дикторонезависимые речевые еденицы, то есть средняя голосовая модель, в этапе обучения, адаптируется под заданного диктора с помощью предложенной методики. 2. СММ система синтеза речиБлок-схема СММ системы синтеза речи показана на рисунке 1. Система состоит из трех этапов: этап обучения, адаптационный этап, и этап синтеза. Рисунок 1 — Блок-схема СММ основанной системы синтеза речи На стадии обучения мел-кепстральные коэффициенты и частота основного тона извлекают кадр для анализа, как статистические особенности из нескольких много дикторных баз речи. Затем, динамические характеристики, то есть дельта и дельта-дельта параметры рассчитываются на основе статистических особенностей. Спектральные параметры и наблюдаемый тон звука объединяются в один кадр вектора наблюдения за кадрами и дикторонезависимых фонем СММ, которые мы называем средним голосом СММ, обучающимся с помощью наблюдаемых векторов. Для моделирования изменения спектра, тона звука и длительности фонетических и лингвистических ситуативных факторов, таких как фонемные факторы идентичности и факторов связанных со стрессом, также учитываются [8]. Спектр и высота звука моделируются много поточным СММ и выходные распределения для спектральных и высоты звука непрерывными распределениями вероятностей и мульти пространственным распределением (MSD) [9] соответственно. Затем деревья решений контекстной техники кластеризации [10] [11] применяются отдельно на спектральных и тональных частях от зависимого контекста фонемы СММ. Наконец, длительности состояния моделируются многомерными Гаусовскими распределениями и состоянием кластерного метода, который также применяется к продолжительности распределений [12]. Список литературы
|