Назад в библиотеку

Синтез по печатному тексту с произвольным диктором средним голосом

Автор: Masatsune Tamura, Takashi Masuko, Keiichi Tokuda, Takao Kobayashi
Источник: Text-to-speech synthesis with arbitrary speaker’s voice from average voice. 2001

Аннотация

Данная статья описывает метод синтеза речи с любым голосом. Метод основан на скрытой марковской модели (СММ) системы синтеза по печатному тексту и адаптированном алгоритме линейной регрессии максимальной правдоподобности (ЛРМП). Для формирования речи под произвольно заданного диктора, используются дикторонезависимые единицы речи, то есть, средняя модель голоса приспособленная к заданному диктору с использованием ЛРМП системы. В дополнение к спектру и адаптации тона мы получаем алгоритм для адаптации длительности состояний. Мы покажем, что несколько фраз произнесенных заданным диктором достаточно чтобы адаптироваться не только по характеристикам голоса, но и по просодическим признакам. Синтезированная речь полученная адаптационной моделью, используя только четыре предложения, очень близка к дикторозависимой модели, обучаемой на большом количестве речевых данных.

1. Введение

Реализация синтезатора по печатному тексту, который может говорить любым голосом, является одним из наиболее важным вопросом области исследования систем человеко-компьютерного взаимодействия. Для этой цели были опубликованы различные методики преобразования голоса [1]-[5]. ­Однако, большинство этих методик рассматривают спектральное преобразование и меньше внимания уделяют просодическим преобразующим функциям. Например, только средний тон учитывается когда тон изменяется в соответствии просодических особенностей целевого диктора.

Мы предложили подход который позволяет системе синтеза по печатному тексту изменять не только спектральные характеристики голоса, но также и просодические элементы. В подходе, в СММ системе синтеза используется голосовые характеристики искусственной речи, изменяющиеся трансформированием параметров СММ речевых единиц в адаптированной ЛРМП системе. Хотя мы сказали, что такой подход может синтезировать речь, которая напоминает голос диктора в обеих спектральных и просодических особенностях, адаптация длительности состояний не была реализована и осталась как будующая разработка.

В это статье мы представляем адаптационную технику продолжительности состояния для СММ системы синтеза по печатному тексту. В СММ системе синтеза спектр, тон и состояние продолжительности моделируются в рамках единой системы СММ [8]. В частности спектр и тон звука моделируются непрерывным распределением вероятностей СММ и мульти-пространством распределения СММ, соответственно, и состояние продолжительности моделируется многомерным распределением Гауса. Мы получим ЛРМП алгоритм, который может быть применен к адаптации продолжительности состояния. В результате, все адаптационные процедуры спектральных и просодических особенностей включая тон звука и продолжительность сделаны в рамках ЛРМП системы, используя предложенную методику вместе с предыдущей работой над [6] и [7]. Для формирования речи для произвольно заданного диктора мы делаем дикторонезависимые речевые еденицы, то есть средняя голосовая модель, в этапе обучения, адаптируется под заданного диктора с помощью предложенной методики.

2. СММ система синтеза речи

Блок-схема СММ системы синтеза речи показана на рисунке 1. Система состоит из трех этапов: этап обучения, адаптационный этап, и этап синтеза.



Рисунок 1 — Блок-схема СММ основанной системы синтеза речи

На стадии обучения мел-кепстральные коэффициенты и частота основного тона извлекают кадр для анализа, как статистические особенности из нескольких много дикторных баз речи. Затем, динамические характеристики, то есть дельта и дельта-дельта параметры рассчитываются на основе статистических особенностей. Спектральные параметры и наблюдаемый тон звука объединяются в один кадр вектора наблюдения за кадрами и дикторонезависимых фонем СММ, которые мы называем средним голосом СММ, обучающимся с помощью наблюдаемых векторов. Для моделирования изменения спектра, тона звука и длительности фонетических и лингвистических ситуативных факторов, таких как фонемные факторы идентичности и факторов связанных со стрессом, также учитываются [8]. Спектр и высота звука моделируются много поточным СММ и выходные распределения для спектральных и высоты звука непрерывными распределениями вероятностей и мульти пространственным распределением (MSD) [9] соответственно. Затем деревья решений контекстной техники кластеризации [10] [11] применяются отдельно на спектральных и тональных частях от зависимого контекста фонемы СММ. Наконец, длительности состояния моделируются многомерными Гаусовскими распределениями и состоянием кластерного метода, который также применяется к продолжительности распределений [12].

Список литературы

  1. M. Hashimoto and N. Higuchi, “Training data selection for voice conversion using speaker selection and vector field smoothing,” in Proc. ICSLP–96, Oct. 1996, pp. 1397–1400.
  2. T. Masuko, K. Tokuda, T. Kobayashi, and S. Imai, “Voice characteristics conversion for HMM-based speech synthesis system,” in Proc. ICASSP-97, Apr. 1997, pp. 1611–1614.
  3. Y. Stylianou, O. Capp, and E. Moulines, “Continuouse probabilistic transform for voice conversion,” IEEE Trans. on Speech and Audio Processing, vol. 6, no. 2, pp. 131–142, Mar. 1998.
  4. A. Kain and M.W. Macon, “Spectral voice conversion for text-to-speech synthesis,” in Proc. ICASSP-98, May 1998, pp. 285–288.
  5. T. Toda, J. Lu, H. Saruwatari, and K. Shikano, “Straight-based voice conversion algorithm based on gaussian mixture model,” in Proc. ICSLP-2000, Oct. 2000, vol. 3, pp. 279–282.
  6. M. Tamura, T. Masuko, K. Tokuda, and T. Kobayashi, “Speaker adaptation for HMM-based speech synthesis system using MLLR,” in The Third ESCA/COCOSDA Workshop on Speech Synthesis, Nov. 1998, pp. 273–276.
  7. M. Tamura, T. Masuko, K. Tokuda, and T. Kobayashi, “Adaptation of pitch and spectrum for HMM-based speech synthesis using MLLR,” in Proc. ICASSP-2001, May 2001.
  8. T. Yoshimura, K. Tokuda, T. Masuko, T. Kobayashi, and T. Kitamura, “Simultaneous modeling of spectrum, pitch and duration in HMM-based speech synthesis,” in Proc. EUROSPEECH–99, Sept. 1999, pp. 2374–2350.
  9. K. Tokuda, T. Masuko, N. Miyazaki, and T. Kobayashi, “Hidden markov models based on multi-space probability distribution for pitch pattern modeling,” in Proc. ICASSP–99, Mar. 1999, pp. 229–232.
  10. S. J. Young, J. Odell, and P. Woodland, “Tree-based state tying for high accuracy acoustic modeling,” in Proc. ARPA Human Language Technology Workshop, Mar. 1994, pp. 307–312.
  11. K. Shinoda and T. Watanabe, “Acoustic modeling based on the MDL criterion for speech recognition,” in Proc. EUROSPEECH-97, Sept. 1997, pp. 99–102.
  12. T. Yoshimura, K. Tokuda, T. Masuko, T. Kobayashi, and T. Kitamura, “Duration modeling for HMM-based speech synthesis,” in Proc. ICSLP-98, Dec. 1998, pp. 29–32.