Обзор существующих методов синтеза речи по печатному тексту (TTS)

Автор: Тягунов Д.В.
Источник: Тягунов Д. В. Обзор существующих методов синтеза речи по печатному тексту / Тягунов Д.В. // Научный вестник Черновицкого университета. Физика. Электроника. — 2008. — Выпуск 423. — С. 138–142.

Аннотация

Качественный синтез языка по тексту является актуальной задачей современности. В статье рассмотрено области применения языкового синтеза, ограничения, которые налагаются на синтез языка, а также приведен обзор существующих методов синтеза, их преимуществ и недостатков. Сделан вывод о возможном способе реализации системы синтеза языка, который не отличается от человеческого.

Qualitative Text-to-Speech synthesis on the text is urgent task of our time. The article deals with the scope of speech synthesis, restrictions on it and an overview of existing speech synthesis methods, their advantages and disadvantages. The conclusion was made on possible way of implementation of Text-to-Speech synthesis system with the quality of synthesized speech is not distinct from human.

Введение

С развитием уровня техники растут и требования возлагаемые на нее. Все большие возможности существующих компьютерных технологий порождают все большие потребности конечных пользователей, а именно увеличивают требования к самой технике, к быстродействию и функциональности, которая является важнейшим из требований к современным системам.

Разрабатываемые на сегодняшний день системы способны не только выполнять различные операции по вычислению и обработке информации, но и производить ее распознавание и восстановление по исходным (начальным) данным. В последнее время такие системы пользуются огромным интересом не только в научной, но и в практических областях деятельности людей. Одной из актуальных задач данных систем является синтез речи.

Синтезом речи называется процесс восстановления формы речевого сигнала по его параметрам.

Основными средствами воспроизведения динамически меняющейся текстовой информации в голосовых приложениях являются:

CDS (Common Data Speaker) — использование голоса (как правило, профессионального диктора). Диктор записывает определенный набор слов, из которых справочная автоматически формирует предложения. Это своеобразная библиотека предварительно записанных звуковых фрагментов, используемая при озвучивании динамической информации: даты, времени, валюты и другой быстроменяющейся информации. При этом обычно звуковые фрагменты записываются в контексте фраз, где они будут использоваться, что обеспечивает интонационную согласованность и естественность звучания составной фразы.

TTS (Text-To-Speech) — использование синтетического голоса робота, который анализирует текст, а затем озвучивает его. Как правило, эта технология применяется для озвучивания динамически изменяемой информации, такой как состояние лицевого счета, текущее время или курс валюты. Современные достижения в области синтеза речи позволяют существенно сэкономить на процессе разработки голосового приложения и звукозаписи при обеспечении достаточно высокого качества синтезируемой речи.

Синтез речи по тексту может быть использован в технике связи, в информационносправочных системах, для помощи людям с нарушениями опорно-двигательного или зрительного аппаратов, выдачи информации о технологических процессах, в военной и космической технике, в робототехнике. В перспективе разработка высококачественных систем синтеза речи по тексту является необходимым шагом в направлении более тесного общения человека с компьютером. В целом речевой синтез может потребоваться во всех случаях, когда получателем информации является человек.

На рис. 1 представлен общий вид синтезатора речи по тексту. Он состоит из модуля естественно-языковой обработки (NLP, Natural Language Processing), который предназначен для получения фонетической транскрипции текста, определения интонации и темпа речи, а также модуля цифровой обработки сигнала (DSP, Digital Signal Processing), который преобразует полученную символьную информацию непосредственно в речь [1].

Рис. 1. Общий вид синтезатора речи по тексту

Ограничения на синтез речи

Cуществуют различные методы синтеза речи. Выбор того или иного определяется различными ограничениями. Можно выделить 4 вида ограничений, которые влияют на выбор того или иного метода речевого синтеза.

Задача

Возможности синтезированной речи зависят от области назначения ее применения. Когда необходимо произносить ограниченное число фраз (и их произнесение не меняется линейно), необходимый речевой материал просто записывается на носитель информации.

Голосовой аппарат человека

Все системы синтеза речи должны генерировать на выходе речевую волну, которая не явлется произвольным сигналом. Чтобы получить речевую волну определенного качества, сигнал должен пройти путь от источника в речевом тракте, который возбуждает артикуляторные органы, действующие как изменяющиеся во времени фильтры.

Артикуляторные органы также накладывают ограничения на скорость изменения сигнала. Они выполняют функцию сглаживания: гладкого сцепления отдельных базовых фонетических единиц в сложный речевой поток.

Структура языка

Ряд возможных звуковых сочетаний определяется природой той или иной языковой структуры. Было обнаружено, что единицы и структуры, используемые лингвистами для описания и объяснения языка, могут также использоваться для характеристики и построения речевой волны. Таким образом, при построении выходной речевой волны используются основные фонологические законы, правила ударения, морфологические и синтаксические структуры, фонотактические ограничения.

Технология

С приходом интегральных сетевых технологий с постоянно возрастающими возможностями стало возможно построение мощных, компактных, недорогих устройств, действующих в реальном времени. Этот факт, вместе с основательными знаниями алгоритмов синтеза речи, стимулировал дальнейшее развитие систем синтеза речи и переход их в практическую жизнь, где они находят широкое применение.

Методы синтеза речи по тексту

Речевые синтезаторы принято делить на два типа: с ограниченной и неограниченной словарной базой. В синтезаторах с ограниченным словарем речь хранится в виде отдельных слов или предложений, которые выводятся в определенной последовательности в процессе синтеза речевого сообщения. Речевая база в системах такого типа произносится диктором заранее, а затем преобразуется в цифровую форму с использованием различных методов кодирования, для уменьшения необходимого объема для ее хранения на носителе.

На сегодняшний день в сфере синтеза речи можно выделить три основные группы методов [3], [4]:

Параметрический синтез;
Конкатенативный, или компиляционный синтез;
Синтез речи по правилам.

Каждый из подходов характеризуется наличием ряда достоинств и недостатков.

Параметрический синтез

Параметрический синтез речи является итоговой операцией в вокодерных (вокодер — устройство синтеза речи на основе произвольного сигнала с богатым спектром) системах, где речевой сигнал представлен набором непрерывно изменяющихся во времени параметров. Данный метод речевого синтеза целесообразно использовать в случаях, когда набор текстовых сообщений ограничен и редко подвержен изменению. К достоинствам данного метода относится возможность записать речь для любого языка и любого диктора. В зависимости от степени сжатия информации в параметрическом представлении качество синтезируемой речи может достигать очень высокого уровня.

Недостатком такого подхода является невозможность применять параметрический синтез для заранее не заданных сообщений.

Компиляционный синтез

Компиляционный синтез сводится к составлению сообщения из предварительно записанного словаря исходных элементов синтеза. Очевидно, что содержание синтезируемых сообщений фиксируется объёмом словаря. Как правило, число единиц словаря не превышает нескольких сотен слов.

Основная проблема в компилятивном синтезе — объёмы памяти для хранения словарной базы. Для решения этой проблемы используются разнообразные методы сжатия/кодирования речевого сигнала.

Компилятивный синтез имеет широкое практическое применение. За рубежом разнообразные устройства (от военных самолётов до бытовых устройств) оснащаются системами речевого ответа.

Синтез речи по правилам

Полный синтез речи по правилам (или синтез по печатному тексту) обеспечивает управление всеми параметрами речевого сигнала и, таким образом, может генерировать речь по заранее неизвестному тексту. В этом случае параметры, полученные при анализе речевого сигнала, сохраняются в памяти так же, как и правила соединения звуков в слова и фразы. Синтез реализуется путем моделирования речевого тракта, применения аналоговой или цифровой техники. Причём в процессе синтезирования значения параметров и правила соединения фонем вводят последовательно через определённый временной интервал, например 5-10 мс. Метод синтеза речи по печатному тексту (синтез по правилам) базируется на запрограммированном знании акустических и лингвистических ограничений и не использует непосредственно элементов человеческой речи. В системах, основанных на этом способе синтеза, выделяется два подхода. Первый подход направлен на построение модели речепроизводящей системы человека, он известен под названием артикуляторного синтеза. Второй подход — форматный синтез по правилам. Разборчивость и натуральность таких синтезаторов может быть доведена до величин, сравнимых с характеристиками естественной речи.

Синтез речи по правилам с использованием предварительно запомненных отрезков естест венного языка — это разновидность синтеза речи по правилам, которая получила распространение в связи с появлением возможностей манипулирования речевым сигналом в оцифрованной форме. В зависимости от размера исходных элементов синтеза выделяются следующие виды синтеза:

микросегментный (микроволновый);
аллофонический;
дифонный;
полуслоговый;
слоговый;
синтез из различных единиц произвольного размера.

Обычно в качестве таких элементов используются полуслоги — сегменты, содержащие половину согласного и половину примыкающего к нему гласного. При этом можно синтезировать речь по заранее не заданному тексту, но трудно управлять интонационными характеристиками.

Качество такого синтеза не соответствует качеству естественной речи, поскольку на границах сшивки дифонов часто возникают искажения.

Компиляция речи из заранее записанных словоформ также не решает проблемы высококачественного синтеза произвольных сообщений, поскольку акустические и просодические (длительность и интонация) характеристики слов изменяются в зависимости от типа фразы и места слова во фразе. Это положение не меняется даже при использовании больших объемов памяти для хранения словоформ.

Проблемы синтеза речи

На основе анализа существующих методов, можно сделать вывод о наличии проблем в области синтеза речи [5]:

Искусственность речи;
Отсутствие эмоциональной нагрузки;
Низкая помехоустойчивость синтезированной речи.

Проблема искусственности речи заключается в том, что, несмотря на кажущееся качество произношения текста речевыми синтезаторами, такая речь тяжела для восприятия и понимание человеком. В основу технологии речевого синтеза положено использование заранее записанной фонетической базы и слова формируются с помощью статистического расчёта по принципу максимального правдоподобия фонетической сочетаемости, а пробелы и недочеты фильтруются человеческим мозгом. То есть качественный синтезатор с хорошо подобранной фонетической базой может восприниматься на слух в течение 10-15 минут, после чего синтезируемая речь перестает быть понятной. Это связано с тем, что для прослушивания синтезируемой речи человек использует дополнительные центры обработки головного мозга, и мозг просто устает. Таким образом, головной мозг не воспринимает синтезированную речь как естественную, которая сразу обрабатывается в речевом центре. Подобный эффект сравним с изучением иностранного языка.

Второй проблемой в области синтеза речи является отсутствие эмоциональной нагрузки, то есть личного восприятия произносимого текста читателем. При чтении текста человеком, он, поневоле, пропускает смысл воспроизводимого через себя, и в интонациях и нюансах чувствуется его отношение к прочитанному. Современные программы этого не могут, однако самые передовые из них пытаются имитировать интонацию путем модуляции тембра, длительности фонем и пауз. Но данная реализация является лишь подражанием, в связи с чем мозг быстро устает исправлять огрехи воспроизведения, и слушатель теряет нить повествования.

Очевидно, что для решения этой задачи требуются методы из области теории искусственного интеллекта для извлечения смысла из воспроизводимого текста. Поэтому синтезаторы, учитывающие смысл воспроизводимого текста должны строиться с учётом результатов междисциплинарных исследований.

Третья проблема — низкая помехоустойчивость синтезированной речи. Как показали и показывают эксперименты, достаточно наличие лишь слабого источника шума, чтобы слушатель перестал воспринимать смысл текста, воспроизводимого речевым синтезатором. Объяснение этому также находится в области нейрофизиологии. Так как для обработки синтезированной речи головной мозг использует дополнительные центры, то при наличии постороннего шума, разговора или необходимости выполнения слушателем какой-то работы, мозг просто не справляется, и человек перестает понимать смысл произносимого. Эффект помех существенно ограничивает возможности применения синтезатора в реальных условиях техногенных и природных шумов [6].

Выводы

Подводя итог можно сказать, что разработка синтезатора речи по печатному тексту, способного воспроизводить речь не отличимую от человеческой является актуальной задачей.

Одним из вариантов ее решения может стать создание некоего гибридного алгоритма речевого синтеза, учитывающего все достоинства и минимизирующего недостатки каждого из описанных методов.

Список литературы

Thierry Dutoit, A Short Introduction to Text-to-Speech Synthesis, 1999
Сорокин В. Н. Синтез речи. – М.: Наука, 1992. – 392 с.
G.A. Fowler. An event approach in the study of speech perception from direct-realist perception. J.Phonetics, 1986.
K.N. Stevens, On the quantal theory of speech. J.Phonetics, 1989.
P.K.Kuhl, P.Inverson, Linguistic experience and the "perceptual magnet effect". In W.Strange (Ed). Speech perception and linguistic experience, 1995. – P. 121-154.
D.Kraft. Speech perception. J.Phonetics, 1979. – P.279-312.