Требования по качеству речевого сигнала к системе синтеза речи определяются как более простыми задачами, например, магнитофон или вокодер, так и сложными задачами, например, речевой диалог. Эти требования возникают из-за различий используемой информации при работе систем.
При реализации магнитофона или вокодера используется в основном информация только по составу речевого сигнала. Наиболее важным качеством в данном случае является сохранение разборчивости и естественности звучания записанного голоса. В системе речевого диалога необходимы сведения не только по составу сигнала, но и по модели языка. Компоненты базы знаний модели языка должны удовлетворять условиям, предъявляемым диалогом. Таким образом, система синтеза речи должна удовлетворять требованиям разборчивости и естественности звучания, построенным по модели языка.
Построение системы синтеза речи по печатному тексту может быть ограничено тремя уровнями описания: фонетики, синтаксиса и семантики. Проведенные исследования показали о необходимости использования многоуровневой иерархической модели представления печатного текста, речевого сигнала и самой системы преобразования. Особую сложность представляют собой преобразования информации, выраженных в различных шкалах.
Для формирования баз знаний системы синтеза речи вся информация разбивается на 2 вида: таблицы и правила. В таблицах приводятся сведения, носящих базовый характер, такие как: номера ударных слогов в словах, транскрибирование слов-исключений, приблизительные длительности звуков, типовые интонационные контуры, форманты звуков и другие. Таблицы устанавливают только однозначное соответствие входной и выходной информации, а правила формируют по входной информации некоторые функции расчета выходной. Правила в большей степени описывают сведения по информационной структуре языка.
На основании полученных практических результатов можно дать рекомендации по организации баз знаний:
Любая речевая система должна быть предварительно рассмотрена для выявления наиболее информативных блоков, влияющих на результат. По результатам анализа должны быть созданы критерии, разграничивающие информацию по уровням значимости.
Всю информацию, необходимую для преобразования целесообразно разделить на базовые сведения таблицы и правила, в соответствии с которыми производится преобразование.
Для информации, однозначно определяемой элементом входной информации целесообразно использовать таблицы, в соответствии с которыми по требуемому объекту определяется его признак. Размер таблицы ограничивается требуемым качеством и допустимым количеством объектов.
Общие параметры речевого сигнала должны основываться на параметрах речеобразующей системы человека. Эти параметры могут быть заданы как в виде критериев ограничения, так непосредственно в таблицах и правилах.
Базы знаний, построенные по приведенным принципам, реализованы в системе синтеза просодических характеристик по печатному тексту. Экспериментальные данные показали, что рекомендации отражают свойство информационной структуры языка и могут быть непосредственно реализованы в системах синтеза речи.