Деменко ДА - Анализ методов и средств автоматического синтеза речи

Статья сдана на третьей международной научно-технической конференции молодых ученых и студентов. - Донецк, ДонНТУ 2007

Анализ методов и средств автоматического синтеза речи
Деменко Д. А., Федяев О.И.
Донецкий национальный технический университет

Интеллектуализация человеко-машинного интерфейса предполагает использование системы автоматического синтеза речевых сообщений. В настоящее время разработан целый ряд методов синтеза речи. Выбор того или иного метода определяется различными факторами. Существуют четыре основных вида факторов, от которых зависит выбор метода синтеза[2].

Область применения. Если необходимо произносить ограниченное число фраз, а их произнесение линейно не меняется, то необходимый речевой материал просто записывается на цифровой носитель. С другой стороны, если задача состоит в стимулировании познавательного процесса при чтении вслух, используется совершенно другой ряд методик.
Голосовой аппарат человека. Все системы синтеза речи должны производить на выходе определённую речевую волну, но это не произвольный сигнал. Чтобы получить речевую волну заданного качества, сигнал должен пройти путь от источника в речевом тракте, возбуждающего действие артикуляторных органов, которые функционируют как изменяющиеся во времени фильтры. Артикуляторные органы также накладывают ограничения на скорость изменения сигнала. Они также имеют функцию сглаживания: гладкого сцепления отдельных базовых фонетических единиц в сложный речевой поток.
Структура языка. Ряд возможных звуковых сочетаний определяется природой той или иной языковой структуры. Было обнаружено, что единицы и структуры, используемые лингвистами для описания и объяснения языка, могут также использоваться для характеристики и построения речевой волны. Таким образом, при построении выходной речевой волны используются основные фонологические законы, правила ударения, морфологические и синтаксические структуры.
Технология. Возможности успешно моделировать и создавать устройства для синтеза речи существенно зависят от состояния научно-технических разработок в этой области. Из обзора современных публикаций следует, что речевая наука сделала большой шаг вперед благодаря появлению различных технологий, в том числе: рентгенографии, теории фильтров, спектрального и вейвлет-анализа, а также теории цифровой обработки сигналов. С приходом интегральных сетевых технологий с постоянно возрастающими возможностями стало возможно построение мощных, компактных, недорогих устройств, действующих в реальном времени. Этот факт, вместе с расширением фронта исследований в области синтеза речи, стимулировал дальнейшее развитие систем синтеза речи и их широкое практическое использование.

Основываясь на рассмотренных факторах, можно выделить три основных подхода к синтезу речи:

параметрический синтез;
конкатенативный, или компиляционный (компилятивный) синтез;
синтез по правилам.

Параметрический синтез речи является конечной операцией в вокодерных системах, где речевой сигнал представляется набором небольшого числа непрерывно изменяющихся параметров. Параметрический синтез целесообразно применять в тех случаях, когда набор сообщений ограничен и изменяется не слишком часто. Достоинством такого способа является возможность записать речь для любого языка и любого диктора. Качество параметрического синтеза может быть очень высоким (в зависимости от степени сжатия информации в параметрическом представлении). Однако параметрический синтез не может применяться для произвольных, заранее не заданных сообщений[5].

Компиляционный синтез сводится к составлению сообщения из предварительно записанного словаря исходных элементов синтеза. Размер элементов синтеза не меньше слова. Очевидно, что содержание синтезируемых сообщений фиксируется объёмом словаря. Как правило, число единиц словаря не превышает нескольких сотен слов. Основная проблема в компилятивном синтезе - объёмы памяти для хранения словаря. В этой связи используются разнообразные методы сжатия/кодирования речевого сигнала. Компилятивный синтез имеет широкое практическое применение. За рубежом разнообразные устройства (от военных самолётов до бытовых приборов) оснащаются системами речевого ответа. В нашей стране системы речевого ответа до недавнего времени использовались в основном в области военной техники, сейчас они находят всё большее применение в повседневной жизни, например, в справочных службах операторов сотовой связи при получении информации о состоянии счета абонента.

Полный синтез речи по правилам (или синтез по произвольному тексту) обеспечивает управление всеми параметрами речевого сигнала и, таким образом, может генерировать речь по заранее неизвестному тексту. В этом случае параметры, полученные при анализе речевого сигнала, сохраняются в памяти так же, как и правила соединения звуков в слова и фразы. Синтез реализуется путем моделирования речевого тракта с применением аналоговой или цифровой техники. Причём в процессе синтеза значения параметров и правила соединения фонем вводят последовательно через определённый временной интервал, например 5-10 мс. Метод синтеза речи по произвольному тексту базируется на определении акустических и лингвистических правил и не использует непосредственно элементов человеческой речи. В системах, основанных на этом способе синтеза, выделяется два подхода[1].

Первый подход направлен на построение модели речепроизводящей системы человека и известен под названием артикуляторного синтеза. Второй подход - формантный синтез по правилам. Разборчивость и натуральность звучания таких синтезаторов может быть доведена до уровня, сравнимого с характеристиками естественной речи.

Синтез речи по правилам с использованием предварительно запомненных отрезков естественного языка - это разновидность синтеза речи по правилам, которая получила распространение в связи с появлением возможностей манипулирования речевым сигналом в оцифрованной форме. В зависимости от размера исходных элементов синтеза выделяются следующие его виды: микросегментный (микроволновый), аллофонический, дифонный, полуслоговый, слоговый, синтез из единиц произвольного размера[1].

Несмотря на довольно большой прогресс науки в данной отрасли, специалисты отмечают, что технологии синтеза речи далеки от совершенства и имеют весьма существенные недостатки, такие как[4]:

искусственность речи;
отсутствие эмоциональной нагрузки;
низкая помехоустойчивость синтезированной речи.

Проблема искусственности речи заключается в том, что, несмотря на кажущееся качество произношения речевых синтезаторов, такая речь воспринимается человеком с трудом. В основе технологии синтеза речи используется заранее записанная фонетическая база и слова формируются с помощью статистического расчёта по принципу максимального правдоподобия фонетической сочетаемости, а пробелы и недочеты заполняет человеческий мозг. Т.е. достаточно качественный синтезатор с хорошо подобранной фонетической базой будет прекрасно восприниматься на слух в течение 15 - 20 минут, но потом абсолютное большинство людей перестаёт воспринимать смысл того, что произносится. Происходит это из-за того, что для прослушивания синтезированной речи используются дополнительные центры обработки головного мозга, и мозг просто устает. Таким образом, головной мозг не воспринимает синтезированную речь как естественную, которая сразу обрабатывается в речевом центре. Подобный эффект многие испытывали на себе, изучая иностранный язык. Следующей проблемой является отсутствие эмоциональной нагрузки - личного восприятия произносимого текста читателем. Когда текст читает человек, он поневоле пропускает смысл воспроизводимого через себя, и в интонациях и нюансах чувствуется его отношение к воспроизводимому. Современные программы этого не могут, но самые передовые из них пытаются имитировать интонацию путем модуляции тембра, длительности фонем и пауз. Но это тоже всего лишь подражание, поэтому мозг быстро устает исправлять огрехи воспроизведения, и слушатель теряет нить повествования.

Очевидно, для решения этой задачи требуются методы из области теории искусственного интеллекта для "извлечения смысла" из воспроизводимого текста. Поэтому такие синтезаторы должны строиться с учётом результатов междисциплинарных исследований Третья проблема - низкая помехоустойчивость синтезированной речи. Как показали и показывают эксперименты, достаточно лишь небольшого шума, чтобы слушатель перестал воспринимать смысл текста, произносимого синтезатором. Объяснение этому также находится в области нейрофизиологии. Т.к. для обработки синтезированной речи головной мозг использует дополнительные центры, то при наличии постороннего шума, разговора или необходимости выполнения слушателем какой-то работы, мозг просто не справляется ("перегружается"), и человек перестает понимать смысл произносимого. Эффект помех существенно ограничивает возможности применения синтезатора в реальных условиях техногенных и природных шумов[3].

На основе проведенного анализа выбран подход, основанный на сочетании методов компилятивного синтеза и формантного синтеза по правилам, который будет положен в основу построения системы синтеза речи по тексту с контекстно-зависимой грамматикой как части канала голосового управления.

Литература:

Фролов А., Фролов Г. Синтез и распознавание речи.
Современные решения. - 2003.-http://www.frolov-lib.ru/books/hi/index.html
Dutoit T. Аn Introduction to Text-to-Speech Synthesis. - Boston-London, 1997. - 269 p.
Галунов В.И. Помехоустойчивость как системообразующий фактор речи.
Проблемы и методы экспериментально-фонетических исследований. - СПб, 2002. - 327 с.
Синтез русской речи. - http://www.napravlenie.ru/site.xp/052051049.html
Вокодеры и синтезаторы речи. - http://www.3dnews.ru/multimedia/vocoder/