Деменко Д. А., Федяев О.И. Донецкий национальный технический университет Интеллектуализация человеко-машинного интерфейса предполагает использование системы автоматического синтеза речевых сообщений. В настоящее время разработан целый ряд методов синтеза речи. Выбор того или иного метода определяется различными факторами. Существуют четыре основных вида факторов, от которых зависит выбор метода синтеза[2].
Основываясь на рассмотренных факторах, можно выделить три основных подхода к синтезу речи:
Параметрический синтез речи является конечной операцией в вокодерных системах, где речевой сигнал представляется набором небольшого числа непрерывно изменяющихся параметров. Параметрический синтез целесообразно применять в тех случаях, когда набор сообщений ограничен и изменяется не слишком часто. Достоинством такого способа является возможность записать речь для любого языка и любого диктора. Качество параметрического синтеза может быть очень высоким (в зависимости от степени сжатия информации в параметрическом представлении). Однако параметрический синтез не может применяться для произвольных, заранее не заданных сообщений[5]. Компиляционный синтез сводится к составлению сообщения из предварительно записанного словаря исходных элементов синтеза. Размер элементов синтеза не меньше слова. Очевидно, что содержание синтезируемых сообщений фиксируется объёмом словаря. Как правило, число единиц словаря не превышает нескольких сотен слов. Основная проблема в компилятивном синтезе - объёмы памяти для хранения словаря. В этой связи используются разнообразные методы сжатия/кодирования речевого сигнала. Компилятивный синтез имеет широкое практическое применение. За рубежом разнообразные устройства (от военных самолётов до бытовых приборов) оснащаются системами речевого ответа. В нашей стране системы речевого ответа до недавнего времени использовались в основном в области военной техники, сейчас они находят всё большее применение в повседневной жизни, например, в справочных службах операторов сотовой связи при получении информации о состоянии счета абонента. Полный синтез речи по правилам (или синтез по произвольному тексту) обеспечивает управление всеми параметрами речевого сигнала и, таким образом, может генерировать речь по заранее неизвестному тексту. В этом случае параметры, полученные при анализе речевого сигнала, сохраняются в памяти так же, как и правила соединения звуков в слова и фразы. Синтез реализуется путем моделирования речевого тракта с применением аналоговой или цифровой техники. Причём в процессе синтеза значения параметров и правила соединения фонем вводят последовательно через определённый временной интервал, например 5-10 мс. Метод синтеза речи по произвольному тексту базируется на определении акустических и лингвистических правил и не использует непосредственно элементов человеческой речи. В системах, основанных на этом способе синтеза, выделяется два подхода[1]. Первый подход направлен на построение модели речепроизводящей системы человека и известен под названием артикуляторного синтеза. Второй подход - формантный синтез по правилам. Разборчивость и натуральность звучания таких синтезаторов может быть доведена до уровня, сравнимого с характеристиками естественной речи. Синтез речи по правилам с использованием предварительно запомненных отрезков естественного языка - это разновидность синтеза речи по правилам, которая получила распространение в связи с появлением возможностей манипулирования речевым сигналом в оцифрованной форме. В зависимости от размера исходных элементов синтеза выделяются следующие его виды: микросегментный (микроволновый), аллофонический, дифонный, полуслоговый, слоговый, синтез из единиц произвольного размера[1]. Несмотря на довольно большой прогресс науки в данной отрасли, специалисты отмечают, что технологии синтеза речи далеки от совершенства и имеют весьма существенные недостатки, такие как[4]:
Проблема искусственности речи заключается в том, что, несмотря на кажущееся качество произношения речевых синтезаторов, такая речь воспринимается человеком с трудом. В основе технологии синтеза речи используется заранее записанная фонетическая база и слова формируются с помощью статистического расчёта по принципу максимального правдоподобия фонетической сочетаемости, а пробелы и недочеты заполняет человеческий мозг. Т.е. достаточно качественный синтезатор с хорошо подобранной фонетической базой будет прекрасно восприниматься на слух в течение 15 - 20 минут, но потом абсолютное большинство людей перестаёт воспринимать смысл того, что произносится. Происходит это из-за того, что для прослушивания синтезированной речи используются дополнительные центры обработки головного мозга, и мозг просто устает. Таким образом, головной мозг не воспринимает синтезированную речь как естественную, которая сразу обрабатывается в речевом центре. Подобный эффект многие испытывали на себе, изучая иностранный язык. Следующей проблемой является отсутствие эмоциональной нагрузки - личного восприятия произносимого текста читателем. Когда текст читает человек, он поневоле пропускает смысл воспроизводимого через себя, и в интонациях и нюансах чувствуется его отношение к воспроизводимому. Современные программы этого не могут, но самые передовые из них пытаются имитировать интонацию путем модуляции тембра, длительности фонем и пауз. Но это тоже всего лишь подражание, поэтому мозг быстро устает исправлять огрехи воспроизведения, и слушатель теряет нить повествования. Очевидно, для решения этой задачи требуются методы из области теории искусственного интеллекта для "извлечения смысла" из воспроизводимого текста. Поэтому такие синтезаторы должны строиться с учётом результатов междисциплинарных исследований Третья проблема - низкая помехоустойчивость синтезированной речи. Как показали и показывают эксперименты, достаточно лишь небольшого шума, чтобы слушатель перестал воспринимать смысл текста, произносимого синтезатором. Объяснение этому также находится в области нейрофизиологии. Т.к. для обработки синтезированной речи головной мозг использует дополнительные центры, то при наличии постороннего шума, разговора или необходимости выполнения слушателем какой-то работы, мозг просто не справляется ("перегружается"), и человек перестает понимать смысл произносимого. Эффект помех существенно ограничивает возможности применения синтезатора в реальных условиях техногенных и природных шумов[3]. На основе проведенного анализа выбран подход, основанный на сочетании методов компилятивного синтеза и формантного синтеза по правилам, который будет положен в основу построения системы синтеза речи по тексту с контекстно-зависимой грамматикой как части канала голосового управления.
Литература:
|