Опыт разработки системы автоматического синтеза речи для русского языка
Авторы: Кривнова О.Ф., Захаров Л.М., Зиновьева Н.В., Строкин Г.С., Бабкин А.В.
Источник: Труды IX сессии РАО. АКИН, М. 1999
Назад в библиотеку
Опыт разработки системы автоматического синтеза речи для русского языкаАвторы: Кривнова О.Ф., Захаров Л.М., Зиновьева Н.В., Строкин Г.С., Бабкин А.В. АннотацияФонетическая группа кафедры теоретической и прикладной лингвистики филологического факультета МГУ ведет работу по созданию системы высококачественного синтеза русской речи по произвольному тексту (так называемый TEXT-to-SPEECH или TTS-синтез) с 1992 года. Работа над первой версией (синтезатор 1. Общая архитектура системыКак в любой TTS-системе, в нашем синтезаторе можно выделить два главных блока: блок лингвистической обработки текста и блок озвучивания или собственно формирования речевого сигнала. Работа блока озвучивания основана на использовании 2. Блок лингвистической обработки текстаГлавной задачей блока лингвистической обработки является создание транскрипционного представления (записи) текста и его фрагментов, которое должно содержать как сегментную, так и супрасегментную фонетическую информацию, необходимую для последующей генерации акустического сигнала. При создании нашей системы мы не занимались такими задачами, как автоматическое определение языка входного текста и коррекция орфографических и пунктуационных ошибок. Первая задача существенна для систем многоязычного синтеза, а вторая вырастает в особую проблему при озвучивании электронного варианта текста, полученного в результате сканирования. Необходимо отметить, что и в обычном тексте, введённом с использованием клавиатуры, могут быть ошибки, устранение которых желательно до начала подготовки текста к озвучиванию. 2.1. Нормализация текстаДля построения транскрипционной записи входной текст должен быть сначала представлен как последовательность акцентуированных орфографических слов, разделённых пробелами и разрешёнными пунктуационными знаками. Такой текст условно может быть назван Операции, которые необходимы для преобразования входного текста в нормализованный, относятся к этапу нормализации. Различаются следующие типы операций:
К сожалению, у нас пока не было возможности заниматься сколько-нибудь детально и систематически операциями типа 1 и 2, хотя кое-что сделано. На данном этапе разработки синтезатора основное внимание мы уделяли созданию механизмов автоматической расстановки словесных ударений и замены Что касается проблемы омографии, в ряде случаев нужная словоформа может быть выбрана только с использованием элементов синтаксического и смыслового анализа текста или на основе вероятностных текстовых эвристик. Временно она решается у нас предъявлением пользователю меню из омографичных форм, из которых должна быть выбрана правильная форма. Аналогично обрабатываются незнакомые системе слова - в них надо указать номер ударного гласного. Предусмотрена возможность создания и использования пользовательского словника, в который может быть занесено любое акцентуированное орфографическое слово; в соответствии с этой записью и происходит его дальнейшее озвучивание. Если ни одна из указанных возможностей не используется, ударение по умолчанию ставится на первом слоге слова. 2.2. Акцентно-интонационный транскриптор (АИТР).При синтезе эмоционально нейтральной речи, воспроизводящей достаточно тщательное произнесение (полный стиль), акцентно-интонационный транскриптор осуществляет над нормализованным текстом операции, которые могут быть отнесены к двум типам.
Важнейшими ключами для определения интонационных границ при озвучивании письменного текста являются пунктуационные знаки, однако взаимно-однозначного соответствия здесь нет. В общем случае для определения интонационных границ, кроме пунктуационных ключей, нужна информация о границах главных синтаксических составляющих предложения, требующая либо полного синтаксического анализа фразы, либо использования вероятностных синтактико-интонационных эвристик. И то, и другое требует специального исследования и является узким местом многих TTS-систем, в том числе и достаточно продвинутых технологически (например, TTS-систем для английского языка). В настоящее время мы ведем работу по созданию аннотированной тексто-речевой базы данных, с тем, чтобы на ее основе сформулировать эвристические правила локализации интонационных границ, с учетом наиболее важных и статистически доминирующих факторов. Пока же в нашей системе членение в автоматическом режиме осуществляется по знакам препинания, однако предусмотрена возможность реализации ручной маркировки членения в любой точке текста. Каждой интонационной фразе АИТР должен приписать ряд характеристик, определяющих выбранную для озвучивания интонационную модель. Важнейшими характеристиками являются: тип интонационной модели и глобальные параметры произнесения - тональные (уровень базового тона голоса, ширина голосового диапазона, степень тонированности ударных гласных), темп и громкость. В нашем синтезаторе используется в настоящее время 7 моделей: 1 модель для реализации утвердительности (и завершенности сообщения) в повествовательном предложении; 2 модели для реализации незавершённости в повествовательном предложении; 3 вопросительных модели (общий, специальный и противопоставительный вопросы); 1 модель, типичная для восклицательного предложения. Выше указаны прототипические контексты употребления интонационных моделей, которые активизируются в автоматическом режиме на основе пунктуационных ключей и некоторых лексико-грамматических показателей. В ручном режиме этот же набор моделей может использоваться для оформления любого текстового отрезка, что является одним из источников реализации различных паралингвистических (эмоционально-оценочных) характеристик текста. Что же касается глобальных интонационных параметров, указанных выше, то в нашей системе реализована возможность их ручной настройки в любых комбинациях, однако в автоматическом режиме пока что используется наиболее нейтральный (немаркированный) вариант. Вторая из указанных выше операций связана с формированием акцентно-ритмического рисунка интонационной фразы. Следуя фонетической традиции, мы исходим из того, что степень выделенности слов (и слогов) в интонационной фразе регулируется двумя функционально различными механизмами: фокусной акцентуацией и ритмизацией. Фокусные акценты (различные смысловые и эмфатические подчеркивания слов) в тексте в значительной степени определяются интенцией говорящего и как правило реализуют прямую связь между коммуникативно-смысловой характеристикой фразы и её просодическими параметрами. В письменном эквиваленте фразы часто не бывает никаких ключей, которые бы позволили автоматически определить место и тип фокусного акцента. В связи с этим формализация фокусного акцентирования является очень Под ритмическим рисунком фразы мы понимаем распределение выделенности (prominence) слогов во фразе, которое формируется с учетом следующих факторов: метрической схемы слова, степени выделенности ударного слога слова, типичной (немаркированной) для слов данного лексико-грамматического класса, и линейной позицией слова в интонационной фразе (ИФ). В результате внутри ИФ различаются 4 градации выделенности слога:
Усиленное ударение получает ударный слог последнего знаменательного слова в ИФ (или просто последнего, если знаменательных слов во фразе нет), образуя так называемое автоматическое фразовое (синтагматическое) ударение. Если при этом во фразе нет фокусных акцентов, слог-носитель автоматического фразового ударения признается (по умолчанию) интонационным центром фразы. 2.3. Фонемный транскриптор (ФТ)Фонемный транскриптор строит по нормализованному входному тексту соответствующую ему звуковую транскрипцию, основанную на действующих в русском языке стандартных правилах чтения. Максимальной сферой действия этих правил является интонационная фраза, поэтому интонационное членение осуществляется до начала работы ФТ. Инвентарь различаемых звуковых единиц в используемой нами транскрипции невелик и включает 56 основных звукотипов (без учета различий в фонетической долготе согласных). С точки зрения фонетической детализации он занимает промежуточное положение между традиционно признаваемыми для русского языка фонемным и фонетическим инвентарями. Соответственно, выходная транскрипция, которая может контролироваться в качестве промежуточного результата работы всей системы синтеза, привычна для фонетиста, а при желании легко может быть преобразована к более традиционному фонемному или фонетическому виду. Транскрипция строится на базе русского алфавита, что также следует традициям русской фонетики. В состав ФТ входят подблоки фонологических правил, осуществляющих преобразования 2.4. Блок формирования просодических характеристик.В задачу правил этого блока входит определение энергетических, временных и тональных характеристик, которые должны быть приписаны звуковым единицам, образующим фонетическую транскрипцию синтезируемой фразы. Эти характеристики задают физические параметры, в соответствии с которыми осуществляется модификация базовых акустических аллофонов, выбираемых для конкатенации при генерации акустического сигнала. Главная трудность в создании правил этого блока состоит в том, что, с одной стороны, именно просодические характеристики ответственны прежде всего за естественность звучания синтезируемой речи, а с другой - каждый из указанных просодических параметров имеет многофакторную природу, связан как с акцентно-интонационным, так и со звуковым компонентами фонетической транскрипции. Кроме того, сами акустические параметры тонким образом взаимодействуют между собой в создании интегрального звукового эффекта. Поэтому именно этот блок требует скрупулезной и длительной отработки для фонетистов, участвующих в создании TTS-систем. 2.5. Приведение звуковой транскрипции к базовым единицам синтезаУказанная операция необходима в связи с разной степенью фонетической детализации, которая задается фонемным транскриптором, с одной стороны, и необходима для качественного синтеза, с другой. Напомним, что транскриптор работает с инвентарем из 56 единиц, а акустические базы элементов конкатенации (у нас, как правило, аллофонной размерности) содержат 688 и 1300 единиц. Следовательно, возникает задача перехода от фонетической транскрипции фразы к ее более детальному представлению в терминах базовых контекстно-зависимых аллофонов. Эта задача решается в нашей системе блоком, который называется кодировщиком. 3. Блок озвучивания3.1. Акустическая база данных: подготовка и корректирующие алгоритмы.Основой любой системы синтеза речи, основанной на конкатенативном методе, является набор фрагментов реального акустического сигнала - базовых элементов конкатенации. Размерность этих элементов может быть различной в зависимости от конкретного способа синтеза речи, это могут быть фонемы, аллофоны, слоги, дифоны, слова и т.д. В разрабатываемой нами системе базовые элементы в большинстве случаев имеют фонемную размерность и являются тем самым аллофонными реализациями традиционных фонем. Микрофрагменты, соответствующие частям фонемных сегментов, имеются только для взрывных согласных (типа /п/, /б/, /п’/, /б’/ и т.д.) и вибрантов (/р/ и /р'/). Главное же отличие от традиционных фонетических представлений состоит в том, что для получения естественно звучащей речи необходимо учитывать гораздо больше различий, обусловленных контекстными фонетическими влияниями, чем это делается даже в достаточно детальных транскрипционных системах. Так, уже в первой версии Текстовый материал для получения базы готовился специально и был записан в следующих режимах оцифровки: для мужского голоса частота дискретизации 11 Кгц с разрядностью 8 бит, для женского голоса частота дискретизации 22 Кгц с разрядностью 16 бит. Особыми проблемами при подготовке акустической базы данных являются попериодная разметка вокальных аллофонов и так называемые 3.2. Формирование управляющего файлаЭтот блок объединяет результаты кодировки текста в терминах базовых аллофонов и результаты просодической параметризации. В процессе работы этого блока формируется таблица стандартного формата, которая включает коды аллофонов для выбора нужных из акустической базы и значения просодических параметров, необходимые для модификации каждого элемента в процессе акустического синтеза. Пример управляющего файла приводится ниже для вопросительной фразы
3.3. Формирование звукового сигналаЭтот блок на основании управляющего файла выбирает из акустической базы нужные аллофоны и генерирует на их основе аллофоны с требуемыми просодическими характеристиками. Блок генерации звукового сигнала содержит четыре основных модуля: модуль модификации длительности аллофона, модуль изменения длительности периодов (частоты основного тона), модуль изменения энергии, модуль генерации выходного сигнала. 4. Инструментарий для разработки системы синтеза речиПоскольку универсальные языки программирования совершенно не подходят для задач преобразования типа Разработка специализированного языка была бы полезна, но тем не менее не столь действенна, если бы лингвистические модули на нашем языке составляли единое целое с машинным кодом всей системы: любое изменение в лингвистических модулях требовало бы перекомпиляции всей системы. Наша система благодаря особенностям реализации языка имеет еще одно достоинство: как тестирование, так и исправление правил в лингвистических модулях возможно прямо из самой системы, без ее повторного перезапуска. Таким образом, система представляет собой не только программу синтеза, но одновременно и Оболочка, предназначенная для разработки и экспериментальной работы над синтезом, базируется на текстовом редакторе, снабженном специальными функциями, которые позволяют, не выходя из редактора, осуществлять любые требуемые операции:
Синтезатор реализован в библиотеке dll для платформы Win32 (Windows 95 или NT); место, занимаемое на диске, около 10Mb. Литература
|