Проблема выбора эталонной единицы при распознавании речи
Автор: Гладышев К.К.
Источник: Журнал научных публикаций аспирантов и докторантов
http://jurnal.org/articles/2008/radio18.html
Автор: Гладышев К.К.
Источник: Журнал научных публикаций аспирантов и докторантов
http://jurnal.org/articles/2008/radio18.html
В современных разработках по распознаванию слитной речи преимущественно используется бионический подход. Системы являются многоуровневыми и создаются по образу механизмов восприятия речи человеком. Как правило, они состоят из нескольких взаимосвязанных модулей [4, 6]:
Эффективность работы подобных систем напрямую зависит от качества реализации каждого уровня. Одной из важнейших задач является выбор эталонной единицы и процесс первичного формирования словаря эталонов. Кроме того, необходимо обеспечить переход от фонетического представления распознанной последовательности речевых единиц к ее лексическому отображению для передачи этой информации на следующий – семантический уровень системы.
Чтобы решить задачу выбора эталонной единицы сначала необходимо разобраться в том, какие речевые единицы воспринимает человек в слитной речи. Согласно опытам в [13] были сделаны выводы, что «для слитной речи характерны сложные временные образы, которые воспринимаются в целом». Так в качестве минимальных единиц могут выступать фонемы и их аллофоны, фонетические слоги, слова, целые фразы или даже предложения. В зависимости от речевого контекста, от степени понимания языка и четкости произнесения фраз, человек настраивается на нужную ему речевую единицу. Зачастую возможно предугадывание окончания слова или даже целой фразы. Можно сделать вывод, что однозначного ответа на вопрос, с помощью каких речевых единиц человек воспринимает слитную речь, нет.
Минимальной речевой единицей считается фонема или аллофон (вариант звучания фонемы в зависимости от речевого контекста). Данные единицы успешно применяются в современных системах синтеза речи [2]. Аллофоны и дифоны (отрезки звуков продолжительностью от середины одной фонемы до середины следующей) используются в качестве эталонных единиц в различных разработках систем распознавания слитной речи [10, 12, 7]. Однако такие системы до сих пор не обеспечивают должного качества распознавания речи и не доведены до коммерческого продукта.
Возможно, одной из причин неуспеха систем, основанных на фонемном подходе, является не совсем корректный выбор самой эталонной единицы. Обратимся еще раз к процессу восприятия речи человеком. Эксперименты в [13] показывают, что слушатели затрудняются при расчленении речи на короткие сегменты, даже если на это специально направлять их усилия. Предполагалось, что лингвист, прослушивая речевые сегменты, может точно указать границы фонем и определить, какая именно фонема произносится. Однако на практике оказалось, чтобы выполнить данную задачу фонетисту зачастую необходимо услышать слово в целом или даже несколько рядом стоящих слов. Можно сделать вывод, что человек не производит по фонемную сегментацию речевых сообщений при восприятии речи.
Автором статьи создана экспериментальная система распознавания речевых команд. В качестве информативных признаков используются линейные спектральные корни [11, 8]. Поиск ближайшего эталона по базе осуществляется методом нелинейного временного выравнивания (динамическое программирование) [1].
Разработанная система позволяет использовать разные эталонные единицы. Были проведены опыты по использованию небольшого набора аллофонов русского языка [9]. Система достаточно хорошо распознает в слитной речи гласные аллофоны и длительные сонарные (звучные) согласные. Взрывные и шипящие согласные распознаются плохо по причине их кратковременности и не стационарности. Известно [14], что основная смысловая информация содержится именно в кратковременных согласных. Таким образом, для успешного распознавания большого набора слов или фраз получаемой нами информации будет недостаточно.
В качестве эталонной речевой единицы могут также выступать целые слова. Если необходима система распознавания команд или целых фраз из ограниченного словаря (10-200 слов) для одного диктора, то эта задача уже решена и успешно используется на практике, например, голосовое управление мобильными телефонами. Немного по-другому стоит задача поиска ключевых слов в непрерывном потоке речи. Однако подобная задача также успешно решается, например в [3].
В разработанной системе были произведены эксперименты по поиску различных слов в непрерывном речевом потоке для разных дикторов. Результаты оказались успешными, в 90% случаев слова находятся правильно. Данную систему можно применять для решения узких задач по распознаванию речи, когда заранее известен набор произносимых слов или фраз. Однако в виду наличия огромного количества слов и словоформ в русском языке, от данной задачи нельзя перейти к распознаванию произвольной слитной речи.
В 60-70х годах XX века для тестирования качества передачи речевых сигналов по аналоговым каналам связи использовались артикуляционные таблицы ВКАС. Эти таблицы содержат 2700 фонетических слогов, являющихся всевозможными звукосочетаниями русской речи. Оценивалась слоговая разборчивость передаваемой по каналу информации. Эти таблицы являются основой ГОСТов по оценке качества передачи речевого сигнала [5] и оценке акустических характеристик помещений.
Было сделано предположение, что таблицы фонетических слогов ВКАС можно использовать в качестве набора эталонов в системе распознавания речи. Вероятно, что человеческий мозг при восприятии речи, использует именно фонетические слоги, из которых уже потом строится целое слово, фраза или предложение. Например, при восприятии слова «Тридцать», мы подсознательно делим его на два слога: «трит» и «цать». Первые опыты показали успешность данного решения.
Отдельно стоит упомянуть про проблему организации связи между фонетическим словарем системы и лексическим. Передавать на семантический уровень фонетические результаты распознавания бессмысленно, они предварительно должны быть транслированы в правильную лексическую форму. Самым простым способом это можно сделать через промежуточный словарь с указанием прямого соответствия фонетического описания слова его лексическому представлению. В русском языке есть специальные орфоэпические словари, где указывается транскрипция слова и его грамматически правильное представление. Зачастую одно и то же слово произносится по-разному и имеет различное фонетическое представление. Для решения задачи по распознаванию таких слов можно строить вероятностные цепочки фонемного или аллофонного представления слов, использовать многоярусное представление фонетической информации c учетом межфонемной вариативности [3].
На основании проведенных исследований сделано предположение, что в современных системах распознавания речи в качестве эталонных речевых единицы могут выступать различные фонетические конструкции. Использование той или иной единицы сильно зависит от логического контекста произнесения фразы, артикуляционных способностей говорящего, уровня шума окружающей среды и других параметров. Наибольшую эффективность покажет система, в которой производится параллельная обработка нескольких гипотез по распознаванию речи. Также немаловажным будет являться наличие корректирующей обратной связи между уровнями системы для уточнения результатов распознавания.
1. Беллман Р. Динамическое программирование – М.: Иностранная литература, 1960.
2. Вольская Н., А. Коваль, С. Коваль, И. Опарин, Е. Погарева, П. Скрелин, Н. Смирнова, А. Таланов Cинтезатор русской речи по тексту нового поколения // Труды международной конференции «Диалог'2005», Звенигород, 1-6 июня, 2005 г.
3. Вольская, А. Коваль, К проблеме разработки фонетического уровня в системах автоматического распознавания речи // Труды международной конференции «Диалог'2002», Москва 2002 г.
4. Галунов В.И. и Галунов Г.В. Один подход к автоматическому распознаванию речи // Международная конференция по компьютерной лингвистике "Диалог 2000" [Электронный ресурс] – Режим доступа: http://www.dialog-21.ru/materials/archive.asp?id=6434&y=2000&vol=6078, свободный. – Загл. с экрана.
5. Гост Р 50840-95 Передача речи по каналам связи. Методы оценки качества, разборчивости и узнаваемости.
6. Киселёв В.В., Таланов А.О. и др. Автоматический поиск ключевых слов в непрерывном потоке речи на основе технологии "распознавание через синтез" // Труды международной конференции «Диалог 2006», Бекасово, 31 мая – 4 июня 2006 г.
7. Кнеллер Э.Г. Анализ параметров речевого сигнала создающих восприятие элементарных звуков речи // Труды международной конференции «Диалог 2006», Бекасово, 31 мая – 4 июня 2006 г.
8. Ланнэ А.А. Новая теория линейных спектральных корней // Труды 3-ей Международной конференции "Цифровая обработка сигналов и ее применение", Москва, 2000 г. 29 ноября – 1 декабря с.118-125.
9. Лобанов Б.М., Пьорковска Б., Рафалко Я., Цирульник Л.И., Шпилевский Э. Фонетико-акустическая база данных для многоязычного синтеза речи по тексту на славянских языках // Труды международной конференции «Диалог 2006», Бекасово, 2006 г. 31 мая – 4 июня с. 357 – 364.
10. Лукьяница А.А. Разработка программы распознавания русской речи для процессора SuperH RISK (Hitachi). // МГУ им.М.В.Ломоносова ф-т ВМиК, каф.автоматизации научных исследований [Электронный ресурс] – Режим доступа: http://leader.cs.msu.su/~fusion/, свободный. – Загл. с экрана.
11. Маркел Дж., Грей А.Х. Линейное предсказание речи – М.:Связь, 1980.
12. Ронжин А.Л., Ли И.В., Карпов А.А. Система автоматического распознавания русской речи SIRIUS // Научно-теоретический журнал «Искусственный интеллект» № 3 2005 г.
13. Фланаган Д. Анализ, синтез и воприятие речи – М.: Связь, 1968 с.308.
14. Чистович Л.А. Венцов А.В. Физиология Речи. Восприятие речи человеком. – Л.: Наука, 1976 с.28.