Назад

Рабинер Л. Р., Шафер Р. В. Цифровая обработка речевых сигналов: Пер. с англ./Под ред. М. В. Назарова и Ю. Н. Прохорова. — М.: Радио и связь, 1981. — 496 с.

 

Введение

1.0. Цель книги

Цель книги заключается и том, чтобы показать, как методы цифровой обработки могут быть использованы в задачах речевой связи'. В данной вводной главе излагаются общие сведения о природе речевого сигнала, о том, как методы цифровой обработки могут быть использованы для изучения его свойств, обсуждается ряд основных задач, в которых применяются методы цифровой обработки.

1.1. Речевой сигнал

Речь предназначена для общения. Возможности речи с этой точки зрения можно характеризовать по-разному. Один из коли­чественных подходов основан на теории информации, разработан­ной Шенноном [1]. В соответствии с этой теорией речь можно описать ее информационным содержанием или информацией. Дру­гой способ описания речи заключается в представлении ее в влде сигнала, т. е. акустического колебания. Хотя идеи теории инфор­мации играют важную роль при построении сложных систем связи, но, как будет ясно из содержания книги, наиболее полезными на практике являются представления речи ib виде колебания или в виде некоторой параметрической модели.

Речевое общение начинается с того, что в мозгу диктора возникает в абстрактной форме некоторое сообщение. В процессе речеобразования это сообщение преобразуется в акустическое ре­чевое колебание. Информация, содержащаяся в сообщении, пред­ставлена в акустическом колебании весьма сложным образом. Сообщение сначала преобразуется в последовательности нервных-импульсов, управляющих артикуляторным аппаратом (т. е. пере­мещением языка, губ, голосовых связок и т. д.). В результате воз­действия нервных импульсов артикуляторный аппарат приходит в движение, результатом которого является акустическое речевое колебание, несущее информацию об исходном сообщении.

Сообщение, передаваемое с помощью речевого сигнала, явля­ется дискретным, т. е.- может быть представлено в виде последовательности символов из конечного их числа. Символы, из кото­рых составлен речевой сигнал, называются фонемами. В каждом языке имеется присущее ему множество фонем, обычно от 30 до 50. Например, в английском языке можно выделить 42 фонемы (см. гл. 3).

Особый интерес шредставляет оценка скорости передачи ин­формации, содержащейся в речевом сигнале. Грубая оценка по­лучается из того, что физические ограничения на перемещение элементов артикуляторного аппарата позволяют человеку произ­носить в среднем 10 фонем в секунду. Если фонемы представить числами в двоичной системе счисления, то для всех фонем англий­ского языка более чем достаточно шестизначного двоичного кода. Принимая среднюю скорость произнесения равной 10 фонемам в секунду и пренебрегая (Корреляцией между соседними фонемами, получим, что скорость передачи информации составляет 60 бит/с. Другими словами, при нормальном темпе произнесения письмен­ный эквивалент речевого сигнала содержит 60 бит/с. Эта оценка, однако, не учитывает таких факторов, как индивидуальность и эмоциональное состояние диктора, скорость произнесения, гром­кость речи и т. д.

В системах речевой связи сигнал передается, хранится и обра­батывается различными способами. Задачи техники обусловлива­ют применение различных форм представления речевого сигнала. Однако во всех -случаях им присущи следующие особенности:

1) сохранение информационного содержания речевого сигнала;

2) представление речевого сигнала в форме, удобной для переда­чи и хранения, или в виде, позволяющем легко ,и достаточно гиб­ко преобразовывать речевой сигнал без существенных информа­ционных потерь.

Представление речевого сигнала должно быть таким, чтобы его информационное содержание легко воспринималось автомати­чески с помощью машины или при прослушивании человеком. Да­лее будет показано, что представление речевого сигнала 1 (но не его информационного содержания) может потребовать от 500 до 10 6 кбит/с. При разработке способа представления речевого сигна­ла существенное влияние оказывают методы обработки сигнала.

1.2. Обработка сигналов

Задача обработки сигналов схематически представлена на рис. 1.1. В случае речевых сигналов источником информации яв­ляется человек. Измерению или наблюдению обычно подвергает­ся акустическое колебание. Обработка сигнала предполагает в первую очередь формирование описания на основе некоторой мо­дели с последующим преобразованием полученного представления в требуемую форму. Последним шагом в процессе обработки яв­ляется выделение и использование информационного содержания сигнала. Этот шаг может осуществляться путем прослушивания сигнала человеком или его автоматической обработки. В качестве примера 'можно рассмотреть систему идентификации диктора из заданного ансамбля дикторов, в ко­торой используется представление речевого сигнала в виде зависящего от времени спектра. Одним из воз­можных преобразований сигнала в этих условиях является усреднение спектра по всей фразе, сравнение среднего спектра с эталонами, име­ющимися для каждого диктора, и затем выбор соответствующего дик­тора на основе полученных мер сход­ства спектров. Для данного примера информационным содержанием сиг­нала являются признаки индивиду­альности диктора. Таким образом, обработка сигнала в общем случае предусматривает решение двух ос­новных задач: получить общее пред­ставление сигнала либо в форме ре­чевого колебания, либо в виде пара­метров и преобразовать полученное представление в более удобную для решаемой задачи форму.

 

 

Назад

ВВЕРХ