Untitled Document

Рабинер Л. Р., Шафер Р. В. Цифровая обработка речевых сигналов: Пер. с англ./Под ред. М. В. Назарова и Ю. Н. Прохорова. — М.: Радио и связь, 1981. — 496 с.

Введение

1.0. Цель книги

Цель книги заключается и том, чтобы показать, как методы цифровой обработки могут быть использованы в задачах речевой связи'. В данной вводной главе излагаются общие сведения о природе речевого сигнала, о том, как методы цифровой обработки могут быть использованы для изучения его свойств, обсуждается ряд основных задач, в которых применяются методы цифровой обработки.

1.1. Речевой сигнал

Речь предназначена для общения. Возможности речи с этой точки зрения можно характеризовать по-разному. Один из количественных подходов основан на теории информации, разработанной Шенноном [1]. В соответствии с этой теорией речь можно описать ее информационным содержанием или информацией. Другой способ описания речи заключается в представлении ее в влде сигнала, т. е. акустического колебания. Хотя идеи теории информации играют важную роль при построении сложных систем связи, но, как будет ясно из содержания книги, наиболее полезными на практике являются представления речи ib виде колебания или в виде некоторой параметрической модели.

Речевое общение начинается с того, что в мозгу диктора возникает в абстрактной форме некоторое сообщение. В процессе речеобразования это сообщение преобразуется в акустическое речевое колебание. Информация, содержащаяся в сообщении, представлена в акустическом колебании весьма сложным образом. Сообщение сначала преобразуется в последовательности нервных-импульсов, управляющих артикуляторным аппаратом (т. е. перемещением языка, губ, голосовых связок и т. д.). В результате воздействия нервных импульсов артикуляторный аппарат приходит в движение, результатом которого является акустическое речевое колебание, несущее информацию об исходном сообщении.

Сообщение, передаваемое с помощью речевого сигнала, является дискретным, т. е.- может быть представлено в виде последовательности символов из конечного их числа. Символы, из которых составлен речевой сигнал, называются фонемами. В каждом языке имеется присущее ему множество фонем, обычно от 30 до 50. Например, в английском языке можно выделить 42 фонемы (см. гл. 3).

Особый интерес шредставляет оценка скорости передачи информации, содержащейся в речевом сигнале. Грубая оценка получается из того, что физические ограничения на перемещение элементов артикуляторного аппарата позволяют человеку произносить в среднем 10 фонем в секунду. Если фонемы представить числами в двоичной системе счисления, то для всех фонем английского языка более чем достаточно шестизначного двоичного кода. Принимая среднюю скорость произнесения равной 10 фонемам в секунду и пренебрегая (Корреляцией между соседними фонемами, получим, что скорость передачи информации составляет 60 бит/с. Другими словами, при нормальном темпе произнесения письменный эквивалент речевого сигнала содержит 60 бит/с. Эта оценка, однако, не учитывает таких факторов, как индивидуальность и эмоциональное состояние диктора, скорость произнесения, громкость речи и т. д.

В системах речевой связи сигнал передается, хранится и обрабатывается различными способами. Задачи техники обусловливают применение различных форм представления речевого сигнала. Однако во всех -случаях им присущи следующие особенности:

1) сохранение информационного содержания речевого сигнала;

2) представление речевого сигнала в форме, удобной для передачи и хранения, или в виде, позволяющем легко ,и достаточно гибко преобразовывать речевой сигнал без существенных информационных потерь.

Представление речевого сигнала должно быть таким, чтобы его информационное содержание легко воспринималось автоматически с помощью машины или при прослушивании человеком. Далее будет показано, что представление речевого сигнала 1 (но не его информационного содержания) может потребовать от 500 до 10 6 кбит/с. При разработке способа представления речевого сигнала существенное влияние оказывают методы обработки сигнала.

1.2. Обработка сигналов

Задача обработки сигналов схематически представлена на рис. 1.1. В случае речевых сигналов источником информации является человек. Измерению или наблюдению обычно подвергается акустическое колебание. Обработка сигнала предполагает в первую очередь формирование описания на основе некоторой модели с последующим преобразованием полученного представления в требуемую форму. Последним шагом в процессе обработки является выделение и использование информационного содержания сигнала. Этот шаг может осуществляться путем прослушивания сигнала человеком или его автоматической обработки. В качестве примера 'можно рассмотреть систему идентификации диктора из заданного ансамбля дикторов, в которой используется представление речевого сигнала в виде зависящего от времени спектра. Одним из возможных преобразований сигнала в этих условиях является усреднение спектра по всей фразе, сравнение среднего спектра с эталонами, имеющимися для каждого диктора, и затем выбор соответствующего диктора на основе полученных мер сходства спектров. Для данного примера информационным содержанием сигнала являются признаки индивидуальности диктора. Таким образом, обработка сигнала в общем случае предусматривает решение двух основных задач: получить общее представление сигнала либо в форме речевого колебания, либо в виде параметров и преобразовать полученное представление в более удобную для решаемой задачи форму.

ВВЕРХ