ОЦИФРОВКА ГОЛОСА
Развивающаяся технология
Джилберт Хелд
http://www.osp.ru

   Все методы оцифровки речи можно разделить на две категории: кодеры формы сигнала и вокодеры. Методами кодировки формы сигнала (к которым, в частности, относится и импульсно-кодовая модуляция) осуществляется прямая оцифровка аналогового голосового сигнала путем периодического измерения его амплитуды с последующим округлением полученного значения до числа из заранее заданного дискретного набора. Данная процедура носит название дискретизации; разность между истинным значением аналогового сигнала и получаемым дискретным значением представляет собой ошибку дискретизации.
   Вокодеры, напротив, основаны на моделировании человеческой речи с учетом ее характерных особенностей. Вместо непосредственного измерения амплитуды вокодер преобразует входной сигнал в некий другой, похожий на исходный. Причем измеряемые характеристики речевого сигнала используются для подгонки параметров в принятой модели речевого сигнала. Именно эти параметры и передаются приемнику, который по ним восстанавливает исходный речевой сигнал. По существу, здесь речь идет о синтезе речи.
   Импульсно-кодовая модуляция - основной метод оцифровки речи при передаче ее по коммутируемой телефонной сети общего доступа. Тем не менее нигде не сказано, что при передаче голоса по частным или общедоступным сетям передачи данных (например, frame relay) нельзя использовать другие, более экономичные методы. За последние 30 лет был разработан целый ряд методов кодировки речи. Одной из первых производных ИКМ стал метод адаптивной дифференциальной импульсно-кодовой модуляции - АДИКМ (Adaptive Differential PCM, ADPCM). В основе АДИКМ лежит оцифровка речи по методу ИКМ, однако далее используется предположение, что амплитуда сигнала не может сильно измениться за период от одного измерения до другого. Вместо того чтобы кодировать каждое значение амплитуды восьмибитным словом, в АДИКМ вычисляется разность между предполагаемым и фактическим значением, а получившееся число кодируется четырехбитным словом. Принимающей стороной это четырехбитное число складывается с вычисленным по точно такому же алгоритму предполагаемым значением, и в результате удается воспроизвести амплитуду голосового сигнала. Метод АДИКМ был стандартизирован ITU в Recommendation G.721; его использование позволяет ограничиться каналом на 32 Кбит/с для передачи одного речевого вызова.
   Еще один популярный метод кодирования формы сигнала - дельта-модуляция с непрерывно меняющейся крутизной (Continuously Variable Slope Delta Modulation, CVSD). Этот метод кодировки изначально применялся в военных целях, поскольку его использование упрощает шифрование аналогового сигнала. В CVSD каждое измеренное значение сравнивается с неким опорным сигналом. Если уровень речевого сигнала выше опорного, то это состояние кодируется как "1", если ниже - "0". В первых военных образцах оборудования сигнал оцифровывался 8000 раз в секунду, в результате получался поток данных интенсивностью 8 Кбит/с, поскольку для кодировки каждого значения использовался один бит. В современных цифровых модулях CVSD, предназначенных для мультиплексоров T-1, оцифровка производится чаще, а значит, для передачи оцифрованных переговоров может потребоваться пропускная способность 12 Кбит/с, 16 Кбит/с или 24 Кбит/с.
   В одном из популярных вокодеров, носящем название вокодер с линейным предсказанием (Linear Predictive Vocoder, LPV), используется метод линейного предсказания, благодаря которому удается добиться более естественного звучания синтезируемого голоса. Применявшиеся в прошлом методы вычисления параметров моделей не обеспечивали высокого качества воспроизведения голоса, да и сами эти модели были не совершенны.
   Именно в LPV впервые стали анализироваться относительно длительные (20 миллисекунд) речевые фрагменты, по которым вычисляются необходимые коэффициенты предсказания. Значения этих коэффициентов затем дискретизируются и передаются на приемник, который синтезирует по ним исходный речевой сигнал.
   На основе алгоритмов линейного предсказания и последних достижений в цифровой обработке сигнала был разработан ряд методов линейного предсказания, дающих низкоинтенсивные цифровые потоки и при этом обеспечивающих высококачественную передачу речи. Одним из таких методов является вокодер с линейным предсказанием в соответствии с кодом (Code Excited Linear Prediction, CELP), в котором речевые фрагменты сопоставляются с заранее заготовленными элементами кодовой таблицы; для кодировки используется элемент, дающий минимальную невязку. Вокодер CELP, рассчитанный на 4,8 Кбит/с, описан в федеральном стандарте США 1016, а его модификация, носящая название Conjugate-Structure Algebraic Code Excited Linear Prediction (CS-ACELP), в ноябре 1995 года была стандартизирована ITU в документе под названием ITU Recommendation G.729. В соответствии с этим документом коммерческое качество передачи речи достигается при скорости передачи данных в 8 Кбит/с.
   Другая разновидность LPV - алгоритм Low Delay-Code Excited Linear Prediction (LD-CELP), позволяющий обеспечить коммерческое качество передачи речи по каналу 16 Кбит/с. Алгоритм был стандартизирован в документе ITU Recommendation G.728. Другие версии LPV гарантируют коммерческое качество передачи речи по каналу 6,3, 4,8 или 2,4 Кбит/с.