Н. Е. Губенко, А. В. Чернышова, Д. П. Пауков

Сжатие аудиоданных с помощью закона мю и закона А

Звук - это колебательный процесс, распространяемый в упругой среде, например, в воздухе. Люди общаются между собой посредствам языка, а основной формой любого языка является устная речь, которая выражается в способности человека издавать и слышать звуковые колебания. Основным средством передачи информации человека человеку является звуковое сообщение.

Поэтому особенно важно создать технические средства, осуществляющие полную работу со звуком: получение звуковых сообщений, передача их во времени и пространстве, а также их воспроизведение. Данная проблема сейчас решена с помощью таких технических средств как микрофон (преобразование звуковых колебаний в электрические), магнитная запись (сохранение преобразованных в электрическую форму звуковых колебаний), громкоговорители (преобразование электрических колебаний в звуковые), радио (передача электрических сигналов на расстояние) и т.д. Все эти устройства являются аналоговыми, то есть они работают с непрерывным сигналом, который восприимчив к различным аддитивным шумам и искажается передаточной функцией канала передачи.

Импульсно-кодовая модуляция (ИКМ) позволяет представить непрерывный аналоговый сигнал в форме последовательности равноотстоящих друг от друга импульсов (дискретизация по времени), амплитуда которых представлена двоичным кодом (квантование по уровню). Подобное преобразование позволяет существенно повысить надежность передачи и хранения сигнала.

В процессе преобразования аналоговой величины в цифровую и обратно возникают специфические шумы квантования, связанные с ограниченностью разрядной сетки. Это связано с тем, что аналоговый сигнал принципиально имеет бесконечную точность представления, а цифровой - ограниченную точность, поэтому при преобразовании неизбежно возникает ошибка. Если сигнал имеет большую амплитуду и можно исключить влияние его значений на величину ошибки квантования, то ошибку можно рассматривать как случайную величину с нулевым математическим ожиданием, имеющей равномерное распределение в интервале, ширина которого равна шагу квантования (величине, соответствующей младшему разряду кода). При выборе шага квантования следует добиваться того, чтобы шум квантования был, по крайней мере, сравним по мощности с другими шумами канала.

Зачем же необходимо сжимать аудиоданные? Существует две причины, обуславливающие необходимость компрессии/декомпрессии аудиоданных: экономия памяти при хранении аудиоинформации (для высококачественного воспроизведения необходимо выполнять дискретизацию сигнала на большой частоте и с большой разрядной сеткой (32 бит), что приводит к большим размерам аудиофайлов), низкая пропускная способность каналов передачи цифровой информации на расстояние. Применение компрессии/декомпрессии эффективно решает обе вышеуказанные проблемы.

Для снижения потока аудиоинформации в канале применяют различные алгоритмы компрессии/декомпрессии звука, среди которых наиболее простые - закон мю, закон А, более сложные - ADPCM, GSM и другие.

Любое сжатие информации приводит к ухудшению ее качества. Однако в процессе эволюции человеческий слух научился адаптироваться к некоторым видам помех, не замечая их присутствия в принимаемой аудиоинформации. Прежде всего, следует заметить, что слух имеет логарифмическую чувствительность, то есть воспринимаемый уровень шума зависит от общего уровня сигнала. Слух человека является также нелинейной системой, исследования которой провел М.А. Сапожков. Он ввел понятие критической полоски речи, определив ее как ": такую полоску частотного диапазона речи, которая воспринимается как единое целое, и по слуховому ощущению может быть заменена эквивалентным тоном". Аналогичные частотные группы обнаружили Цвикер и Флетчер [1, 2, 3]. Поэтому в International Telegraph and Telephone Consultative Committee (CCITT) при разработке рекомендации G.711 [3, 4] был использован подход сжатия звуковых отсчетов (цифровых кодов) на основе свойств слуха человека.

В рекомендации CCITT G.711 предложены два алгоритма преобразования звуковых сигналов: закон мю и закон А. Кодирование по закону мю широко используется в США и Японии, а кодирование по закону А - в Европе. Оба эти алгоритма преобразуют исходные отсчеты исходной последовательности сигнала в формате ИКМ в байтовые отсчеты. Каждый отсчет исходной последовательности преобразуется в один байт.

В рекомендации CCITT законы мю и А заданы в виде таблицы, однако они легко могут быть реализованы аппаратно с помощью сигнальных процессоров. Эти алгоритмы во многом напоминают преобразование чисел в формате с плавающей запятой. Для представления числа отводится 3 поля: поле знака, поле мантиссы и поле порядка. В поле порядка содержится степень, в которую следует возвести число 2, чтобы при умножении результата этой операции на мантиссу получить истинное абсолютное значение данного числа в формате с фиксированной запятой.

Структура байта при кодировании
Рисунок 1 - Структура байта отсчета для закона мю и закона А

Алгоритм закона мю рекомендован для преобразования 14 разрядных отсчетов со знаком в байт, однако, в IBM PC выполняется преобразование 16 битных отсчетов, так как они приняты как стандартные.

В законе мю старший пятый бит всегда равен 1, и поэтому он не передается, а восстанавливается при декодировании.

Кодирование по закону А во многом аналогично кодированию по закону мю, однако в данном случае исходная информация представляется в формате 13 битного числа со знаком (в IBM PC используется 16 битовое число со знаком) При кодировании не используется смещение, а значит пятый старший бит мантиссы может принимать нулевое значение, что вносит коррективы в алгоритм декодирования.

При кодировании аудиоинформации по закону мю или закону А все отсчеты входной последовательности кодируются независимо, а компрессия, которая позволяет уменьшить размер сообщения в 2 раза, достигается за счет свойств слуха. Это кодирование может быть применено для любых сигналов, в том числе и музыкальных, без заметной потери качества. Однако такое кодирование не может обеспечить значительной компрессии сигнала, поскольку не учитывает его свойства. Поэтому существенной компрессии сигнала можно добиться, передавая не сам сигнал, а его приращения от отсчета к отсчету. На этом принципе основана дельта-модуляция. Существуют и более сложные алгоритмы, например, алгоритм адаптивной дифференциальной импульсно-кодовой модуляции (АДИКМ) [5]. Этот алгоритм использует адаптивный предсказатель значения входного отсчета и кодирует не сам входной сигнал, а ошибку его предсказания. Это позволило снизить количество бит, отводимых для кодирования одного отсчета до 4, что соответствует скорости передачи 32 кбит/с, без снижения качества передаваемой информации.

Человечество прошло путь от громофона в XIX веке до цифрового звука в XXI веке! И это не предел! Нужно и дальше усовершенствовать информационные технологии и средства связи, так как именно они обрабатывают почти все данные в нашем информационном веке, а тот ":кто владеет информацией - владеет Миром:"

Перечень ссылок

  1. Фант Г. Акустическая теория речеобразования. - М.: Наука, 1964. - 284с.
  2. Вахитов Я. Ш. Слух и речь. - Л.: ЛИКИ, 1973. - 122 с.
  3. Секунов Н. Ю. Обработка звука на PC. - СПб.: БХВ-Петербург, 2001. - 1248 с.: ил.
  4. Boll S. F. Suppression of acoustic noise in speech using spectral subtraction. IEEE Transactions on Acoustics, Speech and Signal Processing, vol. ASSP-27, No 2, April 1978, pp. 113-120.
  5. International Telegraph and Telephone Consultative Committee. 1986. Study Group XVIII - Report R26(C), Recommendation G.721. 32 kbit/s Adaptive Differential Pulse-Code Modulation (ADPCM).


доклад сделан на дне науки кафедры ПМИ ДонНТУ в апреле 2002 года


© 2003 Дмитрий Пауков
email: paukoff@fromru.com