Юрий Брауде-Золотарев 'Обзор и характеристика методов сжатия речи'

Библиотека

Источник: Юрий Брауде-Золотарев, Журнал Компьютерра /12 апреля 1999 г./ Сжатие речи - Обзор и характеристика методов сжатия речи.
Архив номера: http://offline.computerra.ru/1999/293/

Сжатие речи при ее передаче сокращает объем передаваемых данных, затраты и, благодаря этому, позволяет снижать цены на услуги и привлекать новых пользователей. Именно поэтому рынок цифровой телефонии развивается под непосредственным технологическим диктатом ученых и разработчиков кодеков речи.

Очевидно, что только начиная с каких-то пороговых значений соотношения скорости передачи и доступной емкости каналов операторы связи имеют достаточную (для развития и своего, и рынка) прибыль. В настоящее время можно сказать, что этот порог уже превышен. Это привело к тому, что расценки на цифровую связь стали более чем конкурентны по сравнению с проводной аналоговой, а благодаря скорому переходу к кодекам речи на скорости порядка 2,4 кбит/с и ниже, цена минуты междугородного разговора может в ближайшие годы снизиться до нескольких центов за минуту. Тут уже из-за массовости услуги можно говорить о сверхприбылях, и неудивительно, что только ленивый на рынке сегодня не косит глаз в сторону услуг передачи речи.

Сказав про успехи, нельзя не сказать хотя бы пару слов и о недостатках. Качество звучания сжатой речи, что в сотовой, что в Интернет-телефонии, мягко говоря, "не очень". Некоторые (из тех, конечно, кто имеет такой выбор) до сих пор предпочитают аналоговые сотовые сети цифровым, поскольку в последних речь часто звучит механически, случаются посторонние звуки и т. п. - и все из-за сжимающих кодеков речи, так как в остальном цифровые протоколы передачи обеспечивают лучшее качество звучания. В компьютерной телефонии снижению качества мы, помимо кодеков речи, обязаны заметным запаздываниям сигнала и ошибкам при сборке пакетов. Впрочем, это болезни роста: понятно, что если с кодеком на 2,4 кбит/с "узкий" канал справляется с трудом, то на скорости 1,2 кбит/с проблем будет меньше. Да и пропускная способность компьютерных сетей возрастает настолько быстро, что в ближайшей перспективе сетевая задержка снизится в несколько раз и дефекты сборки пакетов будут маловероятны или исчезнут. И тогда и у пользователей, и у операторов на первое место могут встать высокие требования именно к низкоскоростным кодекам речи.

Речь представляет собой колебания сложной формы, зависящей от произносимых слов, тембра голоса, интонации, пола и возраста говорящего. Спектр речи весьма широк (примерно от 50 до 10000 Гц), но для передачи речи в аналоговой телефонии когда-то отказались от составляющих, лежащих вне полосы 0,3-3,4 кГц, что ухудшило восприятие ряда звуков (например, шипящих, существенная часть энергии которых сосредоточена в верхней части речевого спектра), но мало затронуло разборчивость. Ограничение частоты снизу (до 300 Гц) также ухудшает восприятие из-за потерь низкочастотных гармоник основного тона. А в цифровой телефонии к влиянию ограничения спектра добавляются еще шумы дискретизации, квантования и обработки, дополнительно зашумляющие речь.

Решающими в выборе полосы 0,3-3,4 кГц были экономические соображения и нехватка телефонных каналов. Более того, в те времена, когда время ожидания заказанного разговора составляло десятки часов, экономические ограничения привели к установке на трансконтинентальных линиях США и атлантическом кабеле так называемой аппаратуры J2, каналы которой и вовсе имели полосу 0,3-1,7 кГц. Такая аппаратура некогда работала и на линии Москва-Владивосток. Качество ее каналов едва достигало двух баллов MOS, но решающим оказалось двукратное увеличение числа телефонных соединений. Потребности пользователей в каналах сделали тогда вопросы качества речи второстепенными.

Для совместимости по полосе с распространенными аналоговыми сетями в цифровой телефонии отсчеты аналоговой речи приходится брать согласно теореме Котельникова с частотой 8 кГц - не меньше двух отсчетов на 1 Гц полосы. Правда, в цифровой телефонии существует принципиальная возможность использовать спектр речи за пределами полосы 0,3-3,4 кГц и тем самым повысить качество, но эти методы не реализуются, так как они вычислительно пока еще очень сложны. Впрочем, кое-что появляется: уже разработаны универсальные кодеки для компьютерной телефонии и мультимедиа, способные пристойно передавать не только речь, но и музыку. При полосе исходного сигнала до 6 кГц и тактовой частоте отсчетов около 16 кГц сжатый цифровой сигнал требует для передачи канал в 12 кбит/с. При этом оценка качества по критерию MOS может быть выше 4,5 балла.

Озвученная речь, представляющая большую трудность для сжатия, образуется с помощью звуковых связок человека. Скорость их периодических колебаний задает так называемую частоту основного тона (ОТ) - периодическую подпитку энергией голосового тракта человека, который представляет собой объемный резонатор. Голосовой тракт формирует спектральную окраску речи, или, другими словами, ее формантную структуру. Другое название голосового тракта - синтезирующий фильтр - нам более удобно, так как математическое описание речеобразования обычно ведется в терминах линейной фильтрации. Тогда, условно, речевой сигнал можно разделить на две составляющие, отвечающие за (1) ОТ (возбуждение фильтра) и (2) голосовой тракт (формантная структура сигнала). Соответственно, большинство на сегодня используемых алгоритмов, так или иначе, решают один вопрос - как наиболее эффективно выделить и сокращенно описать обе составляющие. А отрезки глухой речи при моделировании заменяют спектрально окрашенным шумом.

Линейное предсказание

Вкратце очень красивая идея линейного предсказания (ЛП) такова: сформировать из нескольких отсчетов речи линейную комбинацию, наиболее точно аппроксимирующую следующий отсчет. Для этого сигнал речи сегментируют на блоки, обрабатывают окном и для каждого блока вычисляют автокорреляционную функцию (АКФ), число отсчетов которой обычно около 10. Оказывается, что такая АКФ содержит исчерпывающую информацию о формантном спектре речи на данном сегменте. На втором шаге находят решение системы линейных уравнений относительно коэффициентов предсказания - тех самых, что нужны для формирования синтезирующего фильтра. Фактически найденные коэффициенты задают спектральную модель голосового аппарата человека, и чем выше порядок ЛП, тем точнее модель.

...

После появления первых вокодеров случилась "пауза": развитие техники связи и появление многоканальных высококачественных телефонных линий, с одной стороны, и неразвитость цифровой техники, с другой, на некоторое время ослабили интерес к сжатию речи. Вокодеры уцелели только в системах засекреченной военной и правительственной связи, в некоторых каналах спецрадиосвязи, вроде аэродромной. А в нарождающейся цифровой связи господствовали два алгоритма нелинейной ИКМ, обеспечивающие прекрасное телефонное качество. Два - потому, что в Европе ("А-закон") и в США ("мю-закон") были приняты разные реализации одного и того же стандарта! Отсутствие единого стандарта с развитием международных связей стало очень неудобным, так как требовало перекодировки речи при передаче речевого сигнала из одной сети связи в другую, а с учетом того, что трафик между США и Европой большой, то и перекодировок требовалось немало... Кстати, вынужденная перекодировка вносит дополнительные шумы и снижает оценку MOS.

Перекодировки, а говоря грамотнее: отсутствие единых стандартов - вообще больная тема. В России, например, это вечный матч KOI-8 vs. CP1251 с подсуживающими судьями-провайдерами и всегда проигрывающими пользователями. Но если проблема перекодировок русских кодовых таблиц более или менее поддается решению, хотя и не всегда без потерь, то при передаче речи "перекодировки", возникая постоянно (сегодня в разных сетях связи используют кодеки разных стандартов), могут сильно ухудшать качество звучания и сдерживать развитие рынка. Правда, для сетей IP-телефонии это не самая большая проблема. Гораздо более важную сдерживающую роль играет несовместимость протоколов и аппаратуры, используемой провайдерами IP-телефонии, когда каждый из них строит чуть ли не выделенную сеть связи, примерно также, как это было в эпоху зарождения традиционной телефонии. В последнее время процесс сближения пошел веселее, о чем, например, см. КТ #48 [276], стр. 7 ("Долго запрягают"), но сколько их уже было, таких процессов, за последние пару-тройку лет! А сейчас при передаче речи из одной сети в другую дополнительные искажения просто неизбежны.

Логарифмическая ИКМ никак не использует взаимную корреляцию между соседними отсчетами речи, поэтому первым примером сжимающей обработки стоит считать дифференциальную ИКМ (ДИКМ), при которой осуществляется предсказание речи первого порядка. Предыдущий отсчет берется с определенным весом, формируя прогноз. Разница между предсказанным и реальным отсчетом речи подвергается квантованию. Позднее появилась более продвинутая технология - адаптивная дифференциальная ИКМ (АДИКМ). При АДИКМ размеы шкалы квантования подстраивают в соответствии с энергией речи так, чтобы слабые сигналы квантовались малыми ступенями квантования, а сильные сигналы - большими. Благодаря непрерывной подстройке шага квантования к текущей мощности речи, разрядность шкалы квантования при АДИКМ удалось снизить до четырех бит и получить кодек со скоростью передачи 32 кбит/с и качеством, близким к ИКМ.

Алгоритм управления адаптацией шкалы вносит запаздывание, ухудшающее качество речи. В 1987 году во вкладе СССР в Международный консультативный комитет по телефонии и телеграфии был описан алгоритм АДИКМ G.721-bis с ускоренной адаптацией шага. Затем рекомендация G.721 еще несколько раз улучшалась, и в 1984 году был принят стандарт ITU-T G.726 на АДИКМ (32 кбит/с), но с лучшим качеством, используемый по настоящее время на спутниковых и других линиях связи.

Дальнейшая история такова: 1984 год - стандарт ITU-T G.726 на скорость 32 кбит/с; 1990 год - сложный, дорогой, но все-таки низкоскоростной кодек на 6,4 кбит/с (спутниковая связь INMARSAT); 1992 год - европейский сотовый стандарт GSM (13 кбит/с) и стандарт ITU-T G.728 LD-CELP (16 кбит/с) и т. д. Подробности относительно некоторых стандартизированных кодеков приведены в таблице, но, помимо них, имеется еще много так или иначе общепризнанных алгоритмов; мы ограничились лишь основными стандартами.

Настоящим же прорывом в кодировании речи стали кодеки на базе линейного предсказания (ЛП), появившиеся в конце 60-х и до сих пор остающиеся основным способом сжатия речи. В таблице кодеки на базе ЛП занимают позиции с четвертой по девятую.

Из относительно новых алгоритмов стоит назвать совместную разработку фирм Audiocodec (Израиль) и DSP Group (США) - ЛП-кодек на скорость 6,3 кбит/с. Несмотря на значительно большую, чем у АДИКМ, среднеквадратичную погрешность синтеза, получена лучшая (3,9 балла MOS) оценка качества, чем у АДИКМ. Это достигнуто благодаря двум усовершенствованиям алгоритма линейного предсказания алгебраического CELP. Первое: длина сглаживающего окна трехкратно увеличена относительно длины анализируемого сегмента речи, что ослабило искажения, вносимые асинхронностью анализируемых сегментов речи и интервалов ОТ. Второе: метод более точного формирования сигнала возбуждения синтезирующего фильтра, названный авторами MP-MLQ (Multipulse Maximum Likelihood Quantisation). Еще одним важным преимуществом этого алгоритма является более надежное по сравнению с предшественниками вычисление параметров ОТ.

На базе этого кодека фирма Rad Data Communications (США) выпускает аппаратуру статистического уплотнения телефонных каналов сетей общего назначения: в канале 64 кбит/с удается разместить до тринадцати телефонных каналов. На сегодняшний день этот кодек является видимо одним из наиболее перспективных и для IP-телефонии.

Другой интересный подход реализован в кодеке MELP (Mixed Exitation Linear Prediction - кодек ЛП со смешанным возбуждением) на скорость 2,4 кбит/с, разработанный фирмой Texas Instruments и выигравший открытый конкурс по замене кодека федерального стандарта США FS-1016, до сих пор используемого в правительственных сетях США. В этом кодеке использованы четырехполосный анализ речи и ЛП, на его базе уже появилась аппаратура для систем мобильной радиосвязи, не уступающая по качеству речи известным цифровым радиостанциям и более доступная по цене.

...

Снисарь Николай Александрович

Передача данных посредством голосового канала GSM сети в системах коммерческого учета электроэнергии.