s2p@mail.ru

Ступак Глеб Владимирович

Донецкий Национальный Технический Университет

Факультет Компьютерных информацинных технологий и автоматики

Кафедра Автоматики и Телекоммуникаций

Специальность: "Телекоммуникационные сети и системы"

Тема магистерской работы: "Изучение причин возникновения эха в IP-телефонии и разработка методов подавления эха при передаче голосового трафика по каналам интернет"

Научный руководитель: Хорохордин А.В.

Автореферат Биография Ссылки Литература Индивидуальное задание
  ДонНТУ
  Факультет КИТиА
  Магистры ДонНТУ
  Поисковик ДонНТУ
  Биография
  Ссылки
  Литература
  Индивидуальное задание
  Классическая телефония с ее традиционными телефонными услугами POTS (Plain Old Telephone Service), достаточно хорошо изучена за свою более чем столетнюю историю [1]. В первую очередь это связано с тем, что долгое время не было альтернативы для ее замены.
  Со времени своего возникновения телекоммуникации базируются на передаче электромагнитных сигналов через транспортную среду, каковой могут быть: металлический кабель, оптоволокно,радиоканал.
  Передаваемая в виде электромагнитных сигналов информация может представлять собой: речь, данные, видеоизображение, или любую их комбинацию, называемую мультимедийной информацией.
   Эти три источника и три составные части телекоммуникаций в полной мере отражают их современное состояние, причем современность здесь понимается в широком смысле. Передача по сетям связи информации трех перечисленных выше видов благополучно осуществлялась не одно десятилетие, пока не сработал принцип, давно известный в сфере искусств - все дело в пропорциях [1].
  В технической литературе используются три основных термина для обозначения технологии передачи речи по сетям с пакетной коммутацией на базе протокола IP (Internet Protocol):
  • IP-телефония (IP Telephony);
  • голос по IP-сетям
  • Интернет-телефония (Internet Telephony).
   Хотя терминология в области IP-телефонии не устоялась окончательно, попробуем все-таки внести некоторую ясность.
   Под IP-телефонией будем понимать технологию, позволяющую использовать любую сеть с пакетной коммутацией на базе протокола IP (например, сеть Интернет) в качестве средства организации и ведения международных, междугородных и местных телефонных разговоров и передачи факсов в режиме реального времени.
   За рубежом технология передачи голосовой информации с использованием протокола IP имеет устоявшееся название Voice over IP (VoIP). В отношении сервисов и технологий между IP-телефонией и VoIP нет никакой разницы.
   Интернет-телефония - это частный случай IP-телефонии, когда в качестве каналов передачи пакетов телефонного трафика либо от абонента к оператору, либо на магистрали (либо на обоих названных участках) используются обычные каналы сети Интернет [3].
   Конвергенция. На сегодняшний день это одно из самых популярных слов, используемых при описании перспектив развития телекоммуникаций. Трактуется оно разными авторами по-разному, однако в большинстве случаев важнейшей чертой конвергенции является сближение, а затем и слияние традиционных сетей связи (главным образом телефонных) с сетями передачи данных, и в первую очередь с Интернет [2].
   Смещение центра тяжести в область передачи данных поставило вопрос о поиске удобного способа встраивания речи в мультимедийный цифровой поток. Причина популярности IP как раз и заключается в его восприимчивости к требованиям со стороны не только услуг передачи данных, но и приложений реального времени. Примером может служить успешно реализованная технология передачи речевой информации по сетям с маршрутизацией пакетов IP - IP-телефония. На рисунке 1 представлено графическое отображение соотношения скорости роста <абонентов> сети Интернет (сеть передачи данных - СПД) и традиционной телефонией [1].

Рисунок 1 - Рост трафика Интернет (данные) и телефонного трафика [1]

  Как видно темпы роста сети передачи данных и ТфОП отличаются. СПД развиваются намного интенсивнее. Как правило, это связано со значительным отличием тарифов традиционной телефонии и IP-телефонии.
  По данным исследования рынка IP-телефонии <РосБизнесКонсалтинг> на начало 2004 г. до 12% совокупного мирового рынка речевого трафика и более трети международного трафика передается по технологии VoIP. Одна из заметных сегодняшних тенденций - значительный рост объемов продаж VoIP в корпоративном секторе. На сегодняшний день это не так заметно, но уже корпоративный трафик составляет около 16% общего трафика VoIP.
  2003 год ознаменовался тем, что всемирный трафик IP-телефонии составил 1 млрд минут в месяц. Прогнозируется рост трафика до 265 млрд минут в месяц в 2005. Доля IP-телефонии по Центральной и Восточной Европе в 2003 году достигла 8,5%. Применительно к России, можно сказать следующее: исходящий российский трафик междугородных и международных соединений вырос на 16,2% - с 13,37 млрд минут в 2002 г. и до 15,54 млрд минут в 2003 г. Объем трафика VoIP увеличился в 2,7 раза, достигнув в 2003 г., по оценке РБК, 1,95 млрд минут. Таким образом, через IP-сети передается более 10% всего голосового трафика. Прогнозируется рост объема российского годового трафика VoIP до 7 млрд минут в 2005 году.


Рисунок 2 - Тенденции роста голосового трафика компании <Ростелеком> [4]

  Несмотря на стремительный рост внедрения IP-телефонии в нашу жизнь, данная услуга еще далека до совершенства. По качеству она уступает традиционной телефонии. Цена оконечного оборудования также достаточно велика для конечного абонента (применительно к частным лицам). Также еще не урегулирована законодательная база для предоставления данного вида услуг.
  С технической точки зрения IP-телефония имеет значимое отличие от ТфОП, которое и предопределяет степень качества предоставляемой услуги.
  Традиционные телефонные сети коммутируют электрические сигналы с гарантированной полосой пропускания, достаточной для передачи сигналов голосового спектра. Сети с коммутацией пакетов не обеспечивают гарантированной пропускной способности, поскольку не обеспечивают гарантированного пути между точками связи. Для приложений, где не важен порядок и интервал прихода пакетов, например, e-mail, время задержек между отдельными пакетами не имеет решающего значения. IP-телефония является одной из областей передачи данных, где важна динамика передачи сигнала, которая обеспечивается современными методами кодирования и передачи информации [3].
  Основные составляющие качества IP-телефонии приведены на рисунке 3.


Рисунок 3 - Параметры, определяющие качество услуги [3]

  У IP-телефонии есть три существенных недостатка: возникающие задержки, наложение речи и эхо. Несмотря на то, что эти три проблемы существовали всегда в ТфОП, но применительно к передаче голоса по каналам СПД значительно усугубились. Дело в том, что задержка вызывает два нежелательных явления - эхо и наложение речи.
  При передаче речи по IP-сети возникают намного большие задержки, чем в ТфОП, которые изменяются случайным образом. Задержка (или время запаздывания) определяется как промежуток времени, затрачиваемый на то, чтобы речевой сигнал прошел расстояние от говорящего до слушающего. Существенное влияние на возникающие задержки оказывают следующие факторы:
  • Влияние сети. Ключевым моментом в определении данной задержки является неустойчивое и плохо предсказуемо время прохождения пакета через сеть. Если загрузка сети относительно велика, пакеты могут довольно долго ожидать обслуживания в очередях. Чем больше маршрутизаторов, коммутаторов и линий в маршруте, по которому проходит пакет, тем больше время его запаздывания, и тем больше вариация этого времени, т.е. джиттер.
  • Влияние операционной системы. Большинство операционных систем не может контролировать распределение времени центрального процессора между разными процессами с точностью, превышающей несколько десятков миллисекунд, и не может обрабатывать за такое же время более одного прерывания от внешних устройств (задержка в продвижении данных между сетевым интерфейсом и внешним устройством составляет величину такого же порядка, или даже больше).
  • Влияние джиттер-буфера. Задержка прохождения пакетов по сети  может быть представлена как сумма постоянной составляющей (время распространения плюс средняя длительность задержки в очередях) и переменной величины, являющейся результатом джиттера. Для того, чтобы компенсировать влияние джиттера, в терминалах используется джиттер-буфер. Этот буфер хранит в памяти прибывшие пакеты в течение времени, определяемого его емкостью (длиной). Пакеты, прибывающие слишком поздно, когда буфер заполнен, отбрасываются. Интервалы между пакетами восстанавливаются на основе значений временных меток RTP-пакетов. В функции джиттер-буфера обычно входит и восстановление исходной очередности следования пакетов, если при транспортировке по сети они оказались <перепутаны>.
  • Влияние кодека и количества передаваемых в пакете кадров. Большинство современных эффективных алгоритмов кодирования/декодирования речи ориентировано на передачу информации кадрами, а не последовательностью кодов отдельных отсчетов. Поэтому в течение времени, определяемого длиной кадра кодека, должна накапливаться определенной длины последовательность цифровых представлений отсчетов. Кроме того, некоторым кодекам необходим предварительный анализ большего количества речевой информации, чем должно содержаться в кадре. Это неизбежное время накопления и предварительного анализа входит в общий бюджет длительности задержки пакета. На первый взгляд, можно было бы заключить, что чем меньше длина кадра, тем меньше должна быть задержка. Однако, из-за значительного объема служебной информации, передаваемой в RTP/UDP/IP-пакетах, передача маленьких порций данных очень неэффективна, так что при применении кодеков с малой длиной кадра приходится упаковывать несколько кадров в один пакет [1].
  Следующая проблема - эхо. Под эхом понимается физический процесс отражения звуковых сигналов, поступающих на дифсистему, осуществляющую согласование 4-проводного и 2-проводного каналов. Отраженные таким образом сигналы поступают обратно к говорящему абоненту и ухудшают разборчивость принимаемой речи. Эхо становится существенной проблемой, если задержка распространения звукового сигнала от источника к приемнику и обратно становится большей 50 мс. В сетях с пакетной коммутацией такая задержка почти всегда выше 50 мс, и в связи с этим должен быть предусмотрен механизм устранения эха [5]. Эхо может иметь электрическую и акустическую природу.
Отражения в дифсистеме являются неотъемлемым свойством ТфОП. Поэтому они проявляются при взаимодействии ТфОП и IP-сетей. С целью экономии кабеля в ТфОП для подключения абонентских терминалов с давних пор используются двухпроводные линии, по которым речевые сигналы передаются в обоих направлениях. Более того, во многих телефонных сетях передача сигналов обоих направлений по двум проводам используется и в соединительных линиях между электромеханическими АТС [6] (хотя теперь для организации связи между АТС всё чаще используется раздельная передача сигналов разных направлений, т.е. четырехпроводная схема их передачи). Для разделения сигналов разных направлений в терминалах абонентов и на АТС применяются простые мостовые схемы, называемые дифсистемами. Работа этих мостовых схем основывается на согласовании импедансов в плечах моста, одним из плеч которого является двухпроводная абонентская линия. Так как абонентские линии могут очень сильно различаться по своим параметрам (длине, диаметру жил кабеля и т.п.), то достичь точного согласования (тем более, во всей полосе передаваемых частот) невозможно. Это приводит к тому, что сигналы прямого и обратного направления в большинстве случаев не разделяются полностью, и в дифсистеме возникает частичное отражение сигналов.
  Если задержка распространения сигнала в сети невелика (что обычно и бывает в местных сетях), такой отраженный сигнал попросту незаметен и не вызывает неприятных ощущений. Если задержка достигает величины 15-20мс, возникает эффект <огромного пустого помещения>. При дальнейшем увеличении задержки субъективная оценка качества разговора резко ухудшается, вплоть до полной невозможности продолжать беседу.
  В рамках ТфОП проблема такого эха известна с тех пор, когда телефонная сеть стала настолько протяженной, что задержки распространения сигналов перестали быть неощутимыми. Были разработаны и методы борьбы с этим феноменом - от минимизации задержек путем соответствующего планирования сети до применения эхозаградителей и эхокомпенсаторов.
  Эхозаградители появились в начале 70-х годов. Принцип их работы прост и состоит в отключении канала передачи, когда в канале приема присутствует речевой сигнал.
  Эхокомпенсатор - это более сложное устройство, которое моделирует эхосигнал для последующего его вычитания из принимаемого сигнала. Эхо моделируется как взвешенная сумма задержанных копий входного сигнала. Оценка импульсной характеристики происходит в тот момент, когда говорит только удаленный корреспондент, для чего используется детектор одновременной речевой активности. После вычитания синтезированной копии эхосигнала из сигнала обратного направления полученный сигнал подвергается нелинейной обработке для увеличения степени подавления эха (подавление очень слабых сигналов). Алгоритмы эхокомпенсации реализуются обычно на базе тех же цифровых сигнальных процессоров, что и речевые кодеки, и обеспечивают подавление эхосигналов длительностью до 32-64 мс. На сегодняшний день эхокомпенсаторы являются неотъемлемой частью голосовых шлюзов IP-телефонии.
  Акустическое эхо возникает при использовании терминалоа громкоговорящей связи, независимо оттого, какая технология используется в них для передачи информации. Акустическое эхо может обладать значительной длительностью, а особенно неприятным бывает изменение его характеристик при изменении, взаимного расположения терминала и говорящего [1].
  И последняя проблема влияющая на качество сигнала в IP-телефонных сетях - наложение речи. По сути это процесс, при котором речь одного говорящего прослушивается в телефоне другого в тот момент, когда он ведет активный разговор. Согласно рекомендации ITU-T G.114 данная проблема становится существенной, если односторонняя задержка становится большей 150 миллисекунд. Задержка в сети является величиной, состоящей из следующих компонентов:
  • Задержка накопления. Эта задержка вызвана необходимостью подготовки кадра из последовательности речевых отсчетов
  • Задержка кодирования.
  • Задержка формирования пакетов. Эта задержка вызвана процессом подготовки речевых пакетов (как информационных единиц протоколов).
  • Сетевая задержка. Эта задержка возникает при передаче пакетов по сети и зависит от используемых в сети каналов и протоколов передачи, а также приемных буферов для удаления джиттера.
  По определению, джиттер - это величина, равная разнице во времени между поступлениями пакетов в приемный буфер, которая возникает вследствие передачи пакетов по сети. Чтобы воспроизведение речи было непрерывным, необходимо предусмотреть меры по удалению джиттера. Эта процедура заключается в объединении пакетов и удержании их некоторое время в буфере, чтобы позволить самым "медленным" пакетам успеть прибыть и занять соответствующее место в последовательности. Естественно, это приводит к дополнительной задержке. Таким образом, две противоречивые цели уменьшения задержки и удаления джиттера привели к созданию различных схем оптимизации размера приемного буфера. Эта оптимизация имеет цель уменьшения размера приемного буфера и вносимой задержки, а также предотвращает приемный буфер от переполнения. Возможны два подхода к оптимизации размера приемного буфера.
  Первый подход состоит в наблюдении изменения уровня (порядкового номера) пакета в приемном буфере за некоторый период времени и постепенно приводить размер буфера в соответствие с рассчетным джиттером. Этот подход более всего пригоден для сетей, которые обеспечивают последовательное изменение джиттера во времени.
  Второй подход состоит в том, чтобы подсчитать число пакетов прибывших с опозданием и определить отношение таких пакетов к числу успешно обработанных пакетов. Этот коэффициент затем используется, чтобы отрегулировать приемный буфер. Это подход лучше всего использовать в сетях для которых характерны большие изменения интервалов между прибываемыми пакетами, например, в сетях IP.
  Для того, чтобы обеспечить гарантированное качество речевой связи, сеть должна быть конфигурируема и управляема таким образом, чтобы обеспечивать минимальную задержку и джиттер [5].
  ITU-T в рекомендации G.114 определил требования к качеству передачи речи. Оно считается хорошим, если сквозная задержка при передаче сигнала в одну сторону не превышает 150 мс . Современное оборудование IP-телефонии при включении <спина к спине> (два устройства - шлюза - соединяются напрямую) вносит задержку порядка 60-70 мс. Таким образом, остается еще около 90 мс на сетевую задержку при передаче IP-пакета от отправителя к пункту назначения, что говорит о возможности обеспечить при современном уровне технологии передачу речи с достаточно хорошим качеством [1].


Список источников:

  1. Гольдштейн B.C., Пинчук А.В., СуховицкийА.Л. IP-Телефония. - М.: Радио и связь, 2001. - 336с.: ил.
  2. http://www.incomtel.ru/rus/tech/articles/ccc_0800_3.html
  3. http://www.planet.com.ru/pagecontent.php?name=pagecontent&rec_id=340&key
  4. http://research.rbc.ru/research/demo/2005/01/20/12402826842.pdf
  5. http://www.aboutphone.info/kunegin/dip/factor.html
  6. Гольдштейн Б.С. Сигнализация в сетях связи. Том 1. М.: Радио и связь, 1998.




Автореферат Биография Ссылки Литература Индивидуальное задание