Статистический метод идентификации протокола

Statistical protocol identification


АВТОР: Кузьмин Е. Л.

Источник: http://it2012.petrsu.ru/thesis/44.doc

Петрозаводский государственный университет


На сегодняшний день IP-сети помимо передачи статических данных активно используются для передачи мультимедийных потоков (аудио, видео). Стало обычным делом использовать IP-сети для осуществления телефонных звонков, просмотра видеороликов, проведения видеоконференций, организации систем видеонаблюдения и др. В свою очередь появление новых сервисов ведет к значительному увеличению объемов передаваемой информации, а, следовательно, требования к каналам связи возрастают. Также необходимо отметить, что мультимедийные данные очень чувствительны к задержкам и потере пакетов, так как это сильно отражается на ухудшении качества звука или изображения на стороне получателя потока. Во избежание этого необходимо применять особые настройки для передачи пакетов данного типа. Так, например, на сегодняшний день в сетевом оборудовании существуют механизмы, позволяющие обеспечить определенному трафику требуемые параметры передачи, предоставить необходимый уровень качества обслуживания (QoS). Для применения особых правил передачи мультимедийных потоков в первую очередь необходимо обладать инструментом для точной идентификации и классификации трафика по принадлежности к той или иной группе, то есть иметь возможность правильно определить используемые протоколы и приложения.

Существуют различные способы классификации трафика. Самый простой из них является метод на основе TCP/UDP портов. В данном методе анализируются используемые при передачи пакетов порты. Если порт находится в списке зарегистрированных портов IANA [1], то мы определяем, к какому протоколу данный пакет относится. Данный метод довольно прост в использовании, но имеет очень высокую вероятность ошибки, так как на сегодняшний день имеется большое количество сетевых приложений, использующих для передачи пакетов незарегистрированные порты. Некоторые приложения используют динамически изменяющиеся порты. Также различные программы могут использовать один и тот же порт для передачи пакетов. Например, в современном Интернете большое число различных сетевых приложений используют 80-ый tcp порт.

Другим методом является классификация трафика на основе полезной нагрузки (DPIDeep Packet Inspection). Этот метод является более надежным, так как анализирует пакет до уровня приложений (7 уровень модели OSI) и сравнивает с имеющимися, заранее подготовленными шаблонами различных протоколов. Данная функциональность включена в некоторые сетевые устройства. Например, компанией Cisco Systems разработан механизм NBAR (Network Based Application Recognition), позволяющий определять используемые сетевые приложения. Недостатками данного метода являются высокая стоимость устройств, поддерживающих данный механизм, значительное требование к ресурсам сетевого устройства для осуществления быстрого глубокого анализа пакетов, необходимость в наличии шаблона требуемого протокола, невозможность работы с трафиком, который инкапсулирован в туннельный протокол, или зашифрованным трафиком.

Следующий метод, лишенный указанных недостатков двух вышеописанных, представлен в работе E.Hjelmvik и называется Статистический метод идентификации протокола (SPID) [2]. Принцип работы метода заключается в следующем. В первую очередь пакеты разбиваются на двунаправленные потоки, а затем по первым 10-20 пакетам потока рассчитываются вероятностные распределения для каждого анализируемого параметра. Заранее должны быть произведены подобные расчеты на обучающих потоках и для каждого интересуемого протокола определены вероятностные распределения каждого параметра. Далее вероятностные распределения параметров наблюдаемого потока сравниваются с вероятностными распределениями параметров обучающих потоков с помощью измерения расстояния Кульбака — Лейблера [3]. При получении результата меньше определенной границы, делается заключение, к какому протоколу относится данный поток. Граница заранее определяется эмпирическим путем. Авторами предложено около 30 анализируемых параметров, например, частота появления каждого возможного байта в полезной нагрузке пакета (просматриваются первые 5 пакетов потока) и др. Данный метод имеет следующие преимущества: небольшая база данных протоколов, малая требуемая вычислительная мощность, быстрая идентификация протокола сессии. Эти характеристики позволяют использовать этот метод для идентификации протокола практически в реальном времени на не ресурсоемких системах. Но следует отметить, что изначально автором был сделан уклон на идентификацию P2P трафика, а перед нами стоит задача в обнаружении мультимедиа трафика. В публикации Enhancements to Statistical Protocol IDentification (SPID) for Self-Organised QoS in LANs [4] приведены некоторые изменения в наборе анализируемых параметров данного алгоритма, что привело к лучшим результатам для поиска именно мультимедиа потоков.

В настоящее время проводятся работы по исследованию данного метода на эффективность его применения для выявления и анализа образовательных мультимедиа потоков, передаваемых в сети Петрозаводского гос. университета (ПетрГУ). Анализируются и отбираются параметры для лучшей идентификации мультимедиа потоков, формируется база интересуемых протоколов с их характеристическими параметрами. На основе полученных результатов планируется произвести работы по оптимизации передачи мультимедийного трафика в сети ПетрГУ. А в дальнейшем, разработать систему, позволяющую определять мультимедийный трафик в реальном режиме времени и применять к нему особые правила передачи, которые обеспечат требуемый уровень качества. Работа выполняется при финансовой поддержке Программы стратегического развития ПетрГУ в рамках реализации комплекса мероприятий по развитию научно-исследовательской деятельности.



Библиографический список:

  1. Service Name and Transport Protocol Port Number Registry. [Электронный ресурс]. URL: http://www.iana.org/assignments/service-names-port-numbers/service-names-port-numbers.xml

  2. E. Hjelmvik, W. John, Statistical protocol identification with spid: Preliminary results. [Электронный ресурс]. URL: http://www.cse.chalmers.se/~johnwolf/publications/sncnw09-hjelmvik_john-CR.pdf

  3. Расстояние Кульбака - Лейблера. [Электронный ресурс]. URL: http://en.wikipedia.org/wiki/Kullback-Leibler_divergence

  4. C.Koehnen, C.Uberall, F.Adamsky, V.Rakocevic, M.Rajarajan, R.Jaeger, Enhancements to Statistical Protocol IDentification (SPID) for Self-Organised QoS in LANs. [Электронный ресурс]. URL: http://www.staff.city.ac.uk/~veselin/publications/ICCCN2010.pdf