ОПРЕДЕЛЕНИЕ ХАРАКТЕРА ИНТЕРНЕТ-РЕСУРСОВ И ТИПОВ ПОЛЬЗОВАТЕЛЕЙ ПО TCP-ТРАФИКУ

Источник http://www.sksi.ru/konf/messages/1/datiev.doc

ОПРЕДЕЛЕНИЕ ХАРАКТЕРА ИНТЕРНЕТ-РЕСУРСОВ И ТИПОВ ПОЛЬЗОВАТЕЛЕЙ ПО TCP-ТРАФИКУ

Проблема анализа Интернет-трафика (веб-трафика) интересует исследователей по разным причинам, - в большей степени практической направленности. С одной стороны результатом такого исследования могут стать соответствующие оценки и прогнозы[2,8], которые позволят обосновать необходимость изменения (улучшения) характеристик используемых в организациях информационно-коммуникационных систем. С другой - такие результаты позволят определить формальные характеристики, на основании которых будет строиться политика ограничения и разграничения доступа к информационным ресурсам. На сегодняшний день, моделирование является основным средством при решении задач планирования и проектирования информационных сетей. Естественно, построение большинства современных моделей базируется на результатах анализа статистических данных, собранных в реально существующих сетях. Не исключено, что подобные работы могут вестись в рамках более глобальных и даже фундаментальных исследований.

Одной из исследуемых проблем является определение по трафику характеристик запрашиваемого ресурса и характеристик, определяющих пользователя. Подобная типизация или классификация весьма полезна в корпоративных сетях, где доступ к информационным ресурсам ограничен и требует контроля.

Возможные подходы к решению таких вопросов сейчас нередко освещаются в научных публикациях [4,5,7]. Однако в основном для проведения подобных исследований, для достижения поставленных целей, в каждом отдельном случае используются либо достаточно тривиальные способы, либо сильно обобщенный подход. Например, тип ресурса можно определить по расширению запрашиваемого объекта из http-лога, где он хранится в открытом виде. Другой пример, когда проводится анализ сетевого трафика в очень обобщенном виде - для целой группы пользователей. В ходе подобного анализа не учитывается, что группа состоит из людей, преследующих различные цели (например, в рамках выполнения своих должностных обязанностей), а соответственно использующих с разной интенсивностью почтовые сервисы, специфические в рамках каждой должности информационные ресурсы, что в свою очередь порождает различный сетевой трафик. Делать выводы о поведении типового пользователя исследуемой группы в таких условиях зачастую бессмысленно, и равносильно такому статистическому показателю, как средняя температура пациентов по больнице.

В данной работе рассматривается практический аспект анализа трафика на основе заголовков tcp-пакетов. Основная цель исследований – типизация запрашиваемых ресурсов и пользователей по низкоуровневым данным трафика. Особенность такого подхода заключается в том, что выбранный уровень сетевого взаимодействия не содержит детальной информации о типе ресурса и пользователе, и отражает искомые характеристики лишь косвенно. Однако видимую на первый взгляд искусственность выбранного подхода можно оправдать преимуществом доступности tcp-характеристик трафика. Это именно тот уровень взаимодействия, который без дополнительных преобразований (декодирования) доступен как программным, так и аппаратным маршрутизаторам и не требует средств промежуточного хранения.

Суть исследований заключается в том, чтобы на основании данных о веб-трафике (из заголовков tcp-пакетов) определить тип используемого веб-ресурса, а, исходя из определенной комбинации таких типов, определить тип пользователя. В свою очередь создание методики классификации пользователей на основе характеристик tcp-трафика представляется полезным для оценки зависимости нагрузки на сеть от количества и категориальной принадлежности пользователей данной сети, а так же для симуляции работы сети при различных условиях (прогнозирование).

Известно, что веб-ресурсы по различным критериям могут быть отнесены к определенному типу [6,7]. Например, можно рассмотреть такую классификацию веб сайтов: новостные, поисковые, галереи картинок, веб-порталы и каталоги, и т.п. С одной стороны этот список можно продолжать и дальше, пополняя его все новыми и новыми типами. С другой стороны, - современные ресурсы Сети становятся более универсальными, и там где раньше был всего лишь поисковый сайт, - теперь целый портал с почтовым сервером, каталогом и новостными разделами.

Подобного рода классификацию также можно ввести относительно пользователей. Каждый сеанс связи характеризует пользователя как: «читателя новостей», «поисковика», «скачивателя файлов», «просматривальщика картинок» и т.д. Несмотря на универсализацию веб-ресурсов в целом, остаются неизменными типы данных, к которым обращается пользователь. К таким типам можно отнести: текст, картинки, архивы и другого вида электронные документы. Различные сочетания и последовательность обращений пользователя к этим «базовым» видам документов позволят классифицировать используемый веб-ресурс, а также текущий сеанс пользователя. Задача идентификации типа ресурса и пользователя по характеристикам трафика может решаться на разных уровнях сетевого взаимодействия. От выбранного уровня зависит множество доступных данных, которые ложатся в основу классификации и типизации. Информацию, которую предоставляет протокол транспортного уровня (TCP) можно разделить на два вида: статическую и динамическую.

а) статические характеристики – определяются из одного пакета (откуда, куда, сколько);

б) динамические/потоковые – определяются из потока - продолжительность сессии, время начала и окончания, объемы сессий целиком, кол-во элементов, загруженных в одну сессию. Общую схему методики типизации пользователей можно представить следующим образом:

1. На основании данных, извлеченных из заголовков TCP-пакетов, разделяем сессию пользователя на веб-страницы.

2. Классифицируем веб-страницы, просмотренные пользователем.

3. На основе информации о количественном соотношении просмотренных пользователем веб-страниц различных типов, делаем выводы о предпочтениях пользователя и относим его к некоторому типу. Предварительный этап исследования заключается в составлении базы данных веб-страниц различных типов. На сегодняшний день этот этап не автоматичен, и решение о принадлежности веб-страницы тому или иному типу принимается человеком. Ключевым свойством протокола HTTP 1.0, используемым для извлечения соответствующей информации из заголовков пакетов TCP, является установление отдельного TCP-соединения для передачи каждого веб-объекта. Веб-объектом может являться отдельный файл, так называемое тело веб-страницы (HTML-код), компоненты веб-страницы (картинки, баннеры и т.д., автоматически загружаемые веб-браузером при синтаксическом разборе тела веб-страницы). Процедура установления TCP-соединения использует специальный флаг синхронизации – SYN и состоит из трех этапов обмена сообщениями – так называемое «трехходовое квитирование» (см. рис. 1, стрелками на рисунке обозначено направление передачи TCP-пакетов, в заголовках которых установлены соответствующие флаги). Соединение за

крывается, когда происходит обмен пакетами, содержащими команду FIN, либо по истечении некоторого промежутка времени. Для воссоздания обмена данными НТТР-соединения по протоколу НТТР 1.1 используются наблюдения авторов работы[1,2,3]: сервер получив НТТР-запрос должен послать подтверждение получения АСК, указав номер последнего байта принятой последовательности, т.е. приём всех запросов должен быть подтвержден перед отправкой НТТР-ответа (подразумевается, что не используется конвеерный режим). Таким образом, можно вычислить размер запроса с помощью значений поля АСК и размер ответа по значениям поля SEQ.

Важной проблемой является определение границ одной страницы. Ведь все зависит от набора страниц, с которыми работает пользователь, от их содержимого и динамики работы с ними. Основным подходом на сегодняшний день является выделение некоторого порогового временного интервала[4], после которого загруженные веб-объекты считаются принадлежащими следующей веб-странице. В данной работе объекты считаются принадлежащими одной веб-странице, если временной интервал между передачей последующего (по времени) пакета одного объекта и передачей предыдущего пакета другого объекта составляет менее одной секунды. На первом этапе, воспользовавшись описанными выше свойствами протокола НТТР, каждая загруженная пользователем веб-страница представляется в виде последовательности объектов определенного размера: P=, где P -- веб-страница, Si – размер i-того загружаемого объекта, N – количество объектов веб-страницы. На основе статистических характеристик производится проверка: сходна ли веб-страница, загруженная пользователем, со страницей какого-либо типа, содержащейся в базе следующим образом. Внутри типовых представителей веб-страниц различных типов рассчитываются такие статистические показатели, как дисперсия ? и среднее µ. Различие между двумя группами рассчитывается по формулам:

S=?1*m + ?2* ?, где m = | µ(N1) - µ(N2)| / MAX ((µ(N1), µ(N2)), ? = | ? (N1) - ? (N2)| / MAX ((? (N1), ? (N2)),

где N1, N2 – множества веб-страниц P; ?1 , ?2 – веса, задаваемые на основе анализа статистической информации. В базе данных о пользователях хранится информация о количестве посещений каждым пользователем веб-страниц каждого типа. При просмотре пользователем веб-страницы определенного типа увеличивается соответствующее значение в базе данных. В итоге, проанализировав информацию о каждом пользователе, на основании преимущественно посещаемых типов ресурса, делается предположение о типе пользователя. Вследствие некоторых технических особенностей, таких как конвейерная обработка данных, кэширование, параллельная работа пользователя с несколькими окнами браузера, принудительная остановка загрузки веб-страниц, автоматическая загрузка последовательности веб-страниц, информация полученная посредством анализа TCP-заголовков может быть неточной . Однако, следует отметить, что данные технические особенности на сегодняшний день используются лишь в незначительной доле общего трафика.

На сегодняшний день, методы классификации и распознавания веб-страниц применяются в основном в поисковых системах для отбора веб-страниц, наиболее релевантных запросу пользователя, однако типизация веб-страниц может быть полезна и при решении задач ограничения доступа, самым распространенным подходом решения которых является «черный список». Полученные результаты планируется применить для анализа предпочтений информационных ресурсов различного содержания пользователями корпоративных сетей, создания системы ограничения доступа к развлекательным ресурсам с рабочих мест и в рабочее время. Так же, результаты, полученные в данной работе, планируется использовать при создании генератора сетевого трафика, основной отличительной особенностью которого от аналогичных разработок является учет предпочтений пользователями информационных ресурсов различных типов, что непосредственно влияет на трафик, генерируемый как одним пользователем в частности, так и популяцией пользователей.