Источник: "www.bell-labs.org"

Основы моделирования трафика.

Данные интернет-трафика очень сложные. Их статистические свойства сложны, и базы данных являются очень большими. Протоколы сложны и вводят обратную связь в систему трафика. Добавим к этому необъятность интернет-сетевой топологии. Это бросает вызов анализу и моделированию. О большинстве данных Интернет-трафика можно думать как о данных времени: процесс, отмеченный процесс, или ряд времени. Времена начала потоков подключения TCP для HTTP на интернет-сети - процесс. Если мы добавляем к каждому из этих времен начала размер файла, загруженный от сервера к клиенту, результат - отмеченный процесс. Счет байта совокупного трафика, суммированного на одинаково расположенных интервалах - ряд времени.

Совокупные времена начала HTTP на интернет-сетях - суперпозиция источников трафика. Это истинно вообще для переменных трафика на интернет-сетях. Например, совокупные процессы пакета и совокупный счет байта - суперпозиция источников трафика. Жизненно важно эксплуатировать суперпозицию, чтобы раскрыть характеристики Интернет-трафика. Таким образом, мы эксплуатируем фундаментальную структуру трафика. Мы можем работать математически, используя теорию суперпозиции процессов, отмеченных процессов, и ряда времени. Мы можем работать опытным путем, изучая данные как число изменений источников.

Понятие того, как мы определяем источник в целях анализа, нуждается в испытании с данными. Мы можем взять источники, чтобы быть пользователями. Однако, сеть - часто сеть подсетью. Таким образом мы могли взять каждый источник, чтобы быть трафиком одной подсети.

Но есть другой метод приближающейся суперпозиции, которая избегает явной идентификации источников. Это - суперпозиция нормы. Нормы трафика используются как мера числа источников трафика. Мы иллюстрируем с размерами времен начала HTTP в сети для, скажем, 1 недели. Предположим, что мы делим их на блоки длины пять минут каждый. Низкая тарифная оплата, r, отобрана, близко к минимальной наблюдаемой норме. Пусть k будет положительным целым числом. Времена начала для блока с нормой kr были потрачены, чтобы быть суперпозицией k независимых разовых начал процессов, каждый со статистическими свойствами процесса с нормой r. Теоретические результаты получены основанные на теории суперпозиции процессов. Теоретические результаты совпали с эмпирическими следствиями анализа блоков времен начала.

Измерение Заголовка Пакета

Почему Заголовки Пакета
Одна эффективная структура для измерения трафика - поле заголовка пакета TCP/IP, и организация заголовков в потоки подключения TCP. Структура была в месте всюду по большой части короткой истории Интернета, и важная фундаментальная работа явилась результатом этого. Потоки подключения TCP обеспечивают большое количество информации и поперек Интернета и в сети.

Через Интернет
Каждый поток - непрерывное подключение, пересекающее Интернет. Заголовки TCP/IP содержат адреса IP этих двух компьютеров, таким образом мы знаем их местоположение в обширной интернет-топологии. Таким образом потоки могут использоваться, чтобы изучить характеристики всей сети.

На Проводе
База данных потока подключения TCP также обеспечивает информацию о трафике в сети. Заголовки TCP/IP имеют размер каждого пакета в байтах, мы имеем соединенный процесс пакета: время прибытия и размеры всех пакетов. Изучение совокупностей важно, потому что устройства в каждом конце провода должны обработать пакеты, во времени, и работа устройств зависит от времени прибытия пакета и размеров пакета. Формирование совокупности всех пакетов от потоков приводит нас к информации пакета в ее оригинальном состоянии: пакеты во времени. Но сохранение потоком подключения все еще важно, потому что мы часто изучаем подсовокупный трафик: упорядоченные временем пакеты от подмножества потоков. Например, каждый поток следует из приложения, типа HTTP, ПРОГРАММЫ ПЕРЕДАЧИ ФАЙЛОВ, SMTP, или Telnet, прося подключение и передачу информации; важно изучить совокупный трафик приложением, потому что процессы пакета для различных приложений отличны. Мы можем также изучить полученные процессы, сформированные из любой подсовокупности. Общий - счет байта; время разделено в интервалы равной длины, и число байтов пакетов, прибывающих в каждый интервал вычислено.

Совокупность на MHWire1
Мы фиксируем все заголовки пакета на конце, который подключает сеть Исследования Лабораторий Звонка приблизительно 3000 машин к остальной части Интернета. Провод расположен в Марри Хилле, N.J. Совокупность началась 18 ноября 1998 и продолжилась 1 января 2001. Совокупность, организация базы данных, и анализ выполнены в S-сети, система для совокупности заголовка пакета и анализа. Наша текущая база данных состоит из пакета 12 миллиардов заголовков пакета для 600 миллионов потоков подключения TCP.

Совокупность на Helios Wire1
Как часть проекта Интернета Следующего поколения Helios, главное усилие по совокупности заголовка пакета было выполнено на 1 гб/с связи Сети Ethernet, подключающей университетский городок Холма Часовни Университета Северной Каролины к кольцу волокна OC48, которое несет трафик ПРОТОКОЛА INTERNET к другим местным университетским городкам и к остальной части Интернета. Кольцо - часть NCNI gigapop. Наша текущая база данных состоит из 42 часов коллекции на этой связи, 7 шестичасовых интервалов коллекции в течение единственной недели, выбранной, чтобы отразить трафик в течение высоких и низких загрузок.

Архитектура "сеть" является смоделированной сетью связей, сетевых устройств, и алгоритмов, работа которых изучена через моделирование. "Облака загрузки" являются совокупностями хостов. Сеть смоделирована сетевым симулятором, типа Opnet или NS. TCP транспортирует информацию поперек сети от хоста в одном облаке к хосту в другом. В NS, например, TCP смоделирована, используя исходный текст фактического выполнения TCP от ядра BSD.
Каждое облако имеет совокупную загрузку запросов о передачах от хостов в каждом из других облаков. Облако производит запросы подключения TCP о приложениях, типа HTTP, SMTP, FTP, и т.д. Запрос состоит из (1) время запроса; (2) размеры файла (например, для HTTP, размер файла запроса и размера загруженного файла); и (3) время полета пакета от каждого хоста, вовлеченного в передачу по сети. Каждая переменная запроса произведена стохастически статистической моделью, ряд времени значений переменной, происходящей во времени запроса.
Переменные запроса подключения, или просто переменные подключения, измеряют характеристики запроса, типа времени и размера файла, и они измеряют характеристики сети во время запроса, типа времени перехода туда и обратно. Например, для HTTP 1.0, переменные подключения - время прибытия начала подключения, размеры файла сервера, размеры файла клиента, сервер-времена перехода туда и обратно, и  клиент-времена перехода туда и обратно. Каждая из этих переменных ряда времен определена отдельно для каждого прикладного протокола. Мы строили статистические модели для переменных запроса подключения. Каждая переменная запроса произведена стохастически его статистической моделью, ряд времени значений переменной, которую каждый связал с одним временем запроса. Наши статистические модели запросов трафика включают зависимость дальнего действия и нестационарную, которая распространяется в Интернет-трафике. Прежний известен и очень изучен. Последний, однако, получил намного меньше внимания. Трафик в Интернет-сетях - суперпозиция источников трафика. Причина нестационарность - изменяющееся число сверхизложенных источников трафика. Как изменения числа, статистическое изменение свойств. И изменение намного более глубоко чем только просто увеличение нормы как число увеличений источников. Крайние распределения и автокорреляция изменяются также. Наши модели развиваются через обширное эмпирическое и теоретическое исследование, основанное на подходе к трафику, моделируя названный "суперпозиция нормы подключения." Принятие на себя ответственности этого подхода состоит в том, что статистический процесс пункта, который производит времена запроса TCP для приложения, когда норма запроса - kr, где k - положительное целое число и r, является нормой базового процесса, является суперпозицией k-fold k независимых процессов пункта с нормой r.
В прошлом мы имели сетевые симуляторы, которые обновляют сетевые устройства, топологию, и протоколы с оглушением детали. Но их применимости препятствовала нехватка поколения трафика запроса. Природа трафика запроса может иметь главный эффект на трафик пакета сети. Например, поведение организации очередей зависит сильно от трафика запроса. Один из самых внушительных симуляторов, Opnet, имеет 12 томов документации, но только несколько страниц посвящены запросам подключения.
Одно средство к нехватке моделирования трафика запроса должно было передавать пакеты в сеть, используя статистические модели поведения пакета. Но это не является реалистическим, потому что это - открытый цикл, не с обратной связью; то есть, это не принимает во внимание обратную связь TCP. Моделируя запросы, поскольку мы делаем, в TCP, запускают уровень, и выполнившееся программное обеспечение TCP, чтобы произвести запросы, мы достигаем поколения пакета с обратной связью. Так - исследования организации очередей, например имеют законность, не достигнутую открытой организацией очередей цикла. Свойства переменных подключения, типа времени прибытия подключений HTTP в сети были изучены в литературе. Однако, большая часть исследования была описательной, только частичные характеристики статистического поведения переменных. Наши модели обеспечивают полное описание, которое позволяет переменные произведенному стохастически так, чтобы они подражали живым запросам на интернет-связи.
Другое средство должно было строить модели запроса на пользовательском уровне, то есть, моделируя пользовательское поведение. Но это - задача укрощения, и в то время как это может служить очень полезно изолированным исследованиям специфических приложений, это не практично для обширной прикладной среды, которая проникает в Интернет-сеть, который является заполненным пакетами от сотен приложений. Кроме того, наше моделирование на уровне начала TCP позволяет трафик в различных нормах быть произведенным как единственный поток, который очень ускоряет вычисление и позволяет большое количество хостов, тогда как суперпозиция источников для моделей пользовательского уровня вовлекает слияние так много потоков, как пользователь, который ограничивает число хостов.