ДонНТУ    >>    Портал магистров ДонНТУ
 
Третья международная научная конференция студентов, аспирантов и молодых учёных «Компьютерный мониторинг и информационные технологии», ДонНТУ, ФВТИ. 22-23.05.07г
Пахоменко П.Ю. "Прогнозирование сетевой активности пользователей Интернет"
   Глобальные тенденции, которые существуют в интернете (бурный рост числа серверов, сайтов и пользователей, быстрое увеличение пропускной способности каналов сети) приводят к тому, что всё более актуальными являются вопросы сбора и систематизации статистических данных о сети интернет и её пользователях. Процессы происходящие в интернете интересны как крупным корпорациям, так и обычным пользователям, поэтому задача прогнозирования развития глобальной сети становится необычайно важной в наши дни.
   Уже сегодня глобальное распределение финансовых потоков тесно связано с состоянием и развитием сети интернет. В развитие вкладываются колоссальные суммы денег сопоставимые с ресурсами, вкладываемыми в энергетический бизнес. Следовательно, крайне необходимо изучать потоки информации и динамику их развития.
   На сегодняшний момент времени вся статистическая информация, касающаяся сети интернет хранится небольшой промежуток времени (1-3 месяца), поэтому изучать и прогнозировать сетевую активность пользователей можно лишь на краткосрочных интервалах.
   Прогнозирование процессов в науке предполагает составление прогнозов на определённый конкретный временной интервал:
— краткосрочный прогноз (1-2 года);
— среднесрочный прогноз (от 3-х до 5-ти лет);
— долгосрочный прогноз (до 10-15 лет).
   Если учитывать, что бурное развитие сети интернет началось с момента создания службы www (world wide web), которая возникла в 1992 году, то есть чуть более 10 лет, а также что нет статистических данных за достаточно большие промежутки времени, то возникает сложная задача оценки и прогнозирования крупного, быстроразвивающегося объекта.
   С момента создания глобальной сети и до наших дней она прошла 15-ти летний путь от нескольких соединённых между собой компьютеров, до более 500 миллионов пользователей в более чем 150 странах мира [2], поэтому сказать, как сильно изменится интернет в ближайшее время достаточно сложно.
   Основными задачами данного исследования являются:
— сбор статистических данных, систематизация полученной информации;
— отслеживание динамики развития сетевой активности пользователей, выявление параметров изменения сетевой активности в зависимости от времени;
— определение тенденции существующих в сети интернет;
— выбор метода прогнозирования посещаемости ресурсов;
— составление краткосрочного прогноза развития сети интернет.
   В качестве наиболее полезных статистических данных, на которых можно выделить современные тенденции и закономерности, будут использоваться данные полученные с сайтов, принадлежащим к таким разделам:
— бизнес/финансы;
— государство/право;
— культура/искусство;
— новости/СМИ;
— наука/образование;
— отдых/развлечения;
— товары/услуги.
   Данные разнообразной статистики для приведенных выше категорий присутствуют на сайтах-рейтингах, таких как www.liveinternet.ru, www.top.mail.ru, www.top100.rambler.ru и других.
   Наиболее важными статистическими данными являются данные связанные с:
— просмотром ресурсов;
— количеством посетителей;
— средней длительности просмотра сайтов;
— количеством просмотров на посетителя;
— переходами с поисковых систем;
— браузерами установленными у пользователей;
— операционными системами;
— разрешением экрана;
— количеством цветов экрана монитора.
   Относительно времени полученные статистические данные можно разделить на такие виды:
— по времени суток;
— по дням;
— по неделям;
— по месяцам.
   Для составления прогноза сетевой активности пользователей будет использоваться одна из моделей авторегрессии и проинтегрированного скользящего среднего (АРПСС) [1].
   Сбор и первоначальная обработка всех необходимых статистических данных будет производится специально разработанной программой-роботом написанной на языке PHP. Цель данной программы - обходить сайты-рейтинги и копировать необходимые информационные страницы, распознавать данные, отображенные на ней, и сохранять полученную информацию. Хранение полученных данных осуществляется в специально разработанной базе данных MySQL. База данных будет систематизировать полученную информацию, храня информацию, относящуюся к разным категориям, разным временным отрезкам в отдельных таблицах. Для получения прогнозов, визуализации статистических данных, расчётов разнообразных коэффициентов и параметров, также будет создана отдельная программа.
   В результате сбора, систематизации и обработки данных, а также проведения исследований сетевой активности пользователей я предполагаю получить модель развития глобальной сети интернет, с помощью которой можно будет прогнозировать посещаемость сетевых ресурсов на короткие временные интервалы.

Литература
   1. Прогнозирование в системе STATISTICA в среде Windows. Основы теории и интенсивная практика на компьютере: Учебное пособие. - М.: Финансы и статистика, 1999. - 384 с.: ил.
   2. История развития интернета http://zonaru.ru/viewpage.php?page_id=1 (12.05.07г)