Назад в библиотеку

Метод интеллектуального анализа взаимозависимостей характеристик интернет страниц

Автор: В.С. Миргород, И.С. Личканенко, Д.М. Мазур, Р.А. Родригес Залепинос
Источник: Материалы III Международной научно-технической конференции студентов, аспирантов и молодых учёных "Информатика и компьютерные технологии – 2012". – Донецк, ДонНТУ – 2012

Аннотация

Предложенный в статье метод использует 11 характеристик интернет страниц, в том числе Google Page Rank, рейтинг Yandex, Alexa Trafic Rank, рейтинг закладок Delicious и количество ссылок в Twitter за последний месяц. Между показателями производится поиск и анализ взаимозависимостей. При этом определяется влияние отдельных характеристик и их групп на общий рейтинг интернет страницы. Метод реализован на языке R. Приведены результаты анализа характеристик 46 интернет страниц предложенным методом. Обнаружено сильное влияние на рейтинг закладок Delicious группой двух показателей: количеством ссылок в Twitter и рейтингом посещаемости интернет страницы.

Введение

Сегодня одним из перспективных направлений интеллектуального анализа данных является разработка методов для поиска закономерностей, которые влияют на посещаемость интернет страниц. Используя полученные знания, можно добиться повышения посещаемости интернет страницы, и, следовательно, увеличения продаж товаров и услуг, предлагаемых на них.

В настоящее время для анализа интернет страниц широко применяются рейтинговые показатели и критерии, которые используются для повышения эффективности функционирования и оптимизации структуры интернет страницы. Компанией IBM разработано приложение SpeedTracer для анализа использования интернет ресурсов [1]. SpeedTracer отслеживает поведение пользователей для усовершенствования структуры интернет страницы и навигации. Программное обеспечение использует методы вывода для возобновления путей обхода пользователей. Алгоритмы интеллектуального анализа данных интернет страниц определяют закономерности движения пользователей по страницам. Результатом является набор шаблонов просмотра, который способствует лучшему пониманию поведения пользователей.

Проводятся исследования в сфере веб-аналитики, основной задачей которой является мониторинг посещаемости интернет страниц. На основании собранных данных изучается поведение посетителей для принятия решений по развитию и расширению функциональных возможностей интернет ресурса. Сервис веб-аналитики SpyBOX позволяет записывать и анализировать действия посетителей на интернет странице и оказывать влияние на их поведение [2].

В.В. Хайловой разработана система анализа поведения посетителей интернет страницы с использованием методов интеллектуального анализа данных и наглядной интерпретацией полученных результатов [3]. Система снабжена интеллектуальными функциями: кластеризацией посетителей относительно выделенного целевого атрибута при помощи правил ДСМ (генерируются в программной среде QuDA) и оценкой качества интернет страниц методом нечеткого вывода.

Предложенный в работе метод анализирует интернет страницы по одиннадцати показателям. Из них были выбраны два показателя, у которых среднее геометрическое значение максимально: YLD (количество ссылающихся интернет страниц – Yahoo Links Domain) и DR (рейтинг социальных закладок Delicious). Проанализированы зависимости между ними и остальными показателями. Самая высокая корреляция была обнаружена с количеством ссылок в Twitter и рейтингом посещаемости интернет страницы. Это хорошо прослеживается на графиках зависимостей между показателями. Обнаружено их значительное влияние на популярность интернет страницы.

Интернет страницы для исследования и их характеристики

Для анализа было рассмотрено 46 новостных интернет страниц разных стран. Для получения их характеристик они были просканированы дополнением браузера Mozilla Firefox SEO Quake, сервисами Alexa (http://www.alexa.com) и http://www.cy-pr.com. Получены данные по различным показателям: GPR (Рейтинг Google), YR (Рейтинг Yandex), ATR (Рейтинг посещаемости – Alexa Trafic Rank), DR (Рейтинг закладок Delicious), TPLM (Количество ссылок из Twitter за последний месяц), GI (Количество страниц в индексе Google), YTIC (Тематический Индекс Цитирования Yandex), ASLI (Количество ссылающихся интернет страниц – Alexa Sites Linking in), YLD (Количество ссылок на интернет страницу – Yahoo Links Domain), PS (Размер главной страницы, кб), DA (Год создания домена). Примеры интернет страниц и полученных показателей приведены в таблице 1.

Таблица 1 – Примеры интернет страниц и некоторых полученных показателей

Таблица 1 – Примеры интернет страниц и некоторых полученных показателей

Метод интеллектуального анализа интернет страниц

Разработан метод, позволяющий оценить зависимости между вышеуказанными показателями.

Из файла считываются данные в таблицу Dij. Удаляется первый столбец с названием исследуемых объектов. Определяется номер строки нулевого объекта z. Приводятся показатели к шкале относительно нулевого объекта Dij = Dij / Dzi. Трансформируются показатели для последующего определения нелинейных зависимостей (возводятся в степени 2, -1, -2 с вычитанием логарифма, при этом data_p2 = data^2, data_pm1 = data^-1, data_pm2 = data^-2, data_log = log(data)). Определяются индексы Dix и Diy среди показателей для последующего построения функции Ti = Dix * Diy. Определяется геометрическая вероятность Wi = Ti / max(T). Вычисляется логарифм функции W. Определяется корреляция между функцией W (log(W)) и трансформированными показателями. Строится таблица корреляций для функций W и W_log, где строки – это название трансформации, а столбцы – показатели. Вычисляется среднее геометрическое G среди максимальных значений для каждого показателя в каждом столбце таблицы корреляций. Определяются индексы Dix и Diy, для которых значение G максимально, повторив операции, начиная с определения индексов Dix и Diy для построения функции Ti и закачивая высчитыванием среднего геометрического G, при различных значениях Dix и Diy.

Предложенный метод был реализован на языке R, который удобен для интеллектуального анализа данных.

Результаты

Для примера были подобраны индексы Dix и Diy, для которых среднее геометрическое значение G максимально: YLD (количество ссылающихся интернет страниц – Yahoo Links Domain) и DR (рейтинг социальных закладок Delicious). Затем установлены корреляции между геометрической вероятностью W, log(W) и показателями их трансформациями. Они представлены в таблицах 2 и 3.

Таблица 2 – корреляции между W и показателями и их трансформациями

Таблица 2 – корреляции между W и показателями и их трансформациями

Таблица 3 – корреляции между log(W) и показателями и их трансформациями

Таблица 3 – корреляции между log(W) и показателями и их трансформациями

Из полученных данных были выбраны зависимости с высокой корреляцией, по которым построены графики, представленные ниже.

Рис. 1 – График корреляции между log(W) и показателем TPLM

Рис. 1 – График корреляции между log(W) и показателем TPLM

Рис. 2 – График корреляции между log(W) и показателем ATR

Рис. 2 – График корреляции между log(W) и показателем ATR

Рис. 3 – График корреляции между log(W) и показателем GPR

Рис. 3 – График корреляции между log(W) и показателем GPR

Таким образом, были обнаружены зависимости между: количеством ссылок на интернет страницу (YLD), рейтингом интернет страницы в социальных закладках Delicious (DR), количеством ссылок в публикациях в твиттер (TPLM) и рейтингом посещаемости интернет страницы (ATR).

Выводы

Высокая корреляция количества ссылок на интернет страницу (YLD) и рейтинга в социальных закладках Delicious (DR) обнаружена с количеством ссылок в публикациях в твиттер (TPLM) и рейтингом посещаемости (ATR). Установлено, что наибольшее влияние на рейтинг интернет страницы оказывают количество ссылок из Twitter и рейтинг посещаемости интернет страницы. Найденные зависимости являются логичными, т.к. высокое количество ссылок из Twitter повышает посещаемость интернет страницы, а посещаемость непосредственно влияет на ее популярность. Предложенный метод можно использовать для поиска характеристик интернет страницы, которые необходимо улучшить для повышения ее посещаемости.

В дальнейшей работе планируется разработать и включить в общий анализ численные характеристики дизайна интернет страниц для поиска закономерностей влияния дизайна на посещаемость и другие важные показатели. Примерами показателей могут служить графические параметры (например, основные цвета интернет страницы и их сочетание, а также яркость и контрастность) и параметры навигации по интернет странице.

Литература

  1. Web Mining [Электронный ресурс] – Режим доступа: http://www.galeas.de/webmining.html (30.03.2012)
  2. Д. Мелихов, И. Сарматов. Анализ сайта: справочник веб-аналитика. – К., 2011.
  3. В.В. Хайлова. Анализ эффективности работы Web-сайта с применением методов ИАД //Десятая национальная конференция по искусственному интеллекту с международным участием КИИ-2006 (25-28 сентября 2006 г., Обнинск): Труды конференции. В 3-т., М: Физматлит, 2006.