Интеллектуальный анализ данных
пользовательских шаблонов навигации

Авторы: Jose Borges, Mark Levene

Перевод с английского: Д.М. Мазур

Описание:В статье рассматривается модель интеллектуального анализа данных, которая фиксирует шаблоны в навигации пользователей.
Источник: CiteSeerX

Аннотация

Мы предлагаем модель интеллектуального анализа данных, которая фиксирует шаблоны в поведении пользователей при навигации. Пользовательские сессии навигации моделируются как гипертекстовая вероятностная грамматика, где более высокие ряды вероятности соответствуют предпочтительным путям пользователей. Предложен алгоритм эффективного анализа таких путей. Мы используем модель N грамм, которая предполагает, что последние просмотренные N страницы влияют на вероятность посещения следующей страницы. Модель основана на теории вероятностной грамматики, предоставляющую ей прочную теоретическую основу для будущих усовершенствований. Кроме того, мы предлагаем использование энтропии в качестве оценки статистических свойств грамматики. Были проведены обширные эксперименты, и результаты показывают, что алгоритм работает в линейном времени, грамматическая энтропия является хорошей оценкой количества полученных путей и правила реальных данных подтверждают эффективность модели.

1. Введение

Интеллектуальный анализ данных и обнаружение знаний является действующей исследовательской дисциплиной, включающей в себя изучение методов, которые ищут шаблоны в больших наборах данных. Между тем, стремительный рост Всемирной паутины (известной как Интернет) в последние годы превратил ее в крупнейший источник данных, доступных в Интернете. Таким образом, применение методов интеллектуального анализа данных в Интернете, называемое интеллектуальным анализом веб-данных, было естественным следующим шагом, и теперь является центром внимания все большего числа исследователей.

В настоящее время в интеллектуальном анализе веб-данных есть три основных направления исследований: (I) извлечение информации, (II), извлечение структуры веб-ссылки, и (III) анализ моделей поведения пользователей. Извлечение информации фокусируется на разработке методов для содействия пользователям в обработке больших объемов данных, с которыми они сталкиваются при навигации, и в помощи им найти информацию, которую они ищут, см., например, [11]. Извлечение структуры ссылки направлено на разработку методов для использования коллективного мнения о качестве веб страницы в виде гиперссылок, которые можно рассматривать как механизм неявного одобрения, см. [5]. Цель состоит в том, чтобы определить для данного объекта авторитетные страницы и страницы-концетраторы. Авторитетными страницами являются те, которым были присвоены значения по существующим на них ссылкам. Концентраторы страниц – страницы, которые содержат набор ссылок на соответствующие значения. Наконец, еще одним направлением исследований, которым занимается все большее число исследователей, является нахождение шаблонов навигации пользователя. Это исследование фокусируется на методах, которые изучают поведение пользователя при навигации по сайту. Понимание предпочтений посетителей в навигации является важнейшим шагом в повышении качества услуг электронной коммерции. Фактически, понимание наиболее вероятных шаблонов доступа пользователей позволяет провайдеру настроить и адаптировать интерфейс сайта для отдельного пользователя [16], а также улучшить статическую структуру сайта в пределах лежащей в основе гипертекстовой системы [19].

Когда веб-пользователи взаимодействуют с сайтом, запись их поведения хранится в журналах веб-серверов, которые для сайта среднего размера могут составлять до нескольких мегабайт в день. Кроме того, поскольку данные журнала собраны в необработанном формате – это идеальная мишень для анализа автоматизированными средствами. В настоящее время доступно несколько коммерческих инструментов анализа журналов [23]; однако эти инструменты имеют ограниченные возможности анализа, которые выдают только такие результаты, как сводная статистика и частота посещений страниц. Между тем научное сообщество занимается изучением методов интеллектуального анализа данных, чтобы в полной мере воспользоваться информацией, доступной в файлах журнала. До сих пор были два основных подхода к извлечению моделей навигации пользователей из данных журнала. В первом подходе данные журнала отображаются в реляционных таблицах и адаптированной версии стандартных методов анализа данных, таких как добыча ассоциативных правил, см., например, [8]. Во втором подходе разработаны методы, которые могут быть использованы непосредственно на данных журнала, см., например, [2] или [21].

В этой статье мы предлагаем новую модель для подхода к решению проблемы интеллектуального анализа данных журнала, которая непосредственно отражает семантику пользовательских сессий навигации. Мы моделируем записи пользовательской навигации, выведенные из данных журнала, как гипертекстовую вероятностную грамматику, сгенерированные с более высокой вероятностью ряды которой соответствуют предпочтительным путям пользователей. Таким образом, предоставляются компактные и автономные модели взаимодействия пользователя с сетью. Есть два условия, в которых такая модель является потенциально полезной. С одной стороны, это может помочь сервисному провайдеру понять потребности пользователей и, как следствие, улучшить качество своих услуг. Качество обслуживания может быть улучшено путем предоставления адаптивных страниц, подходящих отдельному пользователю, путем создания динамических страниц заблаговременно, чтобы сократить время ожидания, или путем предоставления теоретического сервиса, который наряду с запрашиваемым документом посылает ряд других документов, на которые может поступить запрос в ближайшем будущем. С другой стороны, такая модель может быть полезна для отдельных пользователей сети, выступая в качестве личного помощника, интегрированного с его/ее веб-браузером.

В самом деле, если браузер хранит файл журнала пользователя, который характеризует его/ее взаимодействия с сетью, постепенно может быть построена гипертекстовая вероятностная грамматика. Такая грамматика стала бы представлением знаний пользователя о сети, которое могло бы выступать в качестве памятки; могла бы быть проанализированной с целью вывода предпочтительных путей пользователя для данного объекта, или работать как инструмент прогноза для предварительной выборки интересных страниц.

Раздел 2 представляет предлагаемую гипертекстовую грамматическую модель, а в разделе 3 представлены результаты проведенных экспериментов. В разделе 4 обсуждается соответствующая работа, в разделе 5 представлены предварительные обсуждения последних усовершенствований в модели. Наконец, в разделе 6 мы представляем наши заключительные замечания и обсуждаем дальнейшую работу.

2. Гипертекстовая вероятностная грамматика

Файл журнала можно рассматривать в качестве упорядоченного по каждому пользователю множества запросов веб-страниц, из которых можно сделать вывод о сессиях пользовательской навигации. В этой работе мы просто определяем сессии пользовательской навигации в виде последовательности запросов страниц так, что нет двух последовательных запросов, разделенных более Х минутами, где X является параметром. В работе [4] авторы предложили для X значения в 25,5 минут, что соответствует 1,5 стандартных отклонений от среднего времени между событиями пользовательского интерфейса. С тех пор многие авторы приняли значение 30 минут. Отметим, однако, что более продвинутые методы подготовки данных, такие, как описаны в [9], могут быть использованы на стадии предварительной обработки данных для того, чтобы в полной мере воспользоваться всей информацией, имеющейся в файлах журнала.

Сессии навигации пользователя, выведенные из данных журнала, моделируются как гипертекстовый вероятностный язык, порожденный гипертекстовой вероятностной грамматикой (или просто ГВГ) [14], которая является собственным подклассом вероятностных регулярных грамматик [24]. ГВГ является вероятностной регулярной грамматикой, которая имеет соответствие один-к-одному между набором неконечных символов и набором конечных символов. Каждый неконечный символ соответствует веб-странице и производное правило соответствует связи между страницами. Кроме того, есть два дополнительных состояния, S и F, которые представляют собой начальное и конечное состояния сессий навигации.

Из множества пользовательских сессий мы получаем сколько раз страница была запрошена, сколько раз она была первым состоянием в сессии, и сколько раз она была последним состоянием в сессии. Число раз, которое последовательность из двух страниц появляется в сессиях, дает число раз, сколько по соответствующей ссылке перешли. Вероятность перехода из состояния, которое соответствует веб-странице, пропорциональна количеству раз, которое соответствующая ссылка была выбрана по отношению к количеству раз, которое пользователь посетил страницу.

Вероятность перехода с начального состояния пропорциональна количеству раз, которое посетили соответствующее состояние, подразумевая, что назначение узла перехода с высокой вероятностью соответствует состоянию, которое посетили чаще. Мы определяем a в качестве параметра, который назначает нужный вес состоянию, которое является первым в сессии навигации пользователей. Если a = 0 единственные состояния, которые были первыми в сессии, имеют вероятность больше нуля, будучи в переходе с начального состояния, с другой стороны, если a = 1 все состояния визитов даны пропорционально весу. Отметим, что при a> 0 каждое грамматическое состояние имеет начальную вероятность больше нуля. Вероятности переходов из начального состояния соответствует вектору начальных вероятностей, pi, и вероятности других переходов соответствуют матрице перехода цепи Маркова [12].

В примере, приведенном на рисунке 1, у нас есть 6 пользовательских сессий в общей сложности с 24 запросами страниц, где состояние A1 посетили 4 раза, 2 из которых являются первым состоянием в сессии пользователя, поэтому, так как a = 0,5 имеем pi(A1) = 0,5*4/24 + 0,5*2/6 = 0,25.

На рисунке 2 показана грамматика, выведенная из данного набора путей для N = 1 и a = 0,5.

(Мы свободно используем в наших цифрах двойственность между грамматикой и автоматами [13]).

Рис. 1 – Пример набора путей пользователей

В ГВГ вероятность первого шага решения определяется как предел поддержки, T, и не учитывается при выводе вероятности. Таким образом, вероятности перехода из начального состояния используются для сокращения рядов, которые в противном случае могут иметь высокую вероятность, но соответствуют подмножеству редко посещаемой гипертекстовой системы. Кроме того, ряд включается в язык грамматики, если вероятность его вывода выше границы разделения, L, где граница разделения соответствует грамматическому пределу доверия. Значения пределов поддержки и доверия дают пользователю контроль над количеством и качеством путей, которые будут включены в множество правил. Ряды, сгенерированные грамматикой, соответствуют путям навигации пользователя, и цель заключается в выявлении подмножества тех рядов, которые лучше всего характеризуют поведение пользователя при посещении сайта. Такие параметры, как доверие и поддержка, определяются как предпочтительные меры, которые оценивают сгенерированные ряды. Алгоритм, используемый для выработки правил, имеющих доверие и поддержку выше указанного предела, является частным случаем ориентированного графа «Поиск в глубину», который выполняет перебор всех рядов с требуемыми характеристиками, ср. [2].

Рис. 2 – Гипертекстовая грамматика для N = 1 и a = 0,5

На рисунке 3 мы показываем правила, полученные при различных конфигурациях модели. Из первых двух множеств правил мы можем видеть, как и ряд правил, и его средняя длина уменьшается, когда граница разделения увеличивается. Отметим, что хотя A3 никогда не было первым состоянием в сессии навигации, оба ряда правил включают в себя правила, начинающиеся с этого. Это происходит потому, что A3 имеет высокую частоту обхода и значение параметра a = 0,5 дает ей положительный вес. Третье множество правил имеет более высокий предел поддержки и, как следствие, правила, начинающиеся с A3 состояния, исключены. Наконец, множество правил 4 соответствует грамматике, выведенной в то время, как присвоен одинаковый вес для всех обходов, т. е. a = 1,0 и, следовательно, правила, начинающиеся с A2 и A3 включены, хотя эти состояния никогда не были первыми в сессии навигации.

Рис. 3 – Правила, полученные при различных конфигурациях модели

Заключительные замечания

Мы предложили модель гипертекста для захвата пользовательских предпочтений при навигации в Интернете. Мы утверждаем, что преимуществом нашей модели является компактность, автономность, последовательность, и то, что она основана на хорошо организованной работе в вероятностной грамматике, предоставляя прочную основу для будущих усовершенствований, включая изучение ее статистических свойств. Фактически, размер модели зависит только от количества страниц и ссылок на анализируемом веб-сайте, а не от количества собранных данных.

Список литературы