Устранение «шумной» информации на веб-страницах для интеллектуального анализа данных

Авторы: Lan Yi, Bing Liu, Xiaoli Li

Перевод с английского: Ю. Пающик

Источник (англ.): Международная конференция по открытию знаний и интеллектуального анализа данных, Нью-Йорк, США, 2003 г

Аннотация

Коммерческая Веб-страница обычно содержит много блоков информации. Помимо блоков основного содержания, веб-страница обычно содержит блоки панели навигации, уведомления об авторском праве, уведомления о конфиденциальности, рекламные объявления (для бизнес-целей и для легкого пользовательского доступа). Мы называем эти блоки, которые не являются блоками основного содержания, шумными блоками. Мы показываем, что информация, содержавшаяся в этих шумных блоках, может серьезно вредить веб-анализу данных.

Поэтому устранение этих шумных блоков очень важно. В этой газете мы предлагаем метод устранения шумов, основанный на следующем наблюдении: В данном Веб-сайте шумные блоки обычно совместно используют некоторое общее содержания и стили представления, в то время как блоки основного содержания страниц часто разнообразны в их фактическом содержании и/или стилях представления.

Основываясь на этом наблюдении, мы предлагаем древовидную структуру, названную Style Tree (Деревом Стиля), чтобы получить общие стили представления и фактическое содержание страниц в данном Веб-сайте. Выбирая страницы сайта, Style Tree (Дерево Стиля) может быть создано для сайта, который мы называем Site Style Tree (SST) (Деревом Стиля Сайта).

Тогда помещаем информацию веб-страницы, чтобы определить, какие части SST представляют шумы и какие части представляют основное содержание сайта. SST используется, чтобы обнаружить и устранить шумы в любой Веб-странице сайта, отображая эту страницу на SST. Предложенный метод оценен с двумя задачами анализа данных: кластеризацией Веб-страницы и классификацией.

Результаты эксперимента показывают, что наш метод устранения шумов в состоянии значительно улучшить добывающие результаты.

1. Введение

Быстрое расширение Интернета сделало WWW популярным местом для распространения и сбора информации. Таким образом интеллектуальный анализ данных в Сети становится важной задачей для того, чтобы обнаружить полезные знания или информацию в Сети.

Однако, полезная информация в Сети часто сопровождается большим количеством шума, такого как рекламные объявления баннера, навигационные панели, уведомления об авторском праве, и т.д. Хотя такие информационные пункты функционально полезные для человеческих зрителей и необходимые для владельцев веб-сайта, они часто препятствуют автоматизированному информационному сбору и Веб-сбору данных, например, объединению в кластеры Веб-страницы, классификации, информационному поиску и информационному извлечению.

Веб-шумы могут быть сгруппированы в две категории согласно их степеням детализации: Глобальные шумы: Это шумы в Сети с большой степенью детализации, которые обычно не меньшие чем отдельные страницы.

Местные (внутристранчные) шумы: Эти шумные области/пункты в пределах Веб-страницы. Местные шумы обычно несвязные с основным содержанием Веб-страницы. Такие шумы включают рекламные объявления баннера, навигационные путеводители, фотографии художественного оформления, и т.д.

В этой работе мы сосредотачиваемся на том, чтобы обнаруживать и устранять локальные шумы в Веб-страницах, чтобы улучшить производительность веб-горной промышленности, например, кластеризации Веб-страницы и классификации. Эта работа мотивирована практическим применением.

В этой газете мы покажем, что локальные шумы в Веб-страницах могут серьезно вредить точности анализа данных. Таким образом при очистке Веб-страниц прежде, чем горная промышленность становится критической для того, чтобы улучшить результаты анализа данных. Мы называем эту очистку Веб-страницы шага предварительной обработки.

Несмотря на важность удаления ненужной информации, все же была сделана относительно маленькая работа на Веб-странице. В этой газете мы предлагаем очень эффективный метод для очистки Веб-страницы от ненужной информации с целью улучшить веб-анализ данных.

Отметьте, что, хотя Веб-страницы XML2 более мощны чем страницы HMTL для описания содержания страниц и есть возможность использовать XML-тэги для нахождения основного содержания в различных целях. Тем не менее актуальные Веб-страницы в сети находятся все еще в HTML, а не в XML. Огромное число страниц HTML в сети вряд ли будет преобразовано к страницам XML в ближайшем будущем. Следовательно, мы фокусируем нашу работу над очисткой страниц HTML.

Наш метод очистки основан на следующем наблюдении. В типичном коммерческом Веб-сайте Веб-страницы имеют тенденцию следовать за некоторыми фиксированными разметками или стилями представления, поскольку большинство страниц сгенерировано автоматически. Те части страницы, разметки которой и фактическое содержание (то есть, тексты, изображения, ссылки, и т.д.) также появляются во многих других страницах в сайте, более вероятно, будут шумами, и теми частями страницы, разметки которой или фактическое содержание очень отличаются от других страниц, обычно основное содержание страницы.

В этой газете мы сначала представляем новую древовидную структуру, названную деревом стиля, чтобы получить общие разметки (или стили представления) и фактическое содержание страниц в Веб-сайте. Тогда мы предлагаем информацию базирующую на мере (объеме информации) (information based measure), чтобы определить, какие части дерева стиля указывают на шумы и какие части дерева стиля содержат основное содержание страниц в Веб-сайте. Чтобы убрать новую страницу от того же самого сайта, мы просто отображаем страницу на дерево стиля сайта. Согласно отображению, мы можем решить шумные части и удалить их.

Наши результаты эксперимента, основанные на двух популярных веб-задачах горной промышленности, то есть, кластеризация Веб-страницы и классификация Веб-страницы, показывают, что наш метод очистки в состоянии усилить добывающие результаты существенно. Например, в классификации средняя точность по всем нашим наборам данных увеличивается от 0.625 прежде, чем убрать к 0.954 после очистки. Это представляет замечательное улучшение. Мы также сравниваем наш предложенный метод с существующим шаблоном, базируемым при очистке метода. Наши результаты показывают, что предложенный метод выигрывает у этого существующего состояния-fthe-художественный метод существенно (state-ofthe-art method substantially).

Наши вклады: - Новая древовидная структура, названная Деревом Стиля, предложена, чтобы получить фактическое содержание и общие разметки (или стили представления) Веб-страниц Веб-сайта. Информация (или энтропия) - основанная мера, чтобы оценить важность каждого узла элемента в дереве стиля, которое поочередно помогает нам устранить шумы в Веб-странице. - Результаты эксперимента показывают, что предложенный метод очистки страницы в состоянии существенно улучшить результаты веб-анализа данных. Это также выигрывает у существующего шаблона, базируемого при очистке метода, данного во [2] большом поле.

2. Связанная работа

Хотя очистка Веб-страницы - важная задача, относительно маленькая работа была сделана в этом поле. В [17], метод предложен, чтобы обнаружить информативные блоки новостей в Веб-страницах. Понятие информативных блоков подобно нашему понятию об основном содержании страницы. Однако, работа в [17] ограничена следующими двумя предположениями: (1) - система знает prori, как Веб-страница может быть разделена в когерентные блоки контента, и (2) - система знает априорно, какие блоки - те же самые блоки в различных Веб-страницах.

Деля Веб-страницу и идентификация соответствующих блоков в различных страницах фактически мы будем видеть две критических проблемы в очистке Веб-страницы. Наша система в состоянии выполнить эти задачи автоматически (без пользовательской справки). Кроме того, их работа просматривает Веб-страницу как плоский набор блоков, которые соответствуют TABLE элементы в Веб-страницах, и каждый блок просматривается как набор слов. Эти предположения часто - истина в Веб-страницах новостей. Вообще, эти предположения слишком сильны.(-убрать)

В [2], очистка Веб-страницы определена как частая шаблонная проблема обнаружения. Предлагают частото (базировать- based) алгоритм анализа данных, чтобы обнаружить шаблоны, и просматривает эти шаблоны как шумы. Метод очистки в [2] не касается контекста Веб-сайта, который может дать полезный ключ к разгадке для очистки страницы. Кроме того, в [2], разделение Веб-страницы снабжено префиксом, рассматривая число гиперссылок, которые имеет элемент HTML. Этот метод разделения прост и полезен для ряда Веб-страниц от различных Веб-сайтов, в то время как это не является подходящим для Веб-страниц, которые являются всеми от того же самого Веб-сайта. Потому что у Веб-сайта обычно есть свои собственные общие разметки или стили представления, которые могут быть использованы, чтобы разделить Веб-страницы и обнаружить шумы. Мы сравним результаты нашего метода с таковыми из метода в [2] и предоставим обсуждение в разделе эксперимента.

Другая связанная работа включает данные, убирающие для анализа данных и организации хранилищ данных [13], двойное обнаружение записей в текстовых базах данных [16] и предварительная обработка данных для веб-Использования, Добывающего [7]. Наша задача отличается, поскольку мы имеем дело с полуструктурированными Веб-страницами, и также мы сосредотачиваемся на том, чтобы удалять шумные части страницы, а не копируем страницы. Следовательно, различные методы очистки необходимы.

Очистка веб-страницы также связана с выбором функции в традиционном обучении машины (см. [18]). В выборе функции функции - отдельные слова или атрибуты. Однако, у элементов в Веб-страницах есть некоторые структуры, которые отражены их вложенными HTML-тэгами. Следовательно, различные методы необходимы в контексте сети.

Очистка веб-страницы также связана с выбором функции в традиционном обучении машины (см. [18]). В выборе функции - отдельные слова или атрибуты. Однако, у элементов в Веб-страницах есть некоторые структуры, которые отражены их вложенными HTML-тэгами. Следовательно, различные методы необходимы в контексте сети. [8] [10] предлагают некоторые механизмы изучения, чтобы распознать рекламные баннеры, избыточные и несоответствующие ссылки Веб-страниц. Однако эти методы не являются автоматическими. Они требуют, чтобы большой набор вручную маркированных учебных данных и также знаний проблемной области генерировал правила классификации.

[11] улучшает алгоритм HITS [12] при использовании энтропии текста привязки, чтобы оценить важность ссылок. Это сосредотачивается на том, чтобы улучшать алгоритм ХИТОВ, чтобы найти более информативные структуры в Веб-сайтах. Хотя это сегменты Web-страниц в блоках контента, чтобы избежать ненужных полномочий и распространения концентратора, - это не обнаруживает или устраняет шумное содержание в Веб-страницах.

3. Предложенный метод

Предложенный метод очистки основан на анализе разметок и фактического содержания (то есть, тексты, изображения, и т.д.) Веб-страниц в данном Веб-сайте. Таким образом наша первая задача состоит в том, чтобы найти, что подходящая структура данных представляет обоих стили представления (или разметки) и фактическое содержание Веб-страниц в сайте. Мы предлагаем Дерево Стиля (ST) с этой целью. Ниже, мы запускаем, давая краткий обзор ДОМА (Объектная модель документа) 3 дерева, которые обычно используются для того, чтобы представить структуру единственной Веб-страницы, и показать, что это недостаточно в нашей цели. Мы тогда представляем дерево стиля, которое сопровождается нашей мерой по энтропии для того, чтобы оценить узлы в дереве стиля для шумового обнаружения.

3.1. DOM tree

Каждая страница HTML соответствует DOM tree, где теги - внутренние узлы и подробные тексты, изображения или гиперссылки - вершины. Рисунок 2 показывает сегмент кодов HTML и его соответствующего DOM tree. В DOM tree каждый сплошной прямоугольник - узел тега. Теневое поле - фактический контент узла, например, для тега IMG, фактическое содержание - src=image.gif . Заметьте, что наше исследование Веб-страниц HTML начинается с тега BODY, так как все просматриваемые части в рамках BODY. Каждый узел также присоединен с его свойствами дисплея. Для удобства анализа мы добавляем узел виртуального корневого каталога без любого атрибута как родительский узел тега BODY в DOM tree.

Хотя DOM tree достаточно для того, чтобы представить стиль расположения или представления единственной страницы HTML, трудно изучить полный стиль представления и контент ряда страниц HTML и убрать их основанный на trees человека DOM. Таким образом DOM tree находятся недостаточно в нашей работе очистки, которая рассматривает и стиль представления и реальный контент Веб-страниц. Мы нуждаемся в более мощной структуре с этой целью. Эта структура является критической, потому что наш алгоритм нуждается в ней, чтобы найти общие стили страниц от сайта, чтобы устранить шумы. Мы представляем новую древовидную структуру, названную (деревом стиля) style tree (ST), который в состоянии сжать общие стили представления ряда связанных Веб-страниц.

Пример дерева стиля дан в рисунке 3 как комбинация DOM trees d1 и d2. Мы замечаем, что, за исключением четырех тегов (P, IMG, P и A) на нижнем уровне, у всех тегов в d1 есть свои соответствующие теги в d2. Таким образом d1 и d2 могут быть сжаты. Мы используем количество, чтобы указать, у сколько страниц есть определенный стиль на определенном уровне дерева стиля. В рисунке 3 мы можем видеть, что обе страницы запускаются с BODY, и таким образом у BODY есть количество 2. Ниже BODY у обеих страниц также есть тот же самый стиль представления TABLE-IMG-TABLE. Мы называем эту целую последовательность тегов (TABLE-IMG-TABLE) узел стиля (style node), который включен в выровненный состоящий из тире прямоугольник в рисунке 3. Это представляет определенный стиль представления в этой точке. Узел стиля - таким образом последовательность узлов тега в DOM tree. В дереве стиля мы называем эти узлы тега узлами элемента, чтобы отличить их от узлов тега в DOM tree. Например, у узла стиля TABLE-IMG-TABLE есть три узла элемента, TABLE, IMG и TABLE. Узел элемента также содержит немного отличающуюся информацию от узла тега в DOM tree, как будет определен позже.

3.2. Style Tree (ST)

Мы теперь определяем дерево стиля, которое состоит из двух типов узлов, а именно, узлов стиля и узлов элемента.

Определение: узел стиля (S) представляет стиль расположения или представления, у которого есть два компонента, обозначенные (Es, n), где Es - последовательность узлов элемента (см. ниже), и n - число страниц, у которого есть этот определенный стиль на этом уровне узла.

В рисунке 3 узел стиля (в выровненном состоящем из тире прямоугольнике) у P-IMG-P-A есть 4 узла элемента, P, IMG, P и A, и n = 1. Определение: У узла элемента E есть три компонента, обозначенные (ТЕГ, Attr, Ss), где:

• ТЕГ - имя тега, например, TABLE и IMG;

• Attr - набор атрибутов дисплея ТЕГА, например, bgcolor = RED, width = 100 и т.д.

• Ss - ряд узлов стиля ниже E.

Отметьте, что узел элемента соответствует узлу тега в DOM tree, но указывает на ряд дочерних узлов стиля на Ss (см. рисунок 3). Для удобства мы обычно обозначаем узел элемента его именем тега, и узел стиля его последовательностью имен тега, соответствующих ее последовательности узла элемента.

Создание дерева стиля (названный деревом стиля сайта или SST) для страниц Веб-сайта является довольно прямым. Мы сначала создаем DOM tree для каждой страницы и затем объединяем ее в дерево стиля нисходящим способом. В определенном узле элемента E в дереве стиля, у которого есть соответствующий узел тега T в DOM tree, мы проверяем, является ли последовательность дочерних узлов тега T в DOM tree тем же самым как последовательностью узлов элемента в узле стиля S ниже E (в дереве стиля). Если ответ да, - мы просто постепенно увеличиваем количество страницы узла стиля S, и затем спускаемся по style tree и DOM tree, чтобы объединить остальную часть узлов. Если ответ нет, - модернизированный узел создается ниже узла элемента E в style tree. Поддерево узла тега T в DOM tree скопировано в дерево стиля (style tree) после того, как преобразовано, чтобы разработать узлы и узлы элемента дерева стиля.

3.3. Определение Noisy Elements в ST

В нашей работе определение шума основано на следующих предположениях: (1)- Чем больше стилей представления, которые имеет узел элемента, тем более важнее это, и наоборот. (2)- Чем более разнообразный, который фактическое содержание узла элемента, тем более важный узел элемента, и наоборот.

Оба этих значения важности используются в оценке важности узла элемента. Важность представления стремится обнаруживать шумы с регулярными стилями представления, в то время как важность контента стремится идентифицировать то основное содержание страниц, которые могут быть представлены в подобных стилях представления.

Следовательно, в предложенном методе важность узла элемента дана, комбинируя его важность представления и важность контента. Чем больше объединенная важность узла элемента, тем более вероятно это - основное содержание страниц.

Мы нуждаемся в метрике, чтобы измерить важность стиля представления. Теория информации (или энтропия) является естественным выбором. Определение (важность узла): Для узла элемента E в SST, позвольте м. быть числом страниц, содержащих E и l быть числом дочерних узлов стиля E (то есть, l = |E.Ss |), важность узла E, обозначенного NodeImp (E), определена.