Источник: Інформаційні управляючі системи та комп'ютерний моніторинг (ІУС та КМ-2011)./ Матеріали II всеукраїнської науково-технічної конференції студентів, аспірантів та молодих вчених. – Донецьк, ДонНТУ – 2011, I Том, с. 277-281.
Высокая доступность огромного количества постоянно пополняющейся информации, а также растущая популярность веб-услуг среди всех категорий пользователей обострили проблему выделения значимой для пользователя части информации. Основная проблема заключается в том, что большинство веб-сайтов содержит множество ненужной пользователю информации на страницах – так называемый «информационный шум». К нему можно отнести навигацию, связанные ссылки, элементы дизайна, рекламу. Весь этот «информационный шум» зачастую мешает нормальному восприятию необходимой информации.
Определение информационному шуму можно дать, опираясь на понятия релевантности. Релевантность – это соответствие запроса результату. Таким образом, несоответствие запроса результату будет можно трактовать как информационный шум.
«Информационный шум – это когда изобилие поступающей человеку информации делает большую её часть нерелевантной (то есть не полезным сигналом, а именно «шумом»)» [4].
Таким образом, будем понимать под информационным шумом ненужную, несвоевременную информацию, мешающую потребителю воспринимать другую – соответствующую его запросам.
Зачастую при визуальной фильтрации контента и оценке его значимости пользователь теряет массу времени. Для решения этой проблемы необходимо применять очистку веб-страниц от информационного шума. Обозначим несколько областей, для которых можно будет применить задачу очистки веб-страниц:
Задача очистки веб-страниц от информационного шума весьма актуальна в наше время и решение данной проблемы поможет преподносить искомую пользователем информацию в удобном для него виде, а так же положительно скажется на результатах web-поиска, классификации информации, извлечение текстовой информации и т.п.
Применяемые методы анализа структуры web-страниц можно разделить на:
Анализ существующих методов выделения основного веб-контента показал, что методы, основанные на анализе DOM дерева эффективны и просты, а также предоставляют возможность проводить обработку единичной веб-станицы.
Существуют инструментальные средства, которые частично решают задачу выделения основного веб-контента: Adblock Plus, NoScript, FlashBlock, Safari Reader, Readability. Все эти средства, в основном направлены на борьбу с рекламой. Проведенный обзор существующих инструментальных средств очистки веб-страниц от информационного шума позволил выделить основные трудности, с которыми сталкиваются пользователи:
Исходя из всего вышесказанного, можно сделать вывод, что разработка инструментальных средств очистки веб-страниц от информационного шума ведется довольно активно, но пока не существует универсальных средств, которые бы могли удовлетворить все запросы пользователей.
Анализ вопроса очистки web-страниц от информационного шума дал возможность определить несколько типов сайтов исходя из соответствующих им характерным признакам и их значения. Типы сайтов и признаки характерные для них были сведены в табл.1
Типы сайтов | Характерные признаки |
Для этих сайтов характерно высокое количество информативных изображений, т.е изображений которые будут полезны для пользователя и могут считаться полезным контентом. |
|
|
Для данных сайтов характерно высокое количество ссылок, которые могут считаться полезным контентом |
Для разработки классификационной схемы необходимо определить структуру DOM-дерева HTML-страницы.
На сегодняшний момент выделяют три вида построения структуры веб-страницы:
Стоит также отметить, что существуют web-страницы, структура которых комбинирует в себе использование TABLE и DIV.
Таким образом, будем считать, что очищенная страница от информационного шума представляется в виде:
, (1)
где – функция очистки,
– исходный сайт,
– вектор, который определяется набором следующих признаков.
В пределах статьи будут рассматриваться следующие признаки вектора
– количество изображений,
–количество flash контента,
– количество гиперссылок ,
–количество таких тегов как <ul>,<ol>,<li>.
Для каждого признака необходимо определить интервал значений, который будет считаться нормой. Отклонения за максимальную границу интервала будем принимать как признак информационного шума, который требует очистки.
Приняв во внимание все сильные и слабые стороны существующих инструментальных средств, остановим свой выбор на идеи создания букмарклета.
Букмарклет(bookmarklet) – это javascript-код, который сохраняется как закладка в браузере. Он работает за счет использования протокола < a href="javascript:..." >.
Алгоритм очистки web-страниц от информационного шума состоит из следующих этапов:
Для выделения информационных блоков необходимо разработать средство позволяющее работать с html-кодом страницы непосредственно в окне браузера. Кроме этого для определения типа информационного блока необходимо рассчитать значения его параметров.
Для исследования был разработано специальное программное обеспечение – букмарклет, который выделяет div и table верхнего уровня, определяет количество заданных признаков в пределах структурного блока и по странице в целом. Набор исследуемых параметров определен в постановке задачи.
Исследование проводилось по следующей методике: для каждого из 10 поисковых запросов из разных областей было загружено по 20 первых веб-ресурсов, выданных поисковой системой Google. Каждая страница была проанализирована и разбита на структурные блоки (div и table верхнего уровня). Для каждого блока и для всей web-странице в целом было посчитано количество изображений, ссылок, списков и flash-объектов. В результате выше перечисленных действий было получена выборка, состоящая приблизительно из 500 записей. Пример использования букмарклета для проведения исследования показан на рис.2.
На основе вычисленных характеристик выделим границы каждого признака значения, внутри которых будет считаться нормой, а в случае отклонения от максимальной границы признак будет признан информационным шумом. Вычисленные значение приведем в табл.2.
Рисунок 2 – Пример использования букмарклета
Тип сайта |
Признак информационного блока |
|||||
Количество изображений |
Количество ссылок |
Количество элементов списков |
Количество flash-объектов |
|||
min |
max |
min |
max |
max |
max |
|
Фотосайты |
12 |
195 |
22 |
1089 |
120 |
1 |
Видеосайты |
14 |
277 |
96 |
1177 |
336 |
4 |
Торренты |
12 |
120 |
88 |
1885 |
216 |
3 |
Поисковые модули |
1 |
71 |
27 |
270 |
213 |
1 |
Интернет магазины |
22 |
296 |
72 |
1005 |
838 |
4 |
Обычные сайты |
0 |
289 |
10 |
3218 |
320 |
2 |
Выводы
В статье рассмотрена проблема определения основного контента web-страницы, который будет полезен для пользователя. Предложены статические характеристики, в зависимости от которых будет определяться значимость информационных блоков, а так же определены специфические виды сайтов, для которых статические характеристики будут отличны от обычных web-страниц.