Использование Link Analysis для улучшения макета на мобильных устройствах

Авторы: Xinyi Yin, Wee Sun Lee

Перевод с английского: Ю. Пающик

Источник (англ.): 17-22 мая 2004 г, Нью-Йорк, США

Аннотация

Доставка веб-страниц в мобильные телефоны или персональным цифровым ассистентам стали возможными с последней беспроводной технологией. Однако, у мобильных устройств есть очень маленькие экранные размеры и емкости памяти. Преобразование веб-страниц для поставки к мобильному устройству является захватывающей новой проблемой. В этой статье мы предлагаем использовать алгоритм, подобный алгоритму PageRank Google, чтобы оценить объекты контента в пределах веб-страницы. Это позволяет экстракцию только важных частей веб-страниц для поставки к мобильным устройствам.

Эксперименты показывают, что новый метод эффективен. В экспериментах на страницах, в произвольном порядке выбранных веб-сайтов, система должна была извлечь и поставить только 39 % объектов веб-странице, чтобы обеспечить 85 % (информативности) средства просмотра требовали просмотреть контент. Это обеспечивает существенные сбережения в беспроводном трафике и время загрузки при обеспечении удовлетворительного опыта чтения на мобильном устройстве.

1. Введение

Веб-контент в настоящий момент разработан для настольного персонального компьютера (ПК) с большим монитором и богатыми ресурсами памяти. Пользователи ПК могут использовать удобное устройство ввода данных, такое как мышь, чтобы получить любую веб-страницу от любого веб-сайта. Большая длительность загрузки редко является проблемой, поскольку ПК обычно соединяются с Интернетом через каналы большой пропускной способности, и большой экран позволяет многим нерелевантным (не относящихся к основному смыслу страницы) объектам, таким как рекламные объявления, быть помещенными на экранах без чрезмерного отвлечения пользователя.

За прошлые пять лет появилось много мобильных устройств со средним и маленьким размерным экраном и ограниченной памятью. Например, теперь возможно просмотреть интернет-страницы с помощью personal digital assistants (персональных цифровых ассистентов) (PDA), таких как Palm или Карманный ПК. В современном мобильном телефоне есть много функций, которые делают просмотр Интернета возможным и удобным. Однако, эти устройства не идеальные платформы для того, чтобы перемещаться по сети. Во-первых, беспроводная пропускная способность довольно ограничена и очень дорога. Во-вторых, экранный размер изменяется и может быть очень маленьким, например 120*90. В-третьих, некоторые устройства, такие как мобильные телефоны, очень ограничили возможность памяти. Обычно, контент единственной веб-страницы будет больше чем то, что может содержать мобильный телефон.

Исследователи потратили много усилий в решении проблемы того, чтобы позволять таким устройствам просмотреть веб-контент удовлетворительным способом. Некоторые из решений работают в модели передачи, где выбранный контент продвинут к PDA посредствам процесса синхронизации. Другие используют модель приема, как браузер Opera, где контент извлечен и оптимизирован. Обычно, эти методы выводят на экран целую веб-страницу. Недостаток этого подхода - долгое время загрузки, когда пропускная способность ограничена и большое количество прокрутки необходимого, чтобы добраться до соответствующих частей веб-страницы.

Эта работа представляет систему, которая обеспечивает автоматическое преобразование веб-контента в форму, которая оптимизирована для мобильных устройств. Наш подход должен извлечь и представить только важные части веб-страницы для поставки к мобильному устройству. Такой метод сохраняет не только время загрузки, но также и время потраченное на прокрутку, на маленьких экранных устройствах. Ошибки при извлечении системой могут быть исправлены, разрешая пользователю запросить целую страницу, если они не удовлетворены извлеченным контентом. Если ошибка экстракции может быть сохранена на минимальном уровне, такая система обеспечит более приятный опыт для того, чтобы пользователь бродил по сети на мобильном устройстве.

The basic technology behind the approach is (базовой технологией ,стоящая за этим подходом является алгоритм ранжирования компонентов веб-старниц. Идея алгоритма состоит в том, чтобы сначала представить веб-страницу графом и затем использование структуру графа, чтобы проранжировать элементы. Чтобы получить граф, мы вначале делим страницу на неделимые базовые элементы. Мы предполагаем, что пользователь вводит веб-страницу по ссылки. Основываясь на типе, размере, физической форме позиции и подобии тексту привязки в ссылке, мы даем каждому основному элементу начальное значение рейтинга. Мы используем взвешенные ребра, чтобы представить отношения между двумя основными элементами. Веса - функция атрибутов этих двух элементов, таких как подобие слова и физическая близость элементов в пределах страницы. Это представление графа веб-страницы очень отличается от обычно используемого основанного на дереве анализа веб-страниц. Это описание более семантическое, чем синтаксическое, хотя возможно использовать синтаксическую информацию, чтобы улучшить эффективность представления.

Модель графа одной веб-страницы составлена из сотен основных элементов, которые связаны друг с другом в очень сложной манера. Такая структура подобна структуре Интернету, который также составлен из многих взаимосвязанных веб-страниц. (The most successful ranking algorithm for web pages is a random walk model used by the Google search engine) Самое успешное ранжирование алгоритма для веб-страниц заключается в случайной прогулочной модели по поисковой системе Google. (The web is treated as a graph on which surfers move randomly from page to page according to the links on the page) Сеть рассматривают как граф, по которому беспорядочно двигаются surfers от одной страницы до другой, согласно связям на страницах. (The ranking of the web page is then the expected number of surfers visiting the page at any time) Ранжирование веб-страниц, когда ожидаемое число из серфингистов, посещают страницу в любое время.

Модель графика единственной веб-страницы составлена из сотен основных элементов, которые соединены друг с другом очень сложным способом. Такая структура подобна целому Интернету, который также составлен из многих взаимосвязанных веб-страниц. Самый успешный алгоритм ранжирования для веб-страниц - случайная модель обхода, используемая поисковой системой Google. Сеть обработана как график, в который серфингисты перемещаются в произвольном порядке от страницы до страницы согласно ссылкам на странице. Ранжирование веб-страницы - тогда ожидаемое число серфингистов, посещающих страницу в любое время.

Мы предполагаем, что способ, которым человек читает веб-страницу, подобен тому, как серфингист бродит по сети. Читатель вводит страницу через ссылку и привлечен к элементам, которые связаны с текстом привязки в ссылке и расположены в центральных положениях на странице. После чтения элемента читатель идет дальше к чрезвычайно связанному элементу. Моделируя силу соединений между элементами согласно их подобию, мы используем упрощенную модель перемещения внимания читателей на веб-страницу. Мы тогда оцениваем элементы согласно ожидаемому числу читателей, читающих определенный элемент в любое время. Основанный на ранжировании, мы выбираем прямоугольник, покрывающий все важные элементы веб-страницы, и передаем контент прямоугольника.

Вклады этой бумаги включают новый подход для того, чтобы включить приятному опыту серфинга на мобильных устройствах и новой модели для того, чтобы обработать документ HTML. А не традиционная древовидная модель, мы преобразовываем документ HTML в график, который позволяет нам использовать успешный подход PageRank Google для того, чтобы найти важные элементы в документе.

Мы организуем бумагу следующим образом. В разделе 2, мы даем краткий обзор системы. В разделе 3, мы дадим проект системы. В разделе 4 мы обсудим набор данных, и опишем оценку системы. Раздел 5 о связанных работах. В разделе 6, мы дадим наше заключение и направление для будущего исследования.

2. Преобразование веб-страницы в граф

Чтобы создать граф из веб-страницы, мы сначала идентифицируем узлы, которые являются основными элементами в веб-странице. Затем мы определяем края графа, которые кодируют отношения между парами основных элементов. Исследователи предложили различные методы, чтобы разделить страницу HTML на логические блоки. Например, [5] предложил, чтобы визуальный основанный метод, чтобы проанализировать структуру веб-страницы, и [2] обеспечил метод, чтобы автоматически понять семантическую структуру страниц HTML, основанных на обнаружении визуальных общих черт объектов контента. В нашей системе мы используем более простые объекты в качестве узлов в графике: все неперекрывающиеся видимые элементы в странице HTML. Мы используем интерфейс ДОМА, обеспеченный веб-браузером. От восходящего мы идентифицируем узлы при использовании двух простых правил:

1. Видимый объект как изображение, ссылка или текстовый абзац будет основным элементом, если это не наложится с другим дочерним элементом или его родительским узлом.

2. Для того, чтобы перекрыть объекты, минимальный контейнер двух объектов будет потенциальным элементом, который будет проверен правилом 1. Алгоритм будет стремиться от вверх дном определить местоположение самого близкого общего контейнера, и контейнер будет обработан как один узел.

Например, веб-страница может содержать много ссылок, которые не накладываются друг с другом. Каждая из ссылок будет обработана как основной элемент. У другой веб-страницы может быть текстовый абзац со ссылкой. Здесь у нас есть два перекрывающихся объекта. Больший, текстовый абзац, будет выбран, чтобы быть проверенным правилом 1. Если текстовый абзац не перекроет другие элементы в более высоком уровне, то он будет выбран, иначе мы будем рекурсивно искать вверх. Этим способом все видимые объекты в веб-странице будут элементами, выделенными узлам в графике.

Как показано ниже. Наш алгоритм преобразует исходную веб-страницу в список основных элементов.

В предыдущей секции, мы получили прямоугольник в пределах веб-страницы, которая прилагает истинную статью. Целевой прямоугольник может быть больше, чем наиболее мобильные устройства; мы должны оптимизировать содержание и удостовериться, что это выглядит хорошим на устройстве конца. У нас есть следующие цели дизайна:

1. Минимизируйте вертикальное завивающееся действие на маленьком устройстве экрана и устраните горизонтальное завивающееся действие.

2. Максимизируйте подобие между расположением оптимизированного содержания и оригинальной веб-страницей.

Мы преобразовываем расположение HTML так, чтобы ширина повторно предоставленной страницы HTML была меньшей, чем размер экрана. Чтобы максимизировать подобие между оригинальной страницей и повторно предоставленной страницей, мы должны сохранить структуру иерархии HTML оригинальной страницы.