Алгоритм Hilltop

Автор: Цуканова М.В.

Поисковая система Google — наиболее распространенная поисковая система в Интернет. Всвязи с этим была выбрана эта тема. Я сама пользуюсь исключительно этой поисковой системой, так как она выдает не просто список найденных документов как остальные системы, а ранжирует их в соответствии с темой запроса и на первое место ставит наболее подходящие ссылки. Поэтому меня заинтересовал данный алгоритм, который выполняет это ранжирование в Google.

Хранилище Google состоит из более чем 8 биллионов веб-страниц, а время поиска составляет не более половины секунды. Google достигает таких результатов, используя более 10000 компьютеров, которые расположены по всему миру.

Google был представлен Larry Paige и Sergey Brin, двумя стендфорскими студентами, которые начали разработку поискового двигателя, в основе которого лежит анализ ссылок между страницами. Этот способ был назван Google, название происходит от слова googol (число 1 с сотней нулей).

Google был запущен в 1998 году, когда все остальные поисковые системы уже были представлены. Несмотря на столь поздний старт, Google стал лидером в этом пространстве с самого начала.

Первой причиной успеха Google было высокое качество результатов поиска. Google имел хорошие результаты поиска при небольшом времени отклика.

Второй причиной стала его абсолютная объективность. Никто не может купить место в Google, поэтому на результат его поиска не влияет никак реклама.

Поисковый алгоритм — это математическая формула, в которой запрос пользователя берется за неизвестное, и обычно, рассмотрев несколько решений, полученных с помощью этой формулы, поисковая система выдают одно. Поисковый алгоритм соотносит ключевые слова запроса с информацией в базе данных и находит релевантные результаты. Поисковые роботы анализируют контент веб-страниц и релевантность ключевых слов на этих страницах, опираясь на формулу, которая может различаться в разных поисковых системах.

Что же такое алгоритм Hilltop?

Hilltop (он же LocalScore — “местный счет”) определяет «авторитетность» web-страницы по отношению к данному запросу или поисковому термину.

Bharat формулирует, что вместо использования просто «PR ценности» для нахождения «авторитетных» web-страниц, более важным будет, если «ценность» обладает тематической релевантностью. Исходя из этого, более полезно подсчитывать ссылки от «тематически релевантных» документов на данную страницу. Он называл эти «тематически релевантные» документы «экспертными документами», а ссылки от таких экспертных документов на целевые документы определяли как «показатель авторитетности» последних.

Алгоритм состоит из трех основных шагов:

1. Начальный поиск. Выполняется начальный поиск по всем ключевым словам.

2. Фильтр дочерних страниц. Удаление дочерних таблиц.

3. Определение LocalScore. Определение LocalScore для страниц в списке в соответствии с поступающими ссылками страниц из этого же списка. Основное положение состоит в том, что перечисленные станицы в списке наиболее значимы для этого поиска, поэтому ссылки только с этих страниц будут посчитаны. Если страницы близких тематик ссылаются друг на друга, можно предположить, что "хорошие" страницы имеют тенденцию указывать на подобные им.

Дочерние страницы определяются следующим образом:

— Страницы, происходящие из того же самого домена ((www.ibm.com, www.ibm.com/us/, products.ibm.com, solutions.ibm.com и т.д;

— Страницы, происходящие из тех же доменов, но различных уровней и вторичных суффиксов (например www.ibm.com, www.ibm.co.uk, www.ibm.co.jp и т.д.);

— Страницы, происходящие из соседних IP (первые 3 общие восемь цифр из номера IP, например: 66.165.238.xxx — общие);

— Страницы, происходящие из самих дочерних сайтов (если www.abc.com хостирован на том же самом cокете IP, что и www.ibm.com, тогда www.abc.com является дочерним по отношению к www.ibm.co.uk даже, если они на разных IP адресах).

Необходимо заметить, что алгоритм Hilltop строит свои подсчеты только на «экспертных документах». Его алгоритм требует нахождения по крайней мере двух экспертных документов, голосующих за страницу. Если алгоритм не находит минимум двух экспертных документов, результаты поиска будут нулевые. Это, собственно, означает, что алгоритм Hilltop не смог придать какой-либо ценности дальнейшему ранжированию и, поэтому становится неэффективным по данному поисковому термину. Это очень важный аспект алгоритма Hilltop – он неэффективен в случае не нахождения экспертных документов.

Эта уникальная черта алгоритма Hilltop, имеющая большую вероятность выдачи «нулевого» результата по высокоспецифичному термину запроса, привела большинство SEO сообщества к уверенности в том, что Google использует фильтр-список «денежных слов». На самом деле, результаты «старого Google» показывались по специфическим поисковым терминам там, где Hilltop не справлялся. Коллекция таких терминов и была тем, что собирало SEO сообщество и называло ее «Списком Денежных Слов» (‘Money Words List').

Страницам присваивается локальная оценка «авторитетности», основанная на количестве и качестве голосов, которые они получают от этих экспертных документов. Затем, страницы классифицируются согласно их локальной оценке.

Формула ранжирования Google = {(1-d)+a (RS)} * {(1-e)+b (PR * fb)} * {(1-f)+c (LS)}

Где:

RS = RelevanceScore — показатель релевантности (показатель, основанный на ключевых словах, появляющихся в заголовке, мета-тегах, подзаголовках, в основном тексте, URL, атрибуте alt, атрибутах заголовка, якорном тексте и т.д.);

PR = PageRank: — ранг страницы (показатель, основанный на количестве и PR значении страниц, ссылающихся на ваш сайт. Исходная формула PR (A) = (1-d) + d (PR (t1)/C (t1) + ... + PR (tn)/C (tn)), где PR страницы A — это сумма PR каждой страницы, ссылающейся на неё, поделенная на количество исходящих ссылок на каждой из этих страниц, d — это фактор амортизации (dampening factor), считающийся равным 0.15);

LS = LocalScore — локальный счёт (локальный показатель; показатель, вычисленный из экспертных документов), вариабелен и имеет различные значения в отношении поискового термина, появляющегося в заголовке, подзаголовке, якорном тексте, частоте поискового термина и т.д.;

a, b, c = Tweak Weight Controls — тонкая подстройка веса (имеющаяся у Google для тонкой подстройки результатов);

d, e, f = Dampener Controls — демпфирующий контроль (имеющийся у Google для тонкой подстройки результатов. Мы полагаем, что обычно величина f установлена на ноль);

fb = FactorBase — фактор базы (Шкала PageRank от 1 до 10 на Google bar не линейная, но экспоненциально/логарифмическая. В соответствии с нашими внутренними исследованиями, мы считаем, что эта база «близка» к 8. Это означает, что PR5 в 8 раз больше по значению, чем PR4. Таким образом, веб-сайт PR8 имеет ценность в 4000 раз больше, чем веб-сайт PR4. Этот фактор каким-то образом должен быть встроен в формулу алгоритма. Поэтому мы взяли величину fb для аккомодации данного фактора).

Спиосок ссылок

1. Анализ и значение алгоритма Hilltop: Как он повлияет на ранжирование вашего сайта в Google? http://rus-phpnuke.com/modules.php?name=Content&go=show&p=28

2. HillTop Algorithm. http://www.seoisrael.com/hilltop_algorithm/

3. Hilltop: A Search Engine based on Expert Documents,Krishna Bharat,Compaq, Systems Research Center, Palo Alto, CA 94301. http://ftp.cs.toronto.edu/pub/reports/csrg/405/hilltop.html

2008 Цуканова М.В., ДонНТУ