Алгоритм работы поисковой системы - www.antula.ru/algoritm.htm


Алгоритм работы поисковой системы

С целью оказания помощи при заказе сайта приводим сведения об основных принципах алгоритма работы поисковых систем и алгоритма поиска информации по сайтам.

Чем более точно заказчик сформулирует, чем именно он занимается, какими именно словами можно кратко и лаконично охарактеризовать его бизнес, тем большую отдачу и прибыль может принести создаваемый сайт.

Пять "постулатов" работы поисковой системы:

  1. Даже в самых "умных и точных" поисковых системах сайты проходят "ручную" проверку (визуальный просмотр) администратором поисковой системы (модератором).
  2. Поисковые системы стараются держать в секрете точную формулу (алгоритм) своей работы, на основе которой строятся их рейтинги. Этим достигаются две основные цели: защита от конкурентов и защита от направленного поискового спама.
  3. Любой алгоритм разрабатывается людьми. Людям свойственно ошибаться. Рейтинг поисковой системы может также содержать ошибки.
  4. Алгоритм работы поисковой системы "умнеет" вместе с самими разработчиками, его создавшими. Чем больше знаний у самих разработчиков, тем "умнее и точнее" работа поисковой системы, тем удобнее искать и получать в ней необходимую информацию.
  5. Поисковые системы - не благотворительные организации. Основной целью работы поисковой системы является получение прибыли. Любой рейтинг можно купить. Чем сложнее это сделать, тем честнее поисковая система и рейтинг сайтов, которые она выстраивает.

Не следует удивляться, когда веб-дизайнер вставляет в сайт слова или выражения, не совсем логичные с точки зрения литературного языка. Разные блюда можно приготовить из одних и тех же продуктов. Поисковые системы получают разные результаты, основываясь на одних и тех же исходных данных. Все зависит от алгоритмов обработки этих данных, заложенных создателями поисковых систем.

Одни системы уделяют внимание "индексу цитирования", другие нет, одни системы анализируют мета-теги, другие нет. Если посмотреть рейтинги одного и того же сайта в разных поисковых системах, он везде окажется различным. Оптимизировать сайт (содержание сайта) под все поисковые системы технически невозможно.

Поисковые системы отличаются объемом проиндексированных страниц и периодом обновления своего индекса.

Объём индексации поисковых систем оценивается по двум основным параметрам: по количеству веб-страниц, которые поисковые системы посетили для создания своей базы данных, и количеству веб-страниц, проиндексированных в базе данных.

Чем большее число веб-страниц посетил поисковый робот (программа, отвечающая за просмотр и сбор информации с сайтов), тем большее количество перекрестных ссылок он проиндексировал.

Поисковые системы различаются периодом обновления своего индекса, то есть временем, за которое происходит полное обновление базы данных поисковой системы. Чем короче этот период, тем более точными будут результаты, тем меньше будет "мертвых ссылок" по результатам запроса. Рейтинг сайта в одной и той же поисковой системе может изменяться: появляются или исчезают какие-то сайты, вводятся изменения и дополнения в алгоритм работы поисковых систем, меняется структура вашего сайта, представленная на сайте информация и т.п.

Периоды обновления индекса генератора основных русскоязычных поисковых машин - Яndex, Rambler, "Апорт", "Mail.ru" и "Google" различны: от одной недели до месяца. В зависимости от того, к какой тематике относится сайт, период обновления индекса может быть различен. После регистрации (точнее, при предложении для регистрации) своего сайта в этих поисковых машинах ссылка на него появится не одновременно, а только тогда, когда будет обновлена база данных каждой поисковой системы.

Обобщённо алгоритм работы поисковой системы и рейтинг, который она выстраивает на основе запроса (ключевое слово), учитывает и анализирует:

  1. Общее количество ключевых слов на сайте.
  2. Общее количество ключевых слов на странице.
  3. Соотношение общего числа слов на сайте к количеству ключевых слов на сайте.
  4. Соотношение общего числа слов на странице к количеству ключевых слов на странице.
  5. Индекс цитирования.
  6. Популярность тематики.
  7. Число запросов по конкретному ключевому слову за определённый период времени.
  8. Общее количество страниц сайта.
  9. Применение стиля к страницам сайта.
  10. Общий объём текста сайта.
  11. Общий объём сайта.
  12. Общий объём каждой страницы сайта.
  13. Общий объём текста каждой страницы сайта.
  14. Возраст сайта.
  15. Название URL сайта (имя домена)
  16. Периодичность обновления информации на сайте.
  17. Последнее обновление страниц сайта.
  18. Общее число картинок (рисунков) на сайте.
  19. Общее количество мультимедийных файлов.
  20. Наличие замещающих надписей на рисунках (картинках).
  21. Длину (в количестве символов) замещающих надписей рисунков (картинок).
  22. Использование фреймов.
  23. Язык сайта (русский или иностранный).
  24. Размер шрифта, которым оформлены ключевые слова.
  25. Жирность шрифта ключевых слов.
  26. Написаны в разрядку или нет ключевые слова.
  27. Написаны или нет заглавными буквами ключевые слова.
  28. Как далеко от начала страницы располагаются ключевые слова.
  29. Стиль заголовков и наименований ключевых слов.
  30. Наличие и анализ мета-тэгов.
  31. Наличие и содержание описания и свойств страницы.
  32. Наличие файла "робот".
  33. Географическое месторасположение сайта.
  34. Комментарии внутри программного кода сайта.
  35. К какому типу страниц относится каждая страница сайта : html или asp.
  36. Наличие в составе сайта flash модулей.
  37. Наличие в составе сайта страниц с незначительными отличиями друг от друга.
  38. Соответствие ключевых слов сайта тому разделу каталога поисковой машины, в котором зарегистрирован сайт.
  39. Наличие "шумовых слов" ("стоп слов").
  40. Общее количество гиперссылок сайта.
  41. Количество внутренних гиперссылок сайта.
  42. Количество внешних гиперссылок сайта.
  43. Глубина сайта.
  44. Ряд других специальных технических параметров.

Примечание

Многие поисковые машина алгоритма как такового вообще не имеют. Их работа сводится к очистке текста сайта от программного кода и выстраивания слов, встречающихся на сайте по их частоте.

Чем сложнее алгоритм работы поисковой машины, тем, с одной стороны, больше вероятность получения наиболее точных и полных результатов, но, с другой стороны, больше вероятность ошибок в работке самого алгоритма. Усложняя алгоритм работы поисковой машины можно как достичь более полных и точных результатов, так и, наоборот, получить менее точные и полные результаты.

Любой инженер знает, что чем сложнее какая-либо машина, тем, с одной стороны, она может выполнять больше функций, но, с другой стороны, больше вероятность выхода её из строя.

Резюме

Сайты создаются, в первую очередь, для посетителей сайта, а не для поисковых машин, рейтингов и каталогов.

Учёт особенностей алгоритма работы поисковых систем, каталогов и рейтингов обязателен, особенно для молодых и плохо раскрученных сайтов. Тем не менее, при создании сайта следует руководствоваться разумным компромиссом между стремлением создать сайт, оптимизированный под поисковые системы и занимающий высокие позиции по рейтингам, и наполнением (контекстом) сайта, которые читают посетители сайта.