Многие поисковые системы основаны на хорошо известных методах и алгоритмах, разработанных еще до появления Интернет. Общая задача информационного поиска в Интернет состоит в том, чтобы найти документы, соответствующие информационной потребности пользователя.
Еще десять лет назад проблем с поиском необходимой информации у пользователя Интернет не возникало. Однако, с течением времени ситуация изменилась и теперь мы даже не всегда понимаем, какой необходимо сделать запрос для поиска нужной информации.
Следовательно, необходимо изменить постановку задачи поиска и разработать новые методы обработки полученных данных с целью сужения области поиска.
Поисковые cистемы обычно состоят из трех компонент:
агент (паук или кроулер), который перемещается по Сети и собирает информацию;
база данных, которая содержит всю информацию, собираемую пауками;
поисковый механизм, который люди используют как интерфейс для взаимодействия с базой данных.
Немного подробнее:
Агенты - самые "интеллектуальные" из поисковых средств. Они могут делать больше, чем просто искать: они могут выполнять даже транзакции от Вашего имени.
Уже сейчас они могут искать cайты специфической тематики и возвращать списки cайтов, отсортированных по их посещаемости. Агенты могут обрабатывать содержание документов, находить и индексировать другие виды ресурсов, не только страницы.
Они могут также быть запрограммированы для извлечения информации из уже существующих баз данных. Независимо от информации, которую агенты индексируют, они передают ее обратно базе данных поискового механизма.
Общий поиск информации в Сети осуществляют программы, известные как пауки. Пауки сообщают о содержании найденного документа, индексируют его и извлекают итоговую информацию.
Также они просматривают заголовки, некоторые ссылки и посылают проиндексированную информацию базе данных поискового механизма.
Кроулеры просматривают заголовки и возращают только первую ссылку.
Роботы могут быть запрограммированы так, чтобы переходить по различным cсылкам различной глубины вложенности, выполнять индексацию и даже проверять ссылки в документе.
Из-за их природы они могут застревать в циклах, поэтому, проходя по ссылкам, им нужны значительные ресурсы Сети.
Однако, имеются методы, предназначенные для того, чтобы запретить роботам поиск по сайтам, владельцы которых не желают, чтобы они были проиндексированы.
В следующих таблицах представлены результаты поиска ключевых фраз магистерской работы, который проводился 2 раза с помощью наиболее популярных англоязычных, русскоязычных и украиноязычных поисковых систем: Google, Yahoo, Yandex, Rambler, Мета, Mail, Nigma.
|