Назад в библиотеку

Обзор современных поисковых систем: архитектура, инструменты поиска.

Автор: Липкин Ю. Г.
Источник: Информационные технологии Выпуск № 5 / 2009

Аннотация

Липкин Ю. Г. - Обзор современных поисковых систем: архитектура, инструменты поиска. В статье рассматриваются современные средства поиска информации, представленные в сети Internet. Принципиально излагается архитектура и особенности работы поисковых ресурсов. Акцентируется внимание на мета-поисковые системы, необходимость использования языка запросов и учета стилистических особенностей языка разыскиваемого информационного контента

Обзор современных поисковых систем: архитектура, инструменты поиска.

Непрерывно растущие объемы доступной в сети Internet информации, в том числе оперативной, делают задачу поиска необходимых сведений весьма актуальной. Оперативный поиск востребован наиболее остро. Профессионализм современного врача-исследователя все больше зависит от скорости поиска нужной информации. Для облегчения процедуры поиска требуемых данных существуют многочисленные, как зарубежные, так и отечественные, системы поиска, представляющие собой специализированные WEB-серверы. Однако, несмотря на наличие многочисленных средств автоматизации поиска, эта задача остается достаточно трудоемкой, требующей от пользователя определенного опыта, интуиции, знания терминологии, используемой в его предметной области. Дополнительной трудностью для поиска может стать и тот факт, что современные поисковые ресурсы пока не обладают возможностью уточнения поставленных запросов и вынуждены довольствоваться только той информацией, которая предоставлена в вопросе. При использовании любого поискового Internet-ресурса следует достаточно точно формулировать свои вопросы, иначе системы вернут неадекватные ответы.

Основой любого поискового Internet-ресурса является взаимодействие между запросом пользователя (ключевым словом или словосочетанием) и некоторой библиотекой знаний или базой данных. Зачастую информационное хранилище может располагаться не только на данном поисковом ресурсе, но и на многих других серверах и поисковых системах. По способу организации поиска и по предоставляемым возможностям все средства поиска могут быть условно разбиты на следующие группы:

  1. Поисковые системы (поисковые машины, поисковые серверы, поисковые роботы).
  2. Каталоги (могут называться поисковыми директориями или поисковыми базами данных).
  3. Мета-поисковые системы (или метакраулеры, мультипоточные поисковые системы).

I. Классические поисковые системы обычно состоят из трех компонентов:

  1. Агент (паук или краулер), специализированное программное обеспечение, которое анализирует содержимое Internet-сайтов и собирает информацию;
  2. База данных, которая содержит всю информацию, собираемую поисковым агентом;
  3. Поисковый механизм, который используется как интерфейс для взаимодействия с базой данных поисковой системы.

Принципиально механизм работы поисковой системы можно представить в виде циклического алгоритма собственного поиска информации, накопления информации в базе данных и предоставления ее пользователю по мере запросов. Поисковые агенты в рамках определенного диапазона адресов поиска, исходя из предоставляемых прав, просматривают гипертекстовое содержимое сайтов, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют информацию. Алгоритм просмотра, как и само разрешение на просмотр, лимитируется исключительно администраторами этих сайтов. В качестве альтернативы описанному алгоритму заполнения базы данных может служить активная индексация своего сайта путем заполнения соответствующих регистрационных форм. Когда пользователь хочет найти информацию, доступную в Internet, он посещает страницу поисковой системы (интерфейс пользователя поисковой системы) и заполняет форму (строку поиска). В качестве поискового запроса могут использоваться ключевые слова, даты и другие критерии. База данных отыскивает предмет запроса, основанный на информации, указанной в заполненной форме, и выводит соответствующие документы, подготовленные базой данных. Чтобы определить порядок, в котором список документов будет показан, база данных применяет алгоритм ранжирования. В идеальном случае документы, наиболее релевантные пользовательскому запросу, будут помещены первыми в списке. Различные поисковые системы используют различные алгоритмы ранжирования, однако основные принципы определения релевантности (степень соответствия ответа вопросу) зависят от количества, местоположения и удельного веса слов запроса в найденных документах, как долго хранятся в базе данных возвращенные запросу страницы, как много ссылок на данные страницы ведут с других страниц, зарегистрированных в базе поисковика. Когда пользователь кликает мышкой на ссылке к одному из документов, который его интересует, этот документ запрашивается с того сервера, на котором он физически находится.

II. Поисковые каталоги представляют собой совокупность ссылок на сайты по тематическим рубрикам. Принципиальное отличие поисковых каталогов от поисковых систем заключается в том, что база данных формируется администратором, а не поисковым агентом. Для регистрации в базе данных поискового каталога необходимо подать соответствующую заявку, где определенным образом описывается индексируемый сайт: наименование, ключевые слова, содержание, рубрика, в которую желательно попасть, URL и т.д. Работа с поисковой страницей каталога схожа с обычным поисковым сайтом, но поиск здесь ведется по базе данных ключевых слов и описаниям, которые предоставили их владельцы.

Рисунок 1 – Архитектура мета-поисковой системы

Рисунок 1 – Архитектура мета-поисковой системы

Принимая во внимание очевидные достоинства и недостатки обоих подходов в формировании базы данных, в настоящее время разработчики поисковых сайтов (в широком понимании этого термина) используют обе идеологии одновременно. Пользователю предоставляется возможность сразу найти ответ или сузить область разведки средствами каталогизирования, а затем вести «классический» поиск. Могут быть и иные варианты содружества этих подходов. В настоящее время растет количество поисковых систем и каталогов. Так как разные поисковики используют разные алгоритмы поиска и уделяют «особое» внимание разным участкам сети Internet, в то же время увеличивается и доля непроиндексированного для каждой поисковой системы. Логично во многих случаях искать сразу несколькими поисковыми машинами. Сколько существует поисковых систем (каталогов) в современной мировой паутине? На этот вопрос затруднительно ответить даже специалисту. На слуху обычного пользователя Internet не больше десятка поисковых сайтов (например, Google, AltaVista, Yahoo!, Lycos, Рамблер, Апорт, а из медицинских — MEDLINE, PubMeC). Поиск информации настолько важен, что логически закономерным стало возникновение так называемых мета-поисковых систем.

II. Мета -поисковые системы — это поисковый инструмент, посылающий запрос пользователя одновременно на несколько поисковых Internet-ресурсов. В отличие от поисковых систем, мета-по-исковые системы не имеют ни своих роботов-пауков, ни базы данных. Они берут результаты поиска исключительно от нескольких других поисковых серверов. В основу работы мета-поисковой системы заложен следующий принцип: из запроса пользователя генерируются запросы, отформатированные в синтаксисе и логических конструкциях каждого конкретного поискового ресурса. В качестве поисковых ресурсов для мета-поисковых систем могут служить поисковые системы, каталоги и даже некоторая информация, не проиндексированная традиционными поисковыми системами. Таким образом, из одного запроса мета-поисковая машина делает множество запросов, которые затем рассылаются широкому кругу поисковых машин и/или каталогов. Собрав результаты, мета-поисковая система удаляет дублированные ссылки и, в соответствии со своим алгоритмом, ранжирует результаты.

Схематически архитектуру мета-поисковой системы можно представить на рис. 1. Пользователь, исходя из своей информационной потребности и предлагаемых стратегий, генерирует запрос. В соответствии с принятыми на каждой поисковой системе требованиями мета-поисковая система преобразовывает запрос и ретранслирует его мета-по-исковым агентом соответствующей поисковой системе или каталогу. После обработки полученного запроса каждая система возвращает мета-поисковому агенту множество описаний и ссылок на документы, которые считает релевантными данному запросу. Дождавшись ответа от поисковых систем, мета-поисковый агент передает результаты в саму мета-по-исковую систему для анализа. В соответствии с различными подходами к анализу переданных данных мета-поисковые системы бывают четырех типов.

  1. Классические мета-поисковые системы, которые ранжируют результаты на одной странице.
  2. «Псевдо»-мета-поисковые системы первого типа, которые группируют результаты по поисковым системам на одной странице.
  3. «Псевдо»-мета-поисковые системы второго типа, которые открывают для каждой используемой поисковой системы свое окно в браузере.
  4. Поисковые утилиты — программные поисковые средства (также называемые поисковыми приложениями рабочего стола).

Выводы

Таким образом, на сегодня достаточно адекватных алгоритмов распознавания типов предложений в русском языке пока не разработано. Приведенные примеры для агента поисковой машины являются набором слов, которые имеют возможность вольно чередоваться внутри предложения. Все перечисленные особенности должны учитываться как администраторами поисковых систем и каталогов, так и пользователями при заполнении строки запроса.