АНГ

 

Реферат на тему

Сравнение эффективности различных поисковых систем

Подготовил Хайтам Аббас Халаф

Введение

Поисковая система — веб-сайт, предоставляющий возможность поиска информации в Интернете. Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на ftp-серверах, товары в интернет-магазинах, а также информацию в группах новостей Usenet. В последнее время появился новый тип поисковых движков, основанных на технологии RSS, а также среди XML-данных разного типа.

Комплекс программ, обеспечивающий функциональность поисковой системы, называют поиско́вый движо́к или поиско́вая маши́на. Основными критериями качества работы поисковой машины являются релевантность, полнота базы, учёт морфологии языка. Индексация информации осуществляется специальными поисковыми роботами. Основные проблемы в работе поисковых систем описаны в статье Глубокая паутина. Улучшение работы поисковых систем — это одна из приоритетных задач сегодняшнего Интернета.

Первой поисковой системой для Всемирной паутины был «Wandex», уже не существующий индекс, который создавал «World Wide Web Wanderer» — бот, разработанный Мэтью Грэйем (англ. Matthew Gray) из Массачусетского технологического института в 1993. Также в 1993 году появилась поисковая система «Aliweb», работающая до сих пор. Первой полнотекстовой (т. н. «crawler-based» — то есть индексирующей ресурсы при помощи робота) поисковой системой стала «WebCrawler», запущенная в 1994. В отличие от своих предшественников, она позволяла пользователям искать по любым ключевым словам на любой веб-странице, с тех пор это стало стандартом во всех основных поисковых системах. Кроме того, это был первый поисковик, о котором было известно в широких кругах. В 1994 был запущен «Lycos», разработанный в университете Карнеги Мелона.

Вскоре появилось множество других конкурирующих поисковых машин, таких как «Excite», «Infoseek», «Inktomi», «Northern Light» и «AltaVista». В некотором смысле они конкурировали с популярными интернет-каталогами, такими, как «Yahoo!». Позже каталоги соединились или добавили к себе поисковые машины, чтобы увеличить функциональность. В 1996 году русскоязычным пользователям интернета стало доступно морфологическое расширение к поисковой машине Altavista и оригинальные российские поисковые машины Rambler и Aport. 23 сентября 1997 года была открыта поисковая машина Яндекс.

Помимо поисковых машин для Всемирной паутины существовали и поисковики для других протоколов, такие как Archie для поиска по анонимным FTP-серверам и «Veronica» для поиска в Gopher.

 

1 Основные поисковые системы

         Существует множество различных поисковых систем. Основные из них:

1) Google (русск. Гугл или Гугль, NASDAQ: GOOG, LSE: GGEA) — общее название американской компании Google Inc., её сайта www.google.com и поисковой системы, находящейся на этом сайте.

Google — искажённое написание английского слова «googol» (гугол), придуманного Милтоном Сироттой, племянником американского математика Эдварда Каснера (Edward Kasner), для обозначения числа, состоящего из единицы и ста нулей.

Также слово "google" переводится с английского как "таращить глаза", что связано с поисковой деятельностью системы "Google".

Компания зарегистрирована как Google Inc. располагающаяся в Маунтин Вью (Калифорния). Среди её инвесторов значатся Kleiner Perkins Caufield & Byers и Seqoia Capital. Благодаря своим технологическим инновациям, Google стала обладателем множества наград, включая приз «Глас Народа» за лучшие технические достижения и награду «Лучшая поисковая система в Интернете» от Yаhoo! Internet Life. Google завоевал приз за «Техническое Совершенство» журнала PC и «Лучшая поисковая машина» журнала The Net. Большее число компаний, включая AOL (Netscape) и Washington Post, используют поисковые технологии Google на своих вебсайтах.

19 августа 2004 года начала продажу своих акций на фондовом рынке (IPO), то есть стала публичной компанией NASDAQ: GOOG. Разошлись почти 20 миллионов акций на общую сумму в 1,67 млрд. долларов США. Собственно Google достались только $1,2 миллиарда. Компания продала не все принадлежащие ей ценные бумаги: у Google есть ещё более 250 миллионов акций, которыми она вольна распоряжаться по своему усмотрению. Google выпустила акции двух типов: обычные (Class A, всего 33,6 млн. штук), которые перепродаются теперь в системе NASDAQ, и привилегированные (Class B — 237,6 млн. штук), хождение которых ограничено «стенами» компании. Каждая привилегированная акция при голосовании может уравновесить десять обычных. 30 августа 2004 года на специализированных торговых площадках начались торги опционами компании Google. Подробнее об IPO см. на сайте Google’s Initial Public Offering Information

7 января 2007 года самому популярному сайту в интернете исполнилось 9 лет. Девять лет тому назад, в 1998 году Google впервые открыл двери своего офиса в Менло Парк, Калифорния, США.

Лидер поисковых машин интернета, Google занимает более 70 % мирового рынка, а значит, семь из десяти находящихся в сети людей обращаются к его странице в поисках информации в интернете. Cейчас регистрирует ежедневно около 50 млн. поисковых запросов и индексирует более 8 миллиардов веб-страниц. Google может находить информацию на 101 языке. Google на конец августа 2004 года состояла из 132 тыс. машин, расположенных в разных точках планеты (источник информации — бывший высокопоставленный сотрудник компании).

Интерфейс Google содержит довольно сложный язык запросов, позволяющий ограничить область поиска отдельными доменами, языками, типами файлов и т. д. Например, поиск «intitle:Google site:wikipedia.org» даст все статьи википедии на всех языках, в заголовке которых встречается слово «Google» [1]. Полный справочник по языку запросов Google на русском языке находится здесь. Подробное неофициальное пособие по поисковым запросам Google на русском языке и с примерами можно найти на той же странице.

2) «Яндекс»

Слово «Яндекс» (состоящее из характерной кириллической буквы «Я» и части слова index; обыгран тот факт, что русское местоимение «Я» соответствует английскому «I») придумал Илья Сегалович, один из основателей Яндекса, в настоящий момент занимающий должность технического директора компании. В названии «Яндекс»/«Yandex» присутствует явная реминисценция с названием первой поисковой системы «Wandex».

Поиск Яндекса позволяет искать по Рунету документы на русском, украинском, белорусском, английском, немецком и французском языках с учётом морфологии русского и английского языков и близости слов в предложении.

С начала 2006 года поиск «Яндекса» установлен на портале Mail.ru.

Помимо веб-страниц в формате HTML, Яндекс индексирует документы в форматах PDF (Adobe Acrobat), RTF (Rich Text Format), DOC (Microsoft Word), XLS (Microsoft Excel), PPT (Microsoft Power Point), SWF (Macromedia Flash), RSS (блоги и форумы).

Отличительная особенность Яндекса — возможность точной настройки поискового запроса. Это реализовано за счёт гибкого языка запросов.

По умолчанию Яндекс выводит по 10 ссылок на каждой странице выдачи результатов, в настройках результатов поиска [1] можно увеличить размер страницы до 20, 30 или 50 найденных документов. Иногда порядок сайтов на этих страницах может отличатся, так как обновление баз для этих результатов происходит не одновременно.

Если по запросу найдено очень много ссылок, страница результатов предлагает ограничить диапазон поиска — по региону (то есть по диапазону IP) или по дате. Если по какому-либо слову или словам ничего не найдено, предлагается заменить его/их на похожие (поскольку предлагаемые варианты зависят от частоты нахождения похожих слов, иногда возникают забавные ситуации). Также, предлагается исправить слова, набранные не в той раскладке клавиатуры.

Время от времени алгоритмы Яндекса, отвечающие за релевантность выдачи, меняются, что приводит к изменениям в результатах поисковых запросов. Последние официально объявленные изменения произошли в марте 2004г., апреле 2005г. и январе 2007г.; по неофициальным сведениям, их значительно больше.

В частности, эти изменения направлены против поискового спама, приводящего к нерелевантным результатам по некоторым запросам (реже — по целым семействам запросов). Против поискового спама, не отсеиваемого автоматически, применяется полуавтоматическая и ручная модерация выдачи  (при помощи т. н. «белых оптимизаторов»), а также прямой отказ от индексации «злонамеренных» сайтов.

3) Yahoo! (NASDAQ: YHOO) — американская компания, предоставляющая ряд сервисов, объединённых интернет-порталом Yahoo! Directory; портал включает в себя популярный сервис электронной почты Yahoo! Mail, один из старейших и наиболее популярных в Интернете. Не так давно была запущена новая версия почтового интерфейса, основанная на AJAX (см. русскоязычный обзор нового интерфейса).

Компания Yahoo! была основана аспирантами Стэнфордского университета Дэвидом Фило (англ. David Filo) и Джерри Янгом (англ. Jerry Yang) в январе 1994 года; стала корпорацией 2 марта 1995 года. Головной офис компании находится в городе Саннивэйл (англ. Sunnyvale), штат Калифорния, США.

Согласно статистике Alexa Internet и Netcraft, на сегодняшний день Yahoo! — первый по посещаемости веб-сайт в сети Интернет. Глобальная сеть веб-сайтов Yahoo! обрабатывает 3,4 млрд. запросов веб-страниц в день (данные на октябрь 2005).

Ранняя история (1994-1996). Происхождение названия.

В январе 1994 года аспиранты Стэнфордского университета Дэвид Фило (англ. David Filo) и Джерри Янг (англ. Jerry Yang) создали веб-сайт, который назывался «Путеводитель Джерри по Всемирной Паутине». «Путеводитель» представлял собой каталог других сайтов. В апреле 1994 года сайт был переименован в Yahoo!. Существует две версии происхождения названия. Согласно первой, слово было взято из книги Джонатана Свифта «Путешествия Гулливера» и означает «грубый», «неотесанный». Согластно второй, Yahoo! это акроним, образованный от фразы «Еще один иерархический неотесанный (неофициальный) прорицатель» (англ. Yet Another Hierarchical Officious Oracle). URL сайта был следующим: http://akebono.stanford.edu/yahoo Однако, к тому времени Yahoo уже был зарегистрированной торговой маркой соуса для барбекю, поэтому к названию был добавлен восклицательный знак. Янг и Фило быстро оценили коммерческий потенциал проекта и 2 марта 1995 года основали корпорацию Yahoo!

В конце 90-х годов 20 века крупнейшие поисковики, такие как MSN, Lycos, Excite и Yahoo! росли с большой скоростью. Для того, чтобы пользователи проводили больше времени на этих порталах, вводится большое количество новых сервисов. 8 марта 1997 года Yahoo! приобретает сервис RocketMail - один из первых бесплатных почтовых сервисов. Так появился сервис Yahoo!Mail. Кроме того, Yahoo! приобретает сервисы ClassicGames.com, который становится основой для Yahoo! Games, и eGroups, ставший впоследствии Yahoo! Groups. Наконец, 21 июля 1999 года Yahoo! вводит сервис для обмена мгновенными сообщениями Yahoo! Messenger.

7 февраля 2000 года Yahoo.com подвергся DDoS атаке и на несколько часов приостановил работу. Из других значимых событий периода «бума дот-комов» можно отметить анонсированное СМИ слияние компаний Yahoo! и eBay. И хотя сделка не состоялась, компании договорились о маркетинговом альянсе шестью годами спустя, в 2006.

Yahoo! стал одной из немногих крупных Интернет-компаний, выживших после «крушения дот-комов». После выхода из сложившегося кризиса (26 сентября 2001 года курс акций Yahoo! достиг своего исторического минимума - $8,11) Yahoo! взялась за рынок телекоммуникаций. 3 июня 2002 года Yahoo! и SBC запустили на американском рынке национальный Dialup сервис, а 23 августа 2005 года совместно с компанией Verizon Yahoo! запускает общенациональный DSL сервис. В конце 2002 года Yahoo! начинает приобретение других поисковых систем - Inktomi, а в 2003 году - Overture services,Inc., AltaVista и AllTheWeb. 18 февраля 2004 года Yahoo! прекращает использование поисковой технологии Google и переходит на свою собственную. В 2005-2006 годах Yahoo! запустил сервисы Yahoo!Music, Flickr и Yahoo! 360° и приобрел ряд социальных сервисов - blo.gs, Upcoming.org, del.icio.us и webjay.

 

2 Апорт Как устроена поисковая машин

Для любого пользователя поисковая система состоит из двух компонентов: поисковой странички и странички с результатами поиска. Последнее важнее, поскольку именно страничка с результатами демонстрирует состоятельность системы. Итак, рассмотрим в качестве примера образец результатов поиска Апорта.

Краткие комментарии:

1.                 Закладки, с помощью которых можно переключаться между различными видами поиска;

2.                 Ссылка на результаты поиска по новостным ресурсам для заданного запроса (в скобках указано число найденных новостей);

3.                 Ссылка на новость наиболее релевантную заданному запросу;

4.                 Число результатов поиска по запросу;

5.                 Название и ссылка на найденный сайт;

6.                 Описание сайта, составленное редактором (импортируется из Апорт-каталога);

7.                 Название и адрес наиболее соответствующего (самого релевантного) запросу документа на сайте;

8.                 Цитаты из полного текста документа с выделением слов запроса;

9.                 Ссылка на сохраненный текст документа (полезно, если сам сайт не доступен через Интернет);

10.             Адрес найденного сайта;

11.             Рубрики из каталога на тему запроса;

12.             Ссылка на результаты поиска по данному сайту (все найденные страницы);

13.             Страна или регион России, к которому принадлежит найденный сайт. При клике по ссылке будет произведен поиск по запросу с ограничением области поиска сайтами из этого региона;

14.             Ссылка на рубрику Апорт-каталога, к которой относится найденный сайта (если сайт опубликован в каталоге);

15.             Страна или регион России, к которому относится ваш IP-адрес. При клике по ссылке будет произведен поиск по запросу с ограничением области поиска сайтами из этого региона;

16.             Рекламные ссылки, соответствующие запросу (контекстная реклама).

Первое, что мы видим - кроме числа найденных документов, Апорт выдает число найденных сайтов. Это не просто формальная процедура, дальше вся выдача разбита именно на сайты, а не на документы. Это вовсе не означает, что вы не можете теперь искать отдельные документы - результаты поиска устроены так, чтобы совместить общую информацию и детальные данные.

Многие поисковые системы сегодня, так или иначе, оперируют понятием сайта, но подразумевают под этим просто адрес сервера типа www.server.com. В этом случае адрес сайта определяется из адреса страницы простым отрезанием хвоста: из http://www.server.com/users/~vasya получается сайт www.server.com. Для больших серверов, где размещены сайты множества фирм или людей, это неудачное решение. Апорт берет в качестве сайта сервер только в самом крайнем случае. Как правило, для определения того, какая группа страниц является логическим целым (сайтом), Апорт использует информацию из базы данных своего каталога, информация о сайтах в котором вводится человеком, а потому гораздо точнее, чем то, что дает любой автоматический алгоритм (специальные алгоритмы тоже используются, но только, если сайт не зарегистрирован в каталоге).

Апорт дает весьма информативное представление найденных при поиске страниц. В блоке каждого сайта Апорт приводит информацию об одной из наиболее релевантных найденных на сайте страниц (7): адрес, заголовок, дата и цитата из документа (8). Важно, что цитаты выбираются из полного текста документа и содержат слова запроса.

Также имеется ссылка на реконструкцию полного текста документа (9). Она нужна, если документ недоступен на самом сайте (упал сервер, документ уже удалили и т.п.) Если нужно получить информацию о всех остальных страницах, которые Апорт нашел на сайте, то можно воспользоваться ссылкой (12), которая замыкает блок результатов. По этой ссылке выдается дополнительное окно, в котором отображаются результаты поиска только по данному сайту. Они состоят из блоков данных по отдельным страницам.

Задача ранжирования результатов поиска является определяющей с точки зрения качества работы поисковой системы. Разработка хорошей функции ранжирования весьма непростая задача, в частности, из-за большой неоднородности ранжируемых документов и из-за попыток сознательного искажения результатов поиска с помощью поискового спама. Мощным средством повышения качества ранжирования является учет гипертекстовой структуры Интернета: ссылочное ранжирование и индекс цитируемости позволяют (хотя и не всегда) отличить качественный контент от сходного по содержанию “мусора”, а также (что особенно важно для владельцев сайтов) оригинальные материалы от их копий. Однако и здесь приходится иметь дело с теми же проблемами: неоднородностью ссылочной структуры и ее сознательным искажением спамерами.

Ещё одним важным средством повышения релевантности является использование информации из каталога Апорта, которая обладает высокой степенью достоверности, так как составлена или проверена профессионально подготовленными редакторами. Принципиальным моментом в ранжировании результатов поиска в Апорте является стремление к учёту максимального количества критериев ранжирования в их взаимосвязи. В частности, заметное преимущество получают документы, имеющие высокий вес сразу по нескольким независимым критериям (например, по частотности слов запроса в тексте и ссылочному ранжированию). Ранжирование производится исключительно автоматическими методами, мы не осуществляем специальной корректировки результатов поиска для каких-либо запросов или сайтов.

Заключение

Многие поисковые системы основаны на хорошо известных методах и алгоритмах, разработанных еще до появления Интернет. Общая задача информационного поиска в Интернет состоит в том, чтобы найти документы, соответствующие информационной потребности пользователя. Еще десять лет назад проблем с поиском необходимой информации у пользователя Интернет не возникало. Однако, с течением времени ситуация изменилась и теперь мы даже не всегда понимаем, какой необходимо сделать запрос для поиска нужной информации. Следовательно, необходимо изменить постановку задачи поиска и разработать новые методы обработки полученных данных с целью сужения области поиска.

Одним из методов, позволяющих пользователю найти нужную информацию в Интернете, является кластеризация полученных документов. Системы, обеспечивающие кластеризацию документов на английском языке, были реализованы западными специалистами несколько лет назад. Подобный алгоритм работает и для поиска документов на русском языке. Преимущество интеллектуальной поисковой системы Nigma.ru состоит в том, что ее алгоритм ищет документы с учетом русской орфографии, объединяет результаты, полученные с разных поисковых систем, использует запросы пользователей для улучшения качества кластеризации и счетчики для сортировки результатов поиска, а также корректирует возможные ошибки.

 

Список использованной литературы

1)     Berners-Lee, T., “Uniform Resource Locators”  1 January 1994.

2)     Yuwono, B., And Lee, D. L., “Search And Ranking Algorithms For Locating Resources On The World Wide Web” 1996.

3)     Ericksen L., Web Page Creation and Design, 2nd edition, 2001.

4)     Thelwall, “The Responsiveness Of Search Engine Indexes”.  (2001).

5)     http://www.googleguide.com/google_works.html How Google Works 2005.

6)     Saba Abd Al-khaliq  “Internet and Arabic Search Engines” (2002) .

7)     S.M.H. Collin, Dictionary of personal computing And The Internet, second edition, 1998, Peter Collin Publishing . 







   

Статистика Реклама
Rambler's Top100
www.software-testing.ru -- тестирование и качество программного 
обеспечения.