Распределенная информационная система поиска на основе тематико-ориентированных методов

Автор: Алексеев И.В., Жбанов И.Ю., Захарова М.Н.
Источник: VIII Всероссийская объединенная конференция «Технологии информационного общества — Интернет и современное общество» (IST/IMS-2005) — Санкт-Петербург, Санкт-Петербургский государственный университет — 2005, С. 6–7.

Целью данного доклада является ознакомление с ходом разработки и реализации проекта «Создание распределенной информационной системы поиска на основе тематико-ориентированных методов» Ярославского государственного университета им. П.Г. Демидова при поддержке Российского фонда фундаментальных исследований.

Данный проект преследует две цели:

создание системы, позволяющей провести экспериментальные исследования на базе тематико- ориентированных методов информационного поиска, и построение конкурентно-способной поисковой системы;
разработка архитектуры распределенной поисковой системы на основе тематико-ориентированных методов, ее реализация, тестирование и ввод в эксплуатацию.

За основу модели была взята поисковая система Google. Существенным отличием создаваемой системы от искомой является автоматическая классификация индексированных документов по темам, которая позволит достичь полной интеграции веб-каталога и поисковой системы. Любой документ, известный поисковой системе, будет автоматически размещён в одной или нескольких категориях веб-каталога на основе классификации по тематическому подобию. Вместе с тем, веб-каталог будет доступен для изменения зарегистрированным пользователям-экспертам на основе голосования.

Отдельным направлением исследования является механизм ранжирования страниц, основанный на анализе структуры ссылок Сети. Главная его идея состоит в том, что количество ссылок на данный документ и значимость ссылающихся на него источников определяют степень ценности обрабатываемой страницы. Наиболее популярным механизмом ранжирования в настоящее время является алгоритм PageRank, использующийся в поисковой системе Googlе. Ранг страницы в нем начисляется в зависимости от количества и весомости входящих ссылок. Однако, одного этого алгоритма недостаточно, чтобы воспрепятствовать манипулированию поисковой системой с целью «раскрутки» сайта, путём искусственного повышения его рейтинга. Так существуют различные модификации алгоритма, такие как, например, расчёт рейтинга не отдельной страницы, а суммарного рейтинга документов из одного каталога.

В ходе выполнения проекта мы остановимся на ряде недостатков рассматриваемого алгоритма поиска, изменить которые ставит задачей этот проект: процесс определения рейтинга и его перерасчет при обновлении документа.

К недостаткам метода можно отнести тот факт, что данный механизм оценивает популярность документа, а не его качество и предвзято относится к новым документам. Известные страницы показываются в результатах поиска среди первых, и их рейтинг растёт ещё выше, а новые, пусть даже и качественные, страницы имеют более низкий рейтинг из-за малого числа ссылок, поэтому показываются в конце списка автоматически, их рейтинг растёт очень медленно. PageRank вычисляет рейтинг статически. Однако, существует модификация алгоритма, которая пытается оценить качество документа, как предел изменения его популярности во времени.

Также стандартный алгоритм PageRank не позволяет производить быстрый (инкрементный) пересчёт рейтинга документа при обновлении всего нескольких страниц. В данной работе планируется изучение и разработка модификаций алгоритма, сравнение его реализаций на больших объемах данных и выбор оптимального решения.

К достоинствам создаваемой системы также можно отнести поиск по словоформам не только русскоязычной части сети, она включит и ряд других наиболее распространенных языков. Поисковая система Google индексирует существенную часть веба, но позволяет вести поиск только по точной фразе, в то время как поисковая система Яндекс ведёт поиск по словоформам, но индексирует, в основном, только русскоязычную часть сети.

Процесс разработки и реализации системы состоит из трёх этапов:

построение веб-каталога;
создание нераспределённой поисковой системы;
реализация распределённой поисковой системы.

На текущий момент успешно ведутся работы по реализации первого этапа реализации проекта: создание тематического каталога. Он нужен по трём причинам.

Во-первых, для начальной классификации документов по множеству тем. На основе каталога адресов из авторитетных источников, дополнений его пользователями и модерирования администраторами будет создаваться и тестироваться механизм автоматической классификации документов по темам.

Во-вторых, для уточнения и пополнения списка тем. Тематический каталог позволяет естественным образом пополнять список тем и уточнять классификацию по ним документов, что является важным для тематико-ориентированной поисковой системы.

В-третьих, так как поисковая система тематико-ориентированная, то вполне естественным будет наличие возможности не только искать по всему вебу, но и просматривать отдельные категории со схожими документами и осуществлять поиск только в пределах заданных категорий. Каталог позволяет просматривать документы, принадлежащие категории, к которой относится найденный конкретный документ. Это позволит пользователям видеть документы, близкие к найденному, но не являющиеся релевантными запросу поиска (на первой странице результатов). Также, каталог тем позволит вести поиск только по указанным категориям, что увеличит количество релевантных запросу документов. В идеале все проиндексированные документы должны быть доступны через каталог. Этим мы будем выгодно отличаться от существующих поисковых систем и веб-каталогов: веб-каталоги слишком ограничены, а поисковые системы не позволяют качественно осуществлять поиск документов по заданной теме.

Цель второго этапа — получение работающего прототипа поисковой системы, на котором можно оттачивать механизмы поиска и ранжирования результатов. Для простоты изменения на этом этапе поисковая система будет нераспределённой.

После успешного завершения второго этапа и получения жизнеспособной версии поисковой системы, можно переходить к третьему этапу — распределению. Оно нужно для «наращивания мощностей» — увеличения объёмов индексируемого веба и увеличения скорости реакции на запросы.

Список использованной литературы

Sergey Brin, Lawrence Page. The anatomy of a large-scale hypertextual web search engine.
Некрестьянов И.С. Тематико-ориентированные методы информационного поиска. 2000.
Ricardo Baeza-Yates, Carlos Castillo. Analysis of link based ranking for the web.
Junghoo Cho, Robert E. Adams. Page quality: in search of an unbiased Web ranking.
Yuan Wang David J. DeWitt. Computing PageRank in a distributed internet search system.
Amy N. Langville, Carl D. Meyer. Updating PageRank with Iterative Aggregation.
Jingyu Hou, Yanchun Zhang. Utilizing hyperlink transitivity to improve web page clustering.