|
DonNTU >>
Masters
portal
|
Bezuglyi Ievgen
Wydział: Informatyki i technologii obliczanej
Specjalność: Programowanie systemów komputerowych
Temat pracy:
Zwiększenie wydajności systemów wyszukiwawczych |
Biografia
|
Referat
Promouter
: Anoprijenko Aleksander
1. Wstęp |
W ostatnim dwudziestoleciu zaczęto poszukiwać rozwiązań, które pozwoliłyby człowiekowi
sprawnie wykorzystywać ogromną bazę informacji, jaką jest Internet. Wskutek gwałtownego
rozwoju sieci Internet oraz techniki multimedialnej, użytkownicy zostali dosłownie
zalani wszechobecną informacją i możliwościami jej przetwarzania. Użytkownicy zostali
postawieni przed koniecznością wyboru najistotniejszych elementów z dostępnej informacji,
a także z jej przetwarzaniem i oddzieleniem informacji potrzebnej od zbędnej.
Z czasem pojawiły się rozwiązania wspomagające człowieka w przeszukiwaniu Internetu
– wyszukiwarki i meta-wyszukiwarki internetowe, ale okazało się, że wprowadzenie
nowych rozwiązań stwarza także nowe problemy. Wielu ludzi korzysta z tych systemów
nie znając mechanizmów przez nie wykorzystywanych, nie są więc w stanie ocenić poprawności
otrzymywanych wyników. W jednym z kolejnych rozdziałów zademonstruję technikę „Google
Bombs”, pozwalającą na oszukanie najczęściej odwiedzanych wyszukiwarek poprzez spreparowanie
stosunkowo niewielkiej ilości informacji zawartej na witrynach internetowych.
Całkowity proces wyszukiwanie składa się z następujących faz[5]:
- Indeksowanie dannych
- Analiza zapytania
- Działanie modelu na zbiorze dannych
- Ranking rezultatów
Najważniejszą operacją jest indeksowanie dokumentów i kwerend. Polega ono na określeniu
tematu lub przedmiotu i wyrażeniu go w charakterystyce wyszukiwawczej dokumentu
w określonym języku informacyjno'wyszukiwawczym (stosowanym w danym systemie wyszukiwania).
Problem polega na tym, iż źle sformułowane pytanie spowoduje wyszukanie dokumentów
odpowiadających kwerendzie a nie prawdziwym potrzebom informacyjnym. Jak się jednak
okaże w dalszej części prezentacji powstają i takie nawet systemy.
Problem przy ocenie wyszukiwarek internetowych polega na tym, ze z uwagi na powiązania
(linki) między dokumentami nawet dokumenty, formalnie nie odpowiadające kwerendzie
(nie relewantne), mogą okazać się częściowo relewantnymi, jeżeli zawierają linki
do stron relewantnych.
|
2. Klasyczne modele
2.1 Model Boolowski |
Boolowski model jest jedną z najprostszych metod wyszukiwania informacji w zbiorze
dokumentów tekstowych. Zapytanie do systemu realizującego ten model ma postać kwerendy
logicznej (boolean query). Kwerenda logiczna zbudowana jest z termów połączonych
spójnikami logicznymi AND, OR, NOT.
Termy odpowiadają wyrazom. Term uznajemy za prawdziwy, jeżeli wyraz występuje w
dokumencie. Proces wyszukiwania informacji w modelu boolowskim polega na wybieraniu
z kolekcji dokumentów tych, dla których kwerenda jest prawdziwa. W przypadku języka
fleksyjnego, na przykład polskiego, niezbędna jest rozbudowa modelu boolowskiego.
Musi ona uwzględniać fakt, że w języku polskim jeden wyraz jest reprezentowany w
tekście przez wiele form fleksyjnych. Niezbędnym staje się użycie narzędzia jakim
jest słownik fleksyjny. Słownik ten pozwala rozszerzyć kwerendę tak, aby uwzględniała
formy fleksyjne wyrazu. |
2.2 .Model wektorowy |
Aby móc przedstawić tekst w postaci wektora musimy określić pewien słownik czy listę
termów indeksujących. Term może tu oznaczać dowolne elementy tekstu, n.p. formy
tekstowe czy wyrazowe. Zakłada się, że poszczególne termy są nieskorelowane i że
tworzą bazę pewnej przestrzeni wektorowej. W modelu wektorowym dokumenty ze zbioru
w którym szukamy są traktowane jako liniowe kombinacje termów.
Jeżeli rozważymy współczynniki tej kombinacji to otrzymamy wektor, który reprezentuje
dokument w wybranej przestrzeni. Współrzędne tego wektora odpowiadają wadze jaką
nadaje się poszczególnym termom w dokumencie. Są one zazwyczaj proporcjonalne do
liczby wystąpień termu w tekście dokumentu. Jeżeli wartość dla któregoś termu jest
równa zero, oznacza to że term nie występuje w dokumencie lub jest dla niego bez
znaczenia. Istnieje wiele sposobów obliczania współrzędnych wektora odpowiadającego
konkretnemu dokumentowi. Wszystkie podstawowe metody bazują na wykorzystaniu trzech
współczynników jakimi można opisać dokument oraz jego związek z innymi dokumentami:
- częstotliwość termu (ang. term frequency, tf) – ilość wystąpień termu w dokumencie,
- częstotliwość w dokumentach (ang. document frequency, df)
- ilość dokumentów w kolekcji zawierających dany term,
- częstotliwość w kolekcji (ang. collection frequency, cf)
- ilość wszystkich wystąpień termu w kolekcji dokumentów.
Częstotliwość termu odnosi się do określonego termu i dokumentu, natomiast pozostałe
dwa parametry określa się dla poszczególnych termów. Należy zauważyć, że parametry
df i cf mogą być obliczone tylko jeśli w ogóle istnieje kolekcja dokumentów. Tutaj
zakładamy, że zbiór dokumentów jest określony, jednak nie zawsze taka sytuacja ma
miejsce.
Nstępnie po obliczaniu wartości wektorów dokonujemy porównania wektorów np. za pomocą
miary kosinusowej.
|
3. Probabilistyczny model |
Uwzględniają stopień relewancji dokumentu i pytania w procesie generowania. Jest
zbudowany w oparciu o danych statystycznych. Dokonują się tu obliczenia miary prawdopodobieństwa
zapytania do dokumentu.
|
6. Wady klasycznych podejść |
Boolowski model
- koniczność używania operacji AND i OR.
- Skomplikowane długie zapytania.
- Trudno oceniać bardziej/mniej relewante dokumenty.
- Niemozliwość wprowadzenia rankingu
- Trudno skorelować zdanie użytkownika z modelem.
Wektorowy Model
- Brak możliwości wprowadzania analizy morfologicznej i td
- Brak dostępu do infrormacji syntaksycznej
- Trudno skorelować zdanie użytkownika z modelem.
|
Bibliografia |
- Модели информационного поиска, исследование
булевской модели.
Авторы: Безуглый Е.Н. Аноприенко А.Я
Описание: Тезисы доклада на V международной
научно-технической конференции молодых учёных и студентов "Информатика и компьютерные
технологии 2009", Донецк, ДонНТУ, 12 мая 2009 г. [читать].
- Introduction
to Information Retrieval
Авторы: Manning C. D.,
Schutze H.
Описание: Азбука всех поисковых систем, содержит исчерпываюшие
структуры данных и алгоритмы от самых азов. (2008). (HTML/PDF);
-
Theory of Rank Tests Edition 2, Academic Press, 1999.- 425c
Авторы: Jaroslav
Hájek, Zbynek Sidak, Pranab Kumar Sen
Описание: Книга содержит многочисленные алгоритмы ранжирования
(HTML)
- Латентно-семантический анализ
Автор: Игорь Некрестьянов
Описание: Введение в латентно-семантический анализ
(HTML)
- Введение в поисковые
системы
Автор: Ю. Лившиц
Описание: Архитектура поисковых систем, алгоритмы и оптимизация
[читать]
/ PDF
- Векторная модель поиска
Автор: не известен
Описание: Введение в векторную модель поиска
(HTML)
- Применение вероятностных
моделей для анализа содержания информационных документов
Автор: Е.А. Воронин, О.Н.
Бородин
Описание: Описание вероятностной модели алгоритма лингвистической обработки текста информационного документ
(HTML)
-
Автоматическое понимание текстов: системы, модели, ресурсы / Н.Н. Леонтьева. – Москва Академия, 2006.
Автор: Леонтьева Н.Н.
Описание: Описание алгоритмов, структур и методов копьютерной лингвистики
(HTML)
-
Modern Information Retrieval: A Brief Overview,Google, Inc.
Авторы: Amit Singhal
Описание: Обзорная статья о информационном поиске. Содержит
статистические данные поисковой системы Google (PDF)
-
Information Retrieval: Algorithms and Heuristics
(2nd Edition). – Springer, 2004. – 332 p.
Авторы: Grossman
D. A., Frieder O.
Описание: Книга, содержит большое количество алгоритмов, в том
числе еврестических, посвященных информационному поиску (HTML/PDF)
|
|