DonNTU >> Masters portal 

Безуглый Евгений Bezuglyi Ievgen

Wydział: Informatyki i technologii obliczanej

Specjalność: Programowanie systemów komputerowych

Temat pracy:
Zwiększenie wydajności systemów wyszukiwawczych
   Biografia            

Referat
Promouter : Anoprijenko Aleksander

1. Wstęp
W ostatnim dwudziestoleciu zaczęto poszukiwać rozwiązań, które pozwoliłyby człowiekowi sprawnie wykorzystywać ogromną bazę informacji, jaką jest Internet. Wskutek gwałtownego rozwoju sieci Internet oraz techniki multimedialnej, użytkownicy zostali dosłownie zalani wszechobecną informacją i możliwościami jej przetwarzania. Użytkownicy zostali postawieni przed koniecznością wyboru najistotniejszych elementów z dostępnej informacji, a także z jej przetwarzaniem i oddzieleniem informacji potrzebnej od zbędnej.

Z czasem pojawiły się rozwiązania wspomagające człowieka w przeszukiwaniu Internetu – wyszukiwarki i meta-wyszukiwarki internetowe, ale okazało się, że wprowadzenie nowych rozwiązań stwarza także nowe problemy. Wielu ludzi korzysta z tych systemów nie znając mechanizmów przez nie wykorzystywanych, nie są więc w stanie ocenić poprawności otrzymywanych wyników. W jednym z kolejnych rozdziałów zademonstruję technikę „Google Bombs”, pozwalającą na oszukanie najczęściej odwiedzanych wyszukiwarek poprzez spreparowanie stosunkowo niewielkiej ilości informacji zawartej na witrynach internetowych.

Całkowity proces wyszukiwanie składa się z następujących faz[5]: 
  • Indeksowanie dannych
  • Analiza zapytania
  • Działanie modelu na zbiorze dannych
  • Ranking rezultatów

Najważniejszą operacją jest indeksowanie dokumentów i kwerend. Polega ono na określeniu tematu lub przedmiotu i wyrażeniu go w charakterystyce wyszukiwawczej dokumentu w określonym języku informacyjno'wyszukiwawczym (stosowanym w danym systemie wyszukiwania).

Problem polega na tym, iż źle sformułowane pytanie spowoduje wyszukanie dokumentów odpowiadających kwerendzie a nie prawdziwym potrzebom informacyjnym. Jak się jednak okaże w dalszej części prezentacji powstają i takie nawet systemy.

Problem przy ocenie wyszukiwarek internetowych polega na tym, ze z uwagi na powiązania (linki) między dokumentami nawet dokumenty, formalnie nie odpowiadające kwerendzie (nie relewantne), mogą okazać się częściowo relewantnymi, jeżeli zawierają linki do stron relewantnych.

2. Klasyczne modele
2.1 Model Boolowski
Boolowski model jest jedną z najprostszych metod wyszukiwania informacji w zbiorze dokumentów tekstowych. Zapytanie do systemu realizującego ten model ma postać kwerendy logicznej (boolean query). Kwerenda logiczna zbudowana jest z termów połączonych spójnikami logicznymi AND, OR, NOT.

Termy odpowiadają wyrazom. Term uznajemy za prawdziwy, jeżeli wyraz występuje w dokumencie. Proces wyszukiwania informacji w modelu boolowskim polega na wybieraniu z kolekcji dokumentów tych, dla których kwerenda jest prawdziwa. W przypadku języka fleksyjnego, na przykład polskiego, niezbędna jest rozbudowa modelu boolowskiego. Musi ona uwzględniać fakt, że w języku polskim jeden wyraz jest reprezentowany w tekście przez wiele form fleksyjnych. Niezbędnym staje się użycie narzędzia jakim jest słownik fleksyjny. Słownik ten pozwala rozszerzyć kwerendę tak, aby uwzględniała formy fleksyjne wyrazu.

2.2 .Model wektorowy
Aby móc przedstawić tekst w postaci wektora musimy określić pewien słownik czy listę termów indeksujących. Term może tu oznaczać dowolne elementy tekstu, n.p. formy tekstowe czy wyrazowe. Zakłada się, że poszczególne termy są nieskorelowane i że tworzą bazę pewnej przestrzeni wektorowej. W modelu wektorowym dokumenty ze zbioru w którym szukamy są traktowane jako liniowe kombinacje termów.

Jeżeli rozważymy współczynniki tej kombinacji to otrzymamy wektor, który reprezentuje dokument w wybranej przestrzeni. Współrzędne tego wektora odpowiadają wadze jaką nadaje się poszczególnym termom w dokumencie. Są one zazwyczaj proporcjonalne do liczby wystąpień termu w tekście dokumentu. Jeżeli wartość dla któregoś termu jest równa zero, oznacza to że term nie występuje w dokumencie lub jest dla niego bez znaczenia. Istnieje wiele sposobów obliczania współrzędnych wektora odpowiadającego konkretnemu dokumentowi. Wszystkie podstawowe metody bazują na wykorzystaniu trzech współczynników jakimi można opisać dokument oraz jego związek z innymi dokumentami:
  •  częstotliwość termu (ang. term frequency, tf) – ilość wystąpień termu w dokumencie,
  •  częstotliwość w dokumentach (ang. document frequency, df)
  •  ilość dokumentów w kolekcji zawierających dany term, 
  • częstotliwość w kolekcji (ang. collection frequency, cf) 
  • ilość wszystkich wystąpień termu w kolekcji dokumentów.

Częstotliwość termu odnosi się do określonego termu i dokumentu, natomiast pozostałe dwa parametry określa się dla poszczególnych termów. Należy zauważyć, że parametry df i cf mogą być obliczone tylko jeśli w ogóle istnieje kolekcja dokumentów. Tutaj zakładamy, że zbiór dokumentów jest określony, jednak nie zawsze taka sytuacja ma miejsce.

Nstępnie po obliczaniu wartości wektorów dokonujemy porównania wektorów np. za pomocą miary kosinusowej.


3. Probabilistyczny model
Uwzględniają stopień relewancji dokumentu i pytania w procesie generowania. Jest zbudowany w oparciu o danych statystycznych. Dokonują się tu obliczenia miary prawdopodobieństwa zapytania do dokumentu.

6. Wady klasycznych podejść
Boolowski model 

  • koniczność używania operacji AND i OR.
  • Skomplikowane długie zapytania.
  • Trudno oceniać bardziej/mniej relewante dokumenty. 
  • Niemozliwość wprowadzenia rankingu 
  • Trudno skorelować zdanie użytkownika z modelem.

Wektorowy Model

  • Brak możliwości wprowadzania analizy morfologicznej i td 
  • Brak dostępu do infrormacji syntaksycznej  
  • Trudno skorelować zdanie użytkownika z modelem.

Bibliografia

  1. Модели информационного поиска, исследование булевской модели.

    Авторы: Безуглый Е.Н. Аноприенко А.Я

    Описание: Тезисы доклада на V международной научно-технической конференции молодых учёных и студентов "Информатика и компьютерные технологии 2009", Донецк, ДонНТУ, 12 мая 2009 г. [читать].  
  2.  Introduction to Information Retrieval
    Авторы: Manning C. D., Schutze H.
    Описание: Азбука всех поисковых систем, содержит исчерпываюшие структуры данных и алгоритмы от самых азов. (2008). (
    HTML/PDF);
  3. Theory of Rank Tests Edition 2, Academic Press, 1999.- 425c
    Авторы: Jaroslav Hájek, Zbynek Sidak, Pranab Kumar Sen
    Описание:  Книга содержит многочисленные алгоритмы ранжирования (HTML)
  4. Латентно-семантический анализ  
    Автор: Игорь Некрестьянов 
    Описание: Введение в латентно-семантический анализ
    (HTML) 
  5. Введение в поисковые системы  
    Автор: Ю. Лившиц 
    Описание: Архитектура поисковых систем, алгоритмы и оптимизация
    [читать] / PDF
  6. Векторная модель поиска  
    Автор:  не известен
    Описание: Введение в векторную модель поиска
    (HTML) 
  7. Применение вероятностных моделей для анализа содержания информационных документов
    Автор:  Е.А. Воронин, О.Н. Бородин
    Описание: Описание вероятностной модели алгоритма лингвистической обработки текста информационного документ
    (HTML) 
  8. Автоматическое понимание текстов: системы, модели, ресурсы / Н.Н. Леонтьева. – Москва Академия, 2006.  
    Автор:  Леонтьева Н.Н.
    Описание: Описание алгоритмов, структур и методов копьютерной лингвистики  
    (HTML) 
  9. Modern Information Retrieval: A Brief Overview,Google, Inc.
    Авторы: Amit Singhal
    Описание:  Обзорная статья о информационном поиске. Содержит статистические данные поисковой системы Google (
    PDF)
  10. Information Retrieval: Algorithms and Heuristics (2nd Edition). – Springer, 2004. – 332 p.
    Авторы: Grossman D. A., Frieder O.
    Описание: Книга, содержит большое количество алгоритмов, в том числе еврестических, посвященных информационному поиску (
    HTML/PDF)