DonNTU >> Masters portal 

Безуглый Евгений Магістр ДонНТУ Безуглий Євген Миколайович

Факультет обчислювальної техніки та інформатики

Спеціальність: Системне програмування

Тема випускної роботи:
Підвищення еффективності пошукових систем
   Біографія               

Реферат
Науковий керівник : Анопрієнко Александр Якович

1. Вступ

Інформаційний пошук (ІП)  — наука про пошук неструктурованої документальної інформації. Особливо це відноситься до пошуку інформації в документах, пошук самих документів, добуття метаданих з документів, пошуку тексту, зображень, відео та звуку у локальних реляційних базах даних, у гіпертекстових базах даних таких, як Інтернет та локальні інтранет.

Інформаційний пошук — велика міждисциплінарна область науки, яка стоїть на перетині когнітивної психології, інформатики, інформаційного дизайну, лінгвістики, семіотики, бібліотечної справи, та статистики. Автоматичні системи інформаційного пошуку використовують для зменшення так званого "інформаційного перевантаження". Багато університетів та публічних бібліотек використовують системи ІП для полегшення доступу до книжок, журналів та інших документів. Найвідомішим прикладом систем ІП можна назвати пошукові системи в Інтернеті.

Об’єктом інформаційного пошуку є текстова інформація, зображення, аудіо, відео інформація.

Цілий процес пошуку скадається з наступних етапів[5]: 
  • Индескація данних
  • Анализ запитання
  • Робота моделі 
  • Ранкування результатів

2. Класичні моделі
2.1 Булевий пошук
Звичайний Булевий пошук не має нічого спільного з ступінню відповідності документу до пошукового запиту, і, відповідно, з уопрядкуванням документів згідно цієї відповідності. Документи або задовільняють інформаційний запит, або ні.

Ті документи, що задовільняють булевий запит попадають у список по черзі. Ідея розширеного Булевого пошуку полягає у створенні можливостей для визначення ступеня відповідності документів пошуковому запитові. Це досягається з допомогою присвоєння ваги пошуковим термінам. Вага термінів враховується при побудові списку відповідності документів до інформаційного запиту.

2.2. Інформаційний пошук за допомогою векторно-просторового представлення
Пошуковий запит та документи представляються у вигляді просторових векторів Пошукова система відбирає документи, просторові вектори яких подібні до просторового вектора пошукового запиту. В основі векторно-просторового представлення документу лежить припущення, що зміст документу передається словами, що в ньому знаходяться.

Просторово-векторне представлення будується для пошукового запиту і для кожного документу.

Просторово-векторне представлення документу – це вектор у n-мірному просторі. N-мірний простір це простір, кожний вимір якого відповідає пошуковому терміну. Координати кінця вектора чисельно визначаються тим, скільки разів пошуковий термін зустрічається в документі. Тобто кожний компонент вектора відповідає числу появи відповідного терміну в документі.

Пошукова система обчислює коефіцієнт відповідності (КВ) просторово векторного представлення документу до просторово-векторного представлення пошукового запиту. Фактично пошукова система обчислює кут між цими векторами. Найбільш відповідними є документи, просторово-векторне представлення яких спрямоване туди ж куди і в представлення пошукового запиту.

3. Імовірнісний пошук
Коефіцієнт відповідності документу пошуковому запитові визначається на основі імовірності того, що документ є відповідним пошуковому запитові. Присутність чи відсутність пошукового терміну в документі використовується для визначення імовірності того, що документ відповідає інформаційному запитові. Визначення імовірності базується на попередніх статистичних даних, про те, наскільки імовірно, що документ який містить пошуковий термін A, відповідатиме пошуковому запитові, що містить термін A.

Припускаючи, що пошукові терміни в пошуковому запиті є незалежні, можна обчислювати таку імовірність для кожного пошукового терміну з пошукового запиту. Загальна імовірність відповідності документу обчислюється як добуток ймовірностей відповідності для кожного терміну. Незалежність пошукових термінів в пошуковому запиті рідко спостерігається в дійсності, тому обчислення сумарної відповідності значно ускладнюється, що збільшує час інформаційного пошуку.

Крім того, необхідно мати попередні дані про входження термінів у відповідні до запиту документи а також і у невідповідні до запиту документи.

4. Пошук з використанням мовних моделей
Мовні моделі використовуються для передбачення появи того чи іншого слова у тексті. В інформаційному пошуку використовуються статистичні мовні моделі для передбачення чи з’явиться потрібне слово (пошуковий термін) в документі.

Для кожного документу зі збірки обчислюється імовірність появи в документі пошукових термінів. Згідно цього документи впорядковуються у пошуковому списку. Ще один підхід пропонує побудову імовірнісної моделі пошуковго запиту. Тобто будується імовірнісна модель появи тих чи інших пошукових термінів у запиті.

Далі будується імовірнісна модель запиту як сукупності незалежних подій, де кожна подія – це поява того чи іншого терміну у пошуковому запиті. В цій моделі ми можемо врахувати навіть імовірності непояви певних термінів.
5. Пошук з прихованим семантичним індексуванням
Поява термінів в документі представляється за допомогою матриці термін-документ. Матриця приводиться за допомогою розкладу за виродженими матрицями для того, щоб відділити «шум», так, що два семантично спільні документи знаходяться поруч в багатомірному просторі.

Бібліографія

  1. Модели информационного поиска, исследование булевской модели.

    Авторы: Безуглый Е.Н. Аноприенко А.Я

    Описание: Тезисы доклада на V международной научно-технической конференции молодых учёных и студентов "Информатика и компьютерные технологии 2009", Донецк, ДонНТУ, 12 мая 2009 г. [читать].  
  2.  Introduction to Information Retrieval
    Авторы: Manning C. D., Schutze H.
    Описание: Азбука всех поисковых систем, содержит исчерпываюшие структуры данных и алгоритмы от самых азов. (2008). (
    HTML/PDF);
  3. Theory of Rank Tests Edition 2, Academic Press, 1999.- 425c
    Авторы: Jaroslav Hájek, Zbynek Sidak, Pranab Kumar Sen
    Описание:  Книга содержит многочисленные алгоритмы ранжирования (HTML)
  4. Латентно-семантический анализ  
    Автор: Игорь Некрестьянов 
    Описание: Введение в латентно-семантический анализ
    (HTML) 
  5. Введение в поисковые системы  
    Автор: Ю. Лившиц 
    Описание: Архитектура поисковых систем, алгоритмы и оптимизация
    [читать] / PDF
  6. Векторная модель поиска  
    Автор:  не известен
    Описание: Введение в векторную модель поиска
    (HTML) 
  7. Применение вероятностных моделей для анализа содержания информационных документов
    Автор:  Е.А. Воронин, О.Н. Бородин
    Описание: Описание вероятностной модели алгоритма лингвистической обработки текста информационного документ
    (HTML) 
  8. Автоматическое понимание текстов: системы, модели, ресурсы / Н.Н. Леонтьева. – Москва Академия, 2006.  
    Автор:  Леонтьева Н.Н.
    Описание: Описание алгоритмов, структур и методов копьютерной лингвистики  
    (HTML) 
  9. Modern Information Retrieval: A Brief Overview,Google, Inc.
    Авторы: Amit Singhal
    Описание:  Обзорная статья о информационном поиске. Содержит статистические данные поисковой системы Google (
    PDF)
  10. Information Retrieval: Algorithms and Heuristics (2nd Edition). – Springer, 2004. – 332 p.
    Авторы: Grossman D. A., Frieder O.
    Описание: Книга, содержит большое количество алгоритмов, в том числе еврестических, посвященных информационному поиску (
    HTML/PDF)