Реферат Безуглий Євген Миколайович Підвищення еффективності пошукових систем

Реферат
Науковий керівник : Анопрієнко Александр Якович

1. Вступ

Інформаційний пошук (ІП) — наука про пошук неструктурованої документальної інформації. Особливо це відноситься до пошуку інформації в документах, пошук самих документів, добуття метаданих з документів, пошуку тексту, зображень, відео та звуку у локальних реляційних базах даних, у гіпертекстових базах даних таких, як Інтернет та локальні інтранет.

Інформаційний пошук — велика міждисциплінарна область науки, яка стоїть на перетині когнітивної психології, інформатики, інформаційного дизайну, лінгвістики, семіотики, бібліотечної справи, та статистики. Автоматичні системи інформаційного пошуку використовують для зменшення так званого "інформаційного перевантаження". Багато університетів та публічних бібліотек використовують системи ІП для полегшення доступу до книжок, журналів та інших документів. Найвідомішим прикладом систем ІП можна назвати пошукові системи в Інтернеті.

Об’єктом інформаційного пошуку є текстова інформація, зображення, аудіо, відео інформація.

Цілий процес пошуку скадається з наступних етапів[5]:

Индескація данних
Анализ запитання
Робота моделі
Ранкування результатів

2. Класичні моделі
2.1 Булевий пошук

Звичайний Булевий пошук не має нічого спільного з ступінню відповідності документу до пошукового запиту, і, відповідно, з уопрядкуванням документів згідно цієї відповідності. Документи або задовільняють інформаційний запит, або ні.

Ті документи, що задовільняють булевий запит попадають у список по черзі. Ідея розширеного Булевого пошуку полягає у створенні можливостей для визначення ступеня відповідності документів пошуковому запитові. Це досягається з допомогою присвоєння ваги пошуковим термінам. Вага термінів враховується при побудові списку відповідності документів до інформаційного запиту.

2.2. Інформаційний пошук за допомогою векторно-просторового представлення

Пошуковий запит та документи представляються у вигляді просторових векторів Пошукова система відбирає документи, просторові вектори яких подібні до просторового вектора пошукового запиту. В основі векторно-просторового представлення документу лежить припущення, що зміст документу передається словами, що в ньому знаходяться.

Просторово-векторне представлення будується для пошукового запиту і для кожного документу.

Просторово-векторне представлення документу – це вектор у n-мірному просторі. N-мірний простір це простір, кожний вимір якого відповідає пошуковому терміну. Координати кінця вектора чисельно визначаються тим, скільки разів пошуковий термін зустрічається в документі. Тобто кожний компонент вектора відповідає числу появи відповідного терміну в документі.

Пошукова система обчислює коефіцієнт відповідності (КВ) просторово векторного представлення документу до просторово-векторного представлення пошукового запиту. Фактично пошукова система обчислює кут між цими векторами. Найбільш відповідними є документи, просторово-векторне представлення яких спрямоване туди ж куди і в представлення пошукового запиту.

3. Імовірнісний пошук

Коефіцієнт відповідності документу пошуковому запитові визначається на основі імовірності того, що документ є відповідним пошуковому запитові. Присутність чи відсутність пошукового терміну в документі використовується для визначення імовірності того, що документ відповідає інформаційному запитові. Визначення імовірності базується на попередніх статистичних даних, про те, наскільки імовірно, що документ який містить пошуковий термін A, відповідатиме пошуковому запитові, що містить термін A.

Припускаючи, що пошукові терміни в пошуковому запиті є незалежні, можна обчислювати таку імовірність для кожного пошукового терміну з пошукового запиту. Загальна імовірність відповідності документу обчислюється як добуток ймовірностей відповідності для кожного терміну. Незалежність пошукових термінів в пошуковому запиті рідко спостерігається в дійсності, тому обчислення сумарної відповідності значно ускладнюється, що збільшує час інформаційного пошуку.

Крім того, необхідно мати попередні дані про входження термінів у відповідні до запиту документи а також і у невідповідні до запиту документи.

4. Пошук з використанням мовних моделей

Мовні моделі використовуються для передбачення появи того чи іншого слова у тексті. В інформаційному пошуку використовуються статистичні мовні моделі для передбачення чи з’явиться потрібне слово (пошуковий термін) в документі.

Для кожного документу зі збірки обчислюється імовірність появи в документі пошукових термінів. Згідно цього документи впорядковуються у пошуковому списку. Ще один підхід пропонує побудову імовірнісної моделі пошуковго запиту. Тобто будується імовірнісна модель появи тих чи інших пошукових термінів у запиті.

Далі будується імовірнісна модель запиту як сукупності незалежних подій, де кожна подія – це поява того чи іншого терміну у пошуковому запиті. В цій моделі ми можемо врахувати навіть імовірності непояви певних термінів.

5. Пошук з прихованим семантичним індексуванням

Поява термінів в документі представляється за допомогою матриці термін-документ. Матриця приводиться за допомогою розкладу за виродженими матрицями для того, щоб відділити «шум», так, що два семантично спільні документи знаходяться поруч в багатомірному просторі.