RU   ENG
ДонНТУ   Портал магістрів

При написанні даного реферату магістерська робота ще не завершена. Остаточне завершення: червень 2018 року. Повний текст роботи і матеріали по темі можуть бути отримані у автора або його керівника після зазначеної дати.

Реферат за темою випускної роботи Проектування і реалізація інтелектуальної мета-пошукової системи знаходження цитат

Зміст

1. Актуальність теми

На сьогоднішній день головною проблемою для багатьох людей щодня є проблема пошуку інформації в Інтернеті. Останні роки простежується явна тенденція до появи вузькоспеціалізованих сервісів пошуку: наприклад, yandex-блоги, yandex-картинки, yandex-новини, google-maps, google-video тощо. Поділ задачі пошуку інформації на підзадачі дозволяє впроваджувати нові методи пошуку і значно підвищувати його ефективність. Але, незважаючи на це, на сьогоднішній день існує вкрай мало рішень, що забезпечують пошук в Інтернеті саме текстів.

Якщо текст не такий поширений, і/або в відомих користувачеві мережевих бібліотеках його знайти не вдалося, то він змушений скористатися послугами пошукових систем. Користувач вводить мета-текст в інтерфейс пошукової системи (далі ІПС), і отримує у відповідь кілька сотень або тисяч посилань, частина з яких веде на сайти магазинів, в яких можна купити відповідну книгу, частина цих посилань введе в бібліографію і/або згадка, частина цих посилань просто інформаційний шум, і, нарешті, частина посилань може ввести до самого тексту. Навіть з таким досить приблизними розбивкою результатів, очевидно, що завдання обробки отриманого результату покладається на користувача. Спеціалізовані ж ІПС відсікають значну частину свідомо нерелевантних результатів, тому створення спеціалізованих ІПС під конкретну задачу є більш ефективним рішенням [1].

2. Цілі і завдання дослідження, планований результат

Мета роботи - проектування та реалізація інтелектуальної мета-пошукової системи знаходження цитат.

Завдання дослідження:

3. Огляд досліджень та розробок

Досліджувана тема популярна не тільки в міжнародних, але і в національних наукових спільнотах.

3.1 Огляд міжнародних джерел

У книзі Крістофера Д. Маннинг, Прабхакара Рагхаван, Гайнріха Шютце Введення в інформаційний пошук [2] разом з класичним пошуком розглядаються веб-пошук, а також класифікація та кластеризація текстів. Підручник містить сучасне виклад всіх аспектів проектування та реалізації систем збору, індексування та пошуку документів, методів оцінки таких систем, а також введення в методи машинного навчання на базі колекцій текстів.

Книга Хараламбос Марманіса, Бабенко Дмитра Алгоритми інтелектуального інтернету [3] про те, як побудувати алгоритми, що формують інтелектуальне ядро таких веб-додатків (алгоритми пошуку, вироблення рекомендацій, створення груп, класифікації та ансамблі класифікаторів). Всі розглянуті в книзі алгоритми можна віднести до області Data Mining, тобто до вилучення якихось нових відомостей з уже наявних даних (іноді досить великих). Основні теми книги – це пошук, вироблення рекомендацій, кластеризація і класифікація.

3.2 Обзор национальных источников

У статті Г.С. Осипова, І.А. Тихомирова, І.В. Смирнова Інтелектуальний пошук в глобальних і локальних обчислювальних мережах, і базах даних [4] розповідаються методи та інструментальні засоби семантично релевантного мета-пошуку. Розглядаються завдання застосування описуваних методів для пошуку в глобальних і локальних обчислювальних мережах, і базах даних.

У статті вищевказаних авторів реляційна-ситуаційний метод пошуку і аналізу текстів і його застосування [5] коротко описаний реляційно-ситуаційний метод аналізу текстів природної мови, побудований на основі теорії комунікативної граматики російської мови і теорії неоднорідних семантичних мереж. Показано, як реляційно-ситуаційний метод може бути використаний для точного пошуку документів в локальних і глобальних мережах і створення електронних бібліотек.

У книзі Дмитра Ланде, Андрія Снарського, Ігоря Безсуднова інтернетики. Навігація в складних мережах. Моделі і алгоритми [6] розглядаються питання, що відносяться до інформаційної структурі веб-простору, теорії складних мереж, моделям інформаційного пошуку та глибинного аналізу текстів, загальним закономірностям сучасних інформаційних потоків і їх моделювання.

У навчальному посібнику попередніх авторів Моделювання складних мереж [7] розглядаються базові питання теорії складних мереж: характеристики, алгоритми, моделі, завдання пошуку, ранжирування, а також наводяться відомості, необхідні для математичного та комп'ютерного моделювання та аналізу складних мереж.

Книга Додонова О.Г., Ланде Д.В., Путятіна В.Г. Комп'ютерні мережі та аналітичні дослідження [8] присвячена теоретичним і технологічним основам систем підтримки аналітичних досліджень в глобальній мережевому середовищі, методів і засобів моніторингу, агрегування та узагальнення інформаційних потоків великого обсягу в комп'ютерних мережах. Розглядаються моделі і технології інформаційного пошуку, змістовного аналізу текстів та інформаційних мереж, – базові поняття в області побудови сучасних аналітичних систем.

3.3 Огляд локальних джерел

В індивідуальному розділі Каламітри М.В., присвяченому в якості курсової роботи розробити додаток для мета-пошуку в Інтернет Палаци Криму [9].

4. Властивості мета-пошукових систем і підходи їх реалізації

4.1. Архітектура мета-пошукової системи

Мета-пошукова система будується на принципах клієнт-агент-серверної архітектури з ультратонким обслуговуванням клієнтом, де клієнтом є стандартний Web-браузер, агентом - мета-пошукова система, а сервером - Web-сервера так званої "Віртуальної бібліотеки", до чиїх пошуковим механізмам звертається агент. Віртуальна бібліотека об'єднує в собі електронні каталоги, систему інтелектуального пошуку і клієнтські місця [10].

При проектуванні мета-пошукової системи потрібно вирішити ряд проблем.

Перш за все, з отриманого від пошукових систем безлічі документів необхідно виділити найбільш релевантні, тобто відповідні запиту користувача.

Крім цього, потрібно зменшити використовувані обчислювальні ресурси мета-пошукового сервера, не перевантажуючи його занадто великим обсягом непотрібної інформації і серйозно заощадити трафік. Тут потрібно відзначити, що в будь-якій системі мета-пошуку найбільш вузьким місцем в основному є пропускна здатність каналу передачі даних, так як обробка сторінок з результатами пошуку, отриманими від декількох десятків пошукових серверів не є надто трудомісткою операцією, тому що витрати часу на обробку інформації на порядки менше часу приходу сторінок, запитаних у пошукових серверів [11].

4.2. Визначення завдання мета-пошуку

Мета-пошукова система – це пошуковий інструмент, який посилає запит користувача одночасно на кілька пошукових систем, каталогів [12].

Принцип роботи мета-пошукача полягає в наступному: запит користувача перетворюється в запити, відформатовані синтаксично і логічно в конструкції, оптимальні для кожного окремого, традиційного пошукача, тобто З одного запиту мета-пошуковий механізм робить ряд запитів, які адресуються кільком "звичайним" пошуків [13]. Зібравши результати, мета-пошукова система видаляє дубльовані посилання і, відповідно до свого алгоритму, об'єднує результати в загальному списку.

У рамках однієї мета-пошукової системи можна здійснювати пошук інформації різного типу. Мета-пошукові системи не призначені для індексування та накопичення даних, їх призначення – чистий пошук і обробка результатів пошуку.

Мета-пошукові системи дозволяють поглянути на результати пошуку за ключовими словами, підібрати нові ключові слова за допомогою хмар пов'язаних понять. Можна однозначно рекомендувати мета-пошукові системи для оглядового пошуку. Оглядовий пошук корисний при першому підході до вивчення матеріалів за новою для користувача темі або ж необхідний для включення в поле зору якомога більшого числа інтернет-джерел. Навіть одне ключове слово може в деяких випадках дати корисну, наводить результат [14].

На малюнку 1 зображена загальна схема роботи мета-пошукових систем.

Малюнок 1 – Загальна схема роботи мета-пошукових систем

Малюнок 1 – Загальна схема роботи мета-пошукових систем

Головна перевага – це можливість швидко і зручно зробити запит фактично через одну пошуковий рядок відразу до багатьох провідним пошуковим системам, що економить час, та й аналіз єдиного лістингу результатів набагато простіше, ніж звірення безлічі різних лістингів з безліччю дублювань результатів. Інакше кажучи, працюючи через мета-пошук, ваш кут огляду завжди буде істотно ширше, ніж через кожну пошукову систему в окремо, тобто мета-пошукова система має ті ж переваги перед пошуковою системою, що і пошук в декількох довідниках перед пошуком в одному [15] (мал. 2).

Малюнок 2 – Переваги системи мета-пошуку перед пошуковою системою

Малюнок 2 – Переваги системи мета-пошуку перед пошуковою системою

Недоліки мета-пошуку є продовженням і логічним наслідком його переваг: у мета-пошуку відсутня власна індексна база, відповідно неможливо додавати в його пошук URL своїх сайтів. Другий дуже важливий недолік такого пошуку – скромні синтаксичні можливості для формулювання умов розширеного пошуку [16].

На малюнках 3-4 показаны десятка лідерів мета-пошукових систем і статистика їх відвідуваності відповідно.

Малюнок 3 – Лідери мета-пошукових систем

Малюнок 3 – Лідери мета-пошукових систем

Малюнок 4 – Статистика відвідуванності мета-пошукових систем

Малюнок 4 – Статистика відвідуванності мета-пошукових систем

4.3. Рішення завдання мета-пошуку для знаходження цитат

Пошук цитат – це пошук тексту по заданому фрагменту.

Користувач, який загадав такий запит, найімовірніше, хоче знайти походження цитати - тобто або побачити твір, з якого вона взята (в такому випадку на знайденої сторінці буде представлений досить широкий оригінальний контекст цитати, що і перевіряється аналізатором), або хоча б дізнатися автора і назва цього твору.

Розглянемо цю проблему докладніше, а також введемо деякі обмеження і визначення.

  1. Під пошуком текстів в Інтернеті розуміється ситуація, коли користувачеві відома назва твору і/або його автор (ім'я-прізвище), а в якості результату користувач хоче отримати повний текст цього твору в електронному вигляді.
  2. Текстом будемо вважати закінчений мовне твір, що характеризується наявністю автора і назви. Мета-текстом> будемо вважати будь-яку непорожню комбінацію імені-прізвища автора і назви тексту. Адресою тексту буде вважатися веб-адресу, за якою це текст доступний в Інтернеті. Якщо такої адреси не існує, то будемо вважати адресу цього тексту нульовим.
  3. Для прикладів будемо використовувати літературні твори російською мовою, хоча методи пошуку застосовні до текстів будь-якого жанру і тематики (технічні, публіцистичні та ін.).

Стандартним рішенням проблеми пошуку текстів в Інтернеті є створення систем, які індексують знайдені в Інтернеті тексти. По суті справи, дані системи є базами даних, в яких містяться посилання на тексти в Інтернеті. У таких системах користувач вводить мета-текст в стандартний пошуковий інтерфейс і, якщо даний текст проіндексований, то користувач отримує адресу тексту, за яким даний текст був знайдений в процесі індексування. Дані системи мають, як мінімум, одним серйозним недоліком: при такій побудові текст прив'язується до певного адресою в Інтернеті. Але Інтернет-ресурси має властивість закриватися, переїжджати з одного домену на інший, а розташовані на них документи часто змінюють назву, видаляються, реорганізуються. Отже, проіндексовані адреси в будь-який момент можуть перестати бути актуальними. Другий недолік подібного методу полягає в охопленні представлених адрес. Ручне поповнення баз даних не гарантує потрапляння всіх адрес тексту, автоматичне же індексування за адресою серйозно підвищує рівень інформаційного шуму.

Існує спосіб пошуку текстів в Інтернеті, назвемо його пошуком по цитаті або цитатним пошуком. Основна ідея полягає в тому, що ІПС загального призначення надають можливість в якості запиту вказувати цілу фразу, і результатом такого запиту будуть тільки ті документи, в яких присутня ця фраза цілком зі збереженням порядку слів. Таким чином, якщо користувачеві замість мета-тексту відома цитата з тексту, то подальший процес пошуку тексту скорочується до введення цієї цитати в лапках в Google або Yandex, і пошуковик або видає посилання безпосередньо на текст, або однозначно сигналізує про те, що такого тексту в Інтернеті немає. Очевидним чином, ми стикаємося з двома проблемами: попереднє витяг цитат з текстів і релевантність видаваних посилань. Перша проблема вирішується побудовою бази даних цитат, які будуть видаватися в обмін на мета-текст. Друга ж проблема пов'язана з поняттям цілісності тексту (ми можемо потрапити не в цілий текст, а в частину тексту, наприклад, в разі цитування тексту або ознайомчої сторінки) і мінімальної релевантної цитати (є ймовірність, що цитата може зустрітися в декількох різних текстах). Обидві ці проблеми активно вивчаються і вирішуються авторами. Процес пошуку текстів в Інтернеті можна розбити на два етапи: користувач повинен по мета-тексту отримати цитату, потім по отриманої цитаті відшукується повний текст. Таким чином, для ефективного вирішення проблеми пошуку текстів в Інтернеті необхідно створити спеціалізовану ІПС, ядром якої буде база цитат, попередньо витягнутих з текстів. Ця система повинна працювати в якості посередника між користувачем і ІПС загального призначення.

Мета-пошукова система пошуку цитат включатиме кілька етапів.

  1. Користувач робить запит з цитатою.
  2. Система проводить синтаксичний аналіз запиту.
  3. Результати синтаксичного аналізу потрапляють в блок семантичного аналізу.
  4. На основі результатів синтаксичного і семантичного аналізу, використовуючи словники асоціацій, синонімів, система генерує кілька запитів, які є варіаціями вихідного.
  5. Система посилає отримані запити стандартним пошуковим системам, наприклад, google, yandex.
  6. Система аналізує результат роботи пошукових систем, вибираючи самі відповідні джерела цитат, і виводить їх на екран користувачеві [17].

На малюнку 5 показана структурна схема алгоритму пошуку цитат.

Малюнок 5 – Структурна схема алгоритму пошуку цитат

Малюнок 5 – Структурна схема алгоритму пошуку цитат

Висновки

Аналіз джерел показав, що тема проектування і реалізації мета-пошукових систем актуальна не тільки в міжнародному, а й національному і локальному наукових спільнотах.

Були висунуті основні вимоги до мета-пошуковим системам і описані: принцип роботи мета-пошукових систем, їх переваги та недоліки, а також приведена схема власного алгоритму пошуку цитат з його фрагментарного завданням.

Подальша робота буде спрямована на розробку схем мета-пошукової системи в міру зміни вимог і навантажень на систему, а також на розробку програми, реалізовувати мінімальний функціонал, наведених прикладів існуючих мета-пошукових систем, необхідний для моделювання та дослідження реакції програми на виникає навантаження.

Список джерел

  1. А.С. Гребеньков. Поиск текстов в Интернете на основе базы цитат. X Всероссийская объединенная конференция, с. 258-260 – [Электронный ресурс]. – Режим доступа: http://ict.edu.ru/vconf/files/7877.pdf
  2. Кристофер Д. Маннинг, Прабхакар Рагхаван, Хайнрих Шютце. Введение в информационный поиск – [Электронный ресурс]. Режим доступа: https://www.ozon.ru/context/detail/id/5497130/
  3. Хараламбос Марманис, Дмитрий Бабенко. Алгоритмы интеллектуального Интернета. Передовые методики сбора, анализа и обработки данных – [Электронный ресурс]. Режим доступа: https://www.ozon.ru/context/detail/id/6753996/
  4. Г.С. Осипов, И.А. Тихомиров, И.В. Смирнов. Интеллектуальный поиск в глобальных и локальных вычислительных сетях, и базах данных. Программные системы: теория и приложения. Переславль-Залесский, 2004, 21-34 – [Электронный ресурс]. Режим доступа: http://docplayer.ru/27455876-Intellektualnyy-poisk-v-globalnyh-i-lokalnyh-vychislitelnyh-setyah-i-bazah-dannyh.html
  5. Г.С. Осипов, И.А. Тихомиров, И.В. Смирнов. Искусственный интеллект и принятие решений, Реляционно-ситуационный метод поиска и анализа текстов и его приложения, 2008, №2, 3-10 – [Электронный ресурс]. Режим доступа: http://docplayer.ru/29580361-Relyacionno-situacionnyy-metod-poiska-i-analiza-tekstov-i-ego-prilozheniya.html
  6. Ландэ Д.В., Снарский А.А., Безсуднов И.В. Интернетика. Навигация в сложных сетях. Модели и алгоритмы – [Электронный ресурс]. Режим доступа: http://poiskbook.kiev.ua/art/internetica/
  7. Ландэ Д.В., Снарский А.А. Моделирование сложных сетей – [Электронный ресурс]. Режим доступа: http://freescb.info/sites/freescb.info/files/mss-new.pdf
  8. А.Г. Додонов, Д.В. Ландэ, В.Г. Путятин. Компьютерные сети и аналитические исследования – [Электронный ресурс]. Режим доступа: http://dwl.kiev.ua/art/ksai/an-book.pdf
  9. Каламитра Марина Викторовна. Метапоисковая система Дворцы Крыма – [Электронный ресурс]. Режим доступа: http://masters.donntu.ru/2013/fknt/kalamitra/ind/index.htm
  10. Саркисова И.О. Автоматизация поиска неиндексируемых ресурсов в распределенных компьютерных сетях – [Электронный ресурс]. Режим доступа: http://magazine.stankin.ru/arch/n_10/14/index.html.
  11. Архитектура метапоисковых систем – [Электронный ресурс]. Режим доступа: http://citforum.ru/internet/search/metaping.shtml
  12. Мета-поисковые системы – [Электронный ресурс]. Режим доступа: http://catalysis.ru/link/index.php?ID=12&SECTION_ID=54
  13. Мета-поисковые системы – [Электронный ресурс]. Режим доступа: http://www.vsepoisk.ru/2009/07/blog-post_23.html
  14. Метапоисковые системы: принципы работы, опыты кластеризации поисковых результатов – [Электронный ресурс]. Режим доступа: http://life-prog.ru/2_10898_metapoiskovie-sistemi-printsipi-raboti-opiti-klasterizatsii-poiskovih-rezultatov.html
  15. Метапоисковые системы – [Электронный ресурс]. Режим доступа: https://studopedia.org/11-95698.html
  16. Шпаргалка по метапоисковым системам – [Электронный ресурс]. Режим доступа: http://internetno.net/category/shpargalki/meta-search/
  17. Серёженко О.А., Коломойцева И.А. Применение мета-поиска к решению задач поиска цитат // Программная инженерия: методы и технологии разработки информационно-вычислительных систем (ПИИВС-2016): сборник научных трудов I научно-практической конференции (студенческая секция). 16-17 ноября 2016 г. – Донецк, ГОУ ВПО Донецкий национальный технический университет, 2016. – с. 194-200.
На верх