Реферат за темою випускної роботи Проектування і реалізація інтелектуальної мета-пошукової системи знаходження цитат
Зміст
- 1. Актуальність теми
- 2. Цілі і завдання дослідження, планований результат
- 3. Огляд досліджень та розробок
- 3.1 Огляд міжнародних джерел
- 3.2 Огляд національних джерел
- 3.3 Огляд локальних джерел
- 4. Властивості мета-пошукових систем і підходи їх реалізації
- 4.1 Архітектура мета-пошукової системи
- 4.2 Визначення завдання мета-пошуку
- 4.3 Рішення завдання мета-пошуку для знаходження цитат
- Висновки
- Список джерел
1. Актуальність теми
На сьогоднішній день головною проблемою для багатьох людей щодня є проблема пошуку інформації в Інтернеті. Останні роки простежується явна тенденція до появи вузькоспеціалізованих сервісів пошуку: наприклад, yandex-блоги, yandex-картинки, yandex-новини, google-maps, google-video тощо. Поділ задачі пошуку інформації на підзадачі дозволяє впроваджувати нові методи пошуку і значно підвищувати його ефективність. Але, незважаючи на це, на сьогоднішній день існує вкрай мало рішень, що забезпечують пошук в Інтернеті саме текстів.
Якщо текст не такий поширений, і/або в відомих користувачеві мережевих бібліотеках його знайти не вдалося, то він змушений скористатися послугами пошукових систем. Користувач вводить мета-текст в інтерфейс пошукової системи (далі ІПС), і отримує у відповідь кілька сотень або тисяч посилань, частина з яких веде на сайти магазинів, в яких можна купити відповідну книгу, частина цих посилань введе в бібліографію і/або згадка, частина цих посилань просто інформаційний шум, і, нарешті, частина посилань може ввести до самого тексту. Навіть з таким досить приблизними розбивкою результатів, очевидно, що завдання обробки отриманого результату покладається на користувача. Спеціалізовані ж ІПС відсікають значну частину свідомо нерелевантних результатів, тому створення спеціалізованих ІПС під конкретну задачу є більш ефективним рішенням [1].
2. Цілі і завдання дослідження, планований результат
Мета роботи - проектування та реалізація інтелектуальної мета-пошукової системи знаходження цитат.
Завдання дослідження:
- розглянути принципи побудови розподілених систем;
- оцінити навантаження на систему при різних умовах роботи;
- розробити алгоритми формулювання запитів і аналізу результату видачі користувачеві.
3. Огляд досліджень та розробок
Досліджувана тема популярна не тільки в міжнародних, але і в національних наукових спільнотах.
3.1 Огляд міжнародних джерел
У книзі Крістофера Д. Маннинг, Прабхакара Рагхаван, Гайнріха Шютце Введення в інформаційний пошук
[2] разом з класичним пошуком розглядаються веб-пошук, а також класифікація та кластеризація текстів. Підручник містить сучасне виклад всіх аспектів проектування та реалізації систем збору, індексування та пошуку документів, методів оцінки таких систем, а також введення в методи машинного навчання на базі колекцій текстів.
Книга Хараламбос Марманіса, Бабенко Дмитра Алгоритми інтелектуального інтернету
[3] про те, як побудувати алгоритми, що формують інтелектуальне ядро таких веб-додатків (алгоритми пошуку, вироблення рекомендацій, створення груп, класифікації та ансамблі класифікаторів). Всі розглянуті в книзі алгоритми можна віднести до області Data Mining, тобто до вилучення якихось нових відомостей з уже наявних даних (іноді досить великих). Основні теми книги – це пошук, вироблення рекомендацій, кластеризація і класифікація.
3.2 Обзор национальных источников
У статті Г.С. Осипова, І.А. Тихомирова, І.В. Смирнова Інтелектуальний пошук в глобальних і локальних обчислювальних мережах, і базах даних
[4] розповідаються методи та інструментальні засоби семантично релевантного мета-пошуку. Розглядаються завдання застосування описуваних методів для пошуку в глобальних і локальних обчислювальних мережах, і базах даних.
У статті вищевказаних авторів реляційна-ситуаційний метод пошуку і аналізу текстів і його застосування
[5] коротко описаний реляційно-ситуаційний метод аналізу текстів природної мови, побудований на основі теорії комунікативної граматики російської мови і теорії неоднорідних семантичних мереж. Показано, як реляційно-ситуаційний метод може бути використаний для точного пошуку документів в локальних і глобальних мережах і створення електронних бібліотек.
У книзі Дмитра Ланде, Андрія Снарського, Ігоря Безсуднова інтернетики. Навігація в складних мережах. Моделі і алгоритми
[6] розглядаються питання, що відносяться до інформаційної структурі веб-простору, теорії складних мереж, моделям інформаційного пошуку та глибинного аналізу текстів, загальним закономірностям сучасних інформаційних потоків і їх моделювання.
У навчальному посібнику попередніх авторів Моделювання складних мереж
[7] розглядаються базові питання теорії складних мереж: характеристики, алгоритми, моделі, завдання пошуку, ранжирування, а також наводяться відомості, необхідні для математичного та комп'ютерного моделювання та аналізу складних мереж.
Книга Додонова О.Г., Ланде Д.В., Путятіна В.Г. Комп'ютерні мережі та аналітичні дослідження
[8] присвячена теоретичним і технологічним основам систем підтримки аналітичних досліджень в глобальній мережевому середовищі, методів і засобів моніторингу, агрегування та узагальнення інформаційних потоків великого обсягу в комп'ютерних мережах. Розглядаються моделі і технології інформаційного пошуку, змістовного аналізу текстів та інформаційних мереж, – базові поняття в області побудови сучасних аналітичних систем.
3.3 Огляд локальних джерел
В індивідуальному розділі Каламітри М.В., присвяченому в якості курсової роботи розробити додаток для мета-пошуку в Інтернет Палаци Криму
[9].
4. Властивості мета-пошукових систем і підходи їх реалізації
4.1. Архітектура мета-пошукової системи
Мета-пошукова система будується на принципах клієнт-агент-серверної архітектури з ультратонким обслуговуванням клієнтом, де клієнтом є стандартний Web-браузер, агентом - мета-пошукова система, а сервером - Web-сервера так званої "Віртуальної бібліотеки", до чиїх пошуковим механізмам звертається агент. Віртуальна бібліотека об'єднує в собі електронні каталоги, систему інтелектуального пошуку і клієнтські місця [10].
При проектуванні мета-пошукової системи потрібно вирішити ряд проблем.
Перш за все, з отриманого від пошукових систем безлічі документів необхідно виділити найбільш релевантні, тобто відповідні запиту користувача.
Крім цього, потрібно зменшити використовувані обчислювальні ресурси мета-пошукового сервера, не перевантажуючи його занадто великим обсягом непотрібної інформації і серйозно заощадити трафік. Тут потрібно відзначити, що в будь-якій системі мета-пошуку найбільш вузьким місцем в основному є пропускна здатність каналу передачі даних, так як обробка сторінок з результатами пошуку, отриманими від декількох десятків пошукових серверів не є надто трудомісткою операцією, тому що витрати часу на обробку інформації на порядки менше часу приходу сторінок, запитаних у пошукових серверів [11].
4.2. Визначення завдання мета-пошуку
Мета-пошукова система – це пошуковий інструмент, який посилає запит користувача одночасно на кілька пошукових систем, каталогів [12].
Принцип роботи мета-пошукача полягає в наступному: запит користувача перетворюється в запити, відформатовані синтаксично і логічно в конструкції, оптимальні для кожного окремого, традиційного
пошукача, тобто З одного запиту мета-пошуковий механізм робить ряд запитів, які адресуються кільком "звичайним" пошуків [13]. Зібравши результати, мета-пошукова система видаляє дубльовані посилання і, відповідно до свого алгоритму, об'єднує результати в загальному списку.
У рамках однієї мета-пошукової системи можна здійснювати пошук інформації різного типу. Мета-пошукові системи не призначені для індексування та накопичення даних, їх призначення – чистий пошук і обробка результатів пошуку.
Мета-пошукові системи дозволяють поглянути на результати пошуку за ключовими словами, підібрати нові ключові слова за допомогою хмар пов'язаних понять. Можна однозначно рекомендувати мета-пошукові системи для оглядового пошуку. Оглядовий пошук корисний при першому підході до вивчення матеріалів за новою для користувача темі або ж необхідний для включення в поле зору якомога більшого числа інтернет-джерел. Навіть одне ключове слово може в деяких випадках дати корисну, наводить результат [14].
На малюнку 1 зображена загальна схема роботи мета-пошукових систем.
Головна перевага – це можливість швидко і зручно зробити запит фактично через одну пошуковий рядок відразу до багатьох провідним пошуковим системам, що економить час, та й аналіз єдиного лістингу результатів набагато простіше, ніж звірення безлічі різних лістингів з безліччю дублювань результатів. Інакше кажучи, працюючи через мета-пошук, ваш кут огляду завжди буде істотно ширше, ніж через кожну пошукову систему в окремо, тобто мета-пошукова система має ті ж переваги перед пошуковою системою, що і пошук в декількох довідниках перед пошуком в одному [15] (мал. 2).
Недоліки мета-пошуку є продовженням і логічним наслідком його переваг: у мета-пошуку відсутня власна індексна база, відповідно неможливо додавати в його пошук URL своїх сайтів. Другий дуже важливий недолік такого пошуку – скромні синтаксичні можливості для формулювання умов розширеного пошуку [16].
На малюнках 3-4 показаны десятка лідерів мета-пошукових систем і статистика їх відвідуваності відповідно.
4.3. Рішення завдання мета-пошуку для знаходження цитат
Пошук цитат – це пошук тексту по заданому фрагменту.
Користувач, який загадав такий запит, найімовірніше, хоче знайти походження цитати - тобто або побачити твір, з якого вона взята (в такому випадку на знайденої сторінці буде представлений досить широкий оригінальний контекст цитати, що і перевіряється аналізатором), або хоча б дізнатися автора і назва цього твору.
Розглянемо цю проблему докладніше, а також введемо деякі обмеження і визначення.
- Під пошуком текстів в Інтернеті розуміється ситуація, коли користувачеві відома назва твору і/або його автор (ім'я-прізвище), а в якості результату користувач хоче отримати повний текст цього твору в електронному вигляді.
Текстом
будемо вважати закінчений мовне твір, що характеризується наявністю автора і назви.Мета-текстом>
будемо вважати будь-яку непорожню комбінацію імені-прізвища автора і назви тексту.Адресою
тексту буде вважатися веб-адресу, за якою це текст доступний в Інтернеті. Якщо такої адреси не існує, то будемо вважати адресу цього текстунульовим
.- Для прикладів будемо використовувати літературні твори російською мовою, хоча методи пошуку застосовні до текстів будь-якого жанру і тематики (технічні, публіцистичні та ін.).
Стандартним рішенням проблеми пошуку текстів в Інтернеті є створення систем, які індексують знайдені в Інтернеті тексти. По суті справи, дані системи є базами даних, в яких містяться посилання на тексти в Інтернеті. У таких системах користувач вводить мета-текст в стандартний пошуковий інтерфейс і, якщо даний текст проіндексований, то користувач отримує адресу тексту, за яким даний текст був знайдений в процесі індексування. Дані системи мають, як мінімум, одним серйозним недоліком: при такій побудові текст прив'язується до певного адресою в Інтернеті. Але Інтернет-ресурси має властивість закриватися, переїжджати з одного домену на інший, а розташовані на них документи часто змінюють назву, видаляються, реорганізуються. Отже, проіндексовані адреси в будь-який момент можуть перестати бути актуальними. Другий недолік подібного методу полягає в охопленні представлених адрес. Ручне поповнення баз даних не гарантує потрапляння всіх адрес тексту, автоматичне же індексування за адресою
серйозно підвищує рівень інформаційного шуму.
Існує спосіб пошуку текстів в Інтернеті, назвемо його пошуком по цитаті або цитатним пошуком. Основна ідея полягає в тому, що ІПС загального призначення надають можливість в якості запиту вказувати цілу фразу, і результатом такого запиту будуть тільки ті документи, в яких присутня ця фраза цілком зі збереженням порядку слів. Таким чином, якщо користувачеві замість мета-тексту відома цитата з тексту, то подальший процес пошуку тексту скорочується до введення цієї цитати в лапках в Google або Yandex, і пошуковик або видає посилання безпосередньо на текст, або однозначно сигналізує про те, що такого тексту в Інтернеті немає. Очевидним чином, ми стикаємося з двома проблемами: попереднє витяг цитат з текстів і релевантність видаваних посилань. Перша проблема вирішується побудовою бази даних цитат, які будуть видаватися в обмін на мета-текст. Друга ж проблема пов'язана з поняттям цілісності тексту
(ми можемо потрапити
не в цілий текст, а в частину тексту, наприклад, в разі цитування тексту або ознайомчої сторінки) і мінімальної релевантної цитати
(є ймовірність, що цитата може зустрітися в декількох різних текстах). Обидві ці проблеми активно вивчаються і вирішуються авторами. Процес пошуку текстів в Інтернеті можна розбити на два етапи: користувач повинен по мета-тексту отримати цитату, потім по отриманої цитаті відшукується повний текст. Таким чином, для ефективного вирішення проблеми пошуку текстів в Інтернеті необхідно створити спеціалізовану ІПС, ядром якої буде база цитат, попередньо витягнутих з текстів. Ця система повинна працювати в якості посередника між користувачем і ІПС загального призначення.
Мета-пошукова система пошуку цитат включатиме кілька етапів.
- Користувач робить запит з цитатою.
- Система проводить синтаксичний аналіз запиту.
- Результати синтаксичного аналізу потрапляють в блок семантичного аналізу.
- На основі результатів синтаксичного і семантичного аналізу, використовуючи словники асоціацій, синонімів, система генерує кілька запитів, які є варіаціями вихідного.
- Система посилає отримані запити стандартним пошуковим системам, наприклад, google, yandex.
- Система аналізує результат роботи пошукових систем, вибираючи самі відповідні джерела цитат, і виводить їх на екран користувачеві [17].
На малюнку 5 показана структурна схема алгоритму пошуку цитат.
Висновки
Аналіз джерел показав, що тема проектування і реалізації мета-пошукових систем актуальна не тільки в міжнародному, а й національному і локальному наукових спільнотах.
Були висунуті основні вимоги до мета-пошуковим системам і описані: принцип роботи мета-пошукових систем, їх переваги та недоліки, а також приведена схема власного алгоритму пошуку цитат з його фрагментарного завданням.
Подальша робота буде спрямована на розробку схем мета-пошукової системи в міру зміни вимог і навантажень на систему, а також на розробку програми, реалізовувати мінімальний функціонал, наведених прикладів існуючих мета-пошукових систем, необхідний для моделювання та дослідження реакції програми на виникає навантаження.
Список джерел
- А.С. Гребеньков. Поиск текстов в Интернете на основе базы цитат. X Всероссийская объединенная конференция, с. 258-260 – [Электронный ресурс]. – Режим доступа: http://ict.edu.ru/vconf/files/7877.pdf
- Кристофер Д. Маннинг, Прабхакар Рагхаван, Хайнрих Шютце. Введение в информационный поиск – [Электронный ресурс]. Режим доступа: https://www.ozon.ru/context/detail/id/5497130/
- Хараламбос Марманис, Дмитрий Бабенко. Алгоритмы интеллектуального Интернета. Передовые методики сбора, анализа и обработки данных – [Электронный ресурс]. Режим доступа: https://www.ozon.ru/context/detail/id/6753996/
- Г.С. Осипов, И.А. Тихомиров, И.В. Смирнов. Интеллектуальный поиск в глобальных и локальных вычислительных сетях, и базах данных. Программные системы: теория и приложения. Переславль-Залесский, 2004, 21-34 – [Электронный ресурс]. Режим доступа: http://docplayer.ru/27455876-Intellektualnyy-poisk-v-globalnyh-i-lokalnyh-vychislitelnyh-setyah-i-bazah-dannyh.html
- Г.С. Осипов, И.А. Тихомиров, И.В. Смирнов. Искусственный интеллект и принятие решений, Реляционно-ситуационный метод поиска и анализа текстов и его приложения, 2008, №2, 3-10 – [Электронный ресурс]. Режим доступа: http://docplayer.ru/29580361-Relyacionno-situacionnyy-metod-poiska-i-analiza-tekstov-i-ego-prilozheniya.html
- Ландэ Д.В., Снарский А.А., Безсуднов И.В. Интернетика. Навигация в сложных сетях. Модели и алгоритмы – [Электронный ресурс]. Режим доступа: http://poiskbook.kiev.ua/art/internetica/
- Ландэ Д.В., Снарский А.А. Моделирование сложных сетей – [Электронный ресурс]. Режим доступа: http://freescb.info/sites/freescb.info/files/mss-new.pdf
- А.Г. Додонов, Д.В. Ландэ, В.Г. Путятин. Компьютерные сети и аналитические исследования – [Электронный ресурс]. Режим доступа: http://dwl.kiev.ua/art/ksai/an-book.pdf
- Каламитра Марина Викторовна. Метапоисковая система
Дворцы Крыма
– [Электронный ресурс]. Режим доступа: http://masters.donntu.ru/2013/fknt/kalamitra/ind/index.htm - Саркисова И.О. Автоматизация поиска неиндексируемых ресурсов в распределенных компьютерных сетях – [Электронный ресурс]. Режим доступа: http://magazine.stankin.ru/arch/n_10/14/index.html.
- Архитектура метапоисковых систем – [Электронный ресурс]. Режим доступа: http://citforum.ru/internet/search/metaping.shtml
- Мета-поисковые системы – [Электронный ресурс]. Режим доступа: http://catalysis.ru/link/index.php?ID=12&SECTION_ID=54
- Мета-поисковые системы – [Электронный ресурс]. Режим доступа: http://www.vsepoisk.ru/2009/07/blog-post_23.html
- Метапоисковые системы: принципы работы, опыты кластеризации поисковых результатов – [Электронный ресурс]. Режим доступа: http://life-prog.ru/2_10898_metapoiskovie-sistemi-printsipi-raboti-opiti-klasterizatsii-poiskovih-rezultatov.html
- Метапоисковые системы – [Электронный ресурс]. Режим доступа: https://studopedia.org/11-95698.html
- Шпаргалка по метапоисковым системам – [Электронный ресурс]. Режим доступа: http://internetno.net/category/shpargalki/meta-search/
- Серёженко О.А., Коломойцева И.А. Применение мета-поиска к решению задач поиска цитат // Программная инженерия: методы и технологии разработки информационно-вычислительных систем (ПИИВС-2016): сборник научных трудов I научно-практической конференции (студенческая секция). 16-17 ноября 2016 г. – Донецк, ГОУ ВПО
Донецкий национальный технический университет
, 2016. – с. 194-200.