UA   ENG
ДонНТУ   Портал магистров

При написании данного реферата магистерская работа еще не завершена. Окончательное завершение: июнь 2018 года. Полный текст работы и материалы по теме могут быть получены у автора или его руководителя после указанной даты.

Реферат по теме выпускной работы Проектирование и реализация интеллектуальной мета-поисковой системы нахождения цитат

Содержание

1. Актуальность темы

На сегодняшний день насущной проблемой для миллионов людей каждый день является проблема поиска информации в Интернете. Последние годы прослеживается явная тенденция к появлению узкоспециализированных сервисов поиска: например, yandex-блоги, yandex-картинки, yandex-новости, google-maps, google-video и т. д. Разделение задачи поиска информации на подзадачи позволяет внедрять новые методы поиска и значительно повышать его эффективность. Но, несмотря на это, на сегодняшний день существует крайне мало решений, обеспечивающих поиск в Интернете именно текстов.

Если текст не такой распространенный, и/или в известных пользователю сетевых библиотеках его найти не удалось, то он вынужден воспользоваться услугами поисковых систем. Пользователь вводит мета-текст в интерфейс поисковой системы (далее ИПС), и получает в ответ несколько сотен или тысяч ссылок, часть из которых ведет на сайты магазинов, в которых можно купить соответствующую книгу, часть этих ссылок введет в библиографию и/или упоминание, часть этих ссылок просто информационный шум, и, наконец, часть ссылок может ввести к самому тексту. Даже с таким довольно приблизительным разбиением результатов, очевидно, что задача обработки полученного результата возлагается на пользователя. Специализированные же ИПС отсекают значительную часть заведомо нерелевантных результатов, поэтому создание специализированных ИПС под конкретную задачу является более эффективным решением [1].

2. Цель и задачи исследования, планируемые результаты

Цель работы — проектирование и реализация интеллектуальной мета-поисковой системы нахождения цитат.

Задачи исследования:

3. Обзор исследований и разработок

Исследуемая тема популярна не только в международных, но и в национальных научных сообществах.

3.1 Обзор международных источников

В книге Кристофера Д. Маннинг, Прабхакара Рагхаван, Хайнриха Шютце Введение в информационный поиск [2] вместе с классическим поиском рассматриваются веб-поиск, а также классификация и кластеризация текстов. Учебник содержит современное изложение всех аспектов проектирования и реализации систем сбора, индексирования и поиска документов, методов оценки таких систем, а также введение в методы машинного обучения на базе коллекций текстов.

Книга Хараламбос Марманиса, Бабенко Дмитрия Алгоритмы интеллектуального интернета [3] о том, как построить алгоритмы, формирующие интеллектуальное ядро таких веб-приложений (алгоритмы поиска, выработки рекомендаций, создания групп, классификации и ансамбли классификаторов). Все рассмотренные в книге алгоритмы можно отнести к области Data Mining, то есть к извлечению каких-то новых сведений из уже имеющихся данных. Основные темы книги — это поиск, выработка рекомендаций, кластеризация и классификация.

3.2 Обзор национальных источников

В статье Г.С. Осипова, И.А. Тихомирова, И.В. Смирнова Интеллектуальный поиск в глобальных и локальных вычислительных сетях, и базах данных [4] рассказываются методы и инструментальные средства семантически релевантного мета-поиска. Рассматриваются задачи применения описываемых методов для поиска в глобальных и локальных вычислительных сетях, и базах данных.

В статье вышеуказанных авторов Реляционно-ситуационный метод поиска и анализа текстов и его приложения [5] кратко описан реляционно-ситуационный метод анализа текстов естественного языка, построенный на основе теории коммуникативной грамматики русского языка и теории неоднородных семантических сетей. Показано, как реляционно-ситуационный метод может быть использован для точного поиска документов в локальных и глобальных сетях и создания электронных библиотек.

В книге Дмитрия Ландэ, Андрея Снарского, Игоря Безсуднова Интернетика. Навигация в сложных сетях. Модели и алгоритмы [6] рассматриваются вопросы, относящиеся к информационной структуре веб-пространства, теории сложных сетей, моделям информационного поиска и глубинного анализа текстов, общим закономерностям современных информационных потоков и их моделированию.

В учебном пособии предыдущих авторов Моделирование сложных сетей [7] рассматриваются базовые вопросы теории сложных сетей: характеристики, алгоритмы, модели, задачи поиска, ранжирования, а также приводятся сведения, необходимые для математического и компьютерного моделирования и анализа сложных сетей.

Книга Додонова А.Г., Ландэ Д.В., Путятина В.Г. Компьютерные сети и аналитические исследования [8] посвящена теоретическим и технологическим основам систем поддержки аналитических исследований в глобальной сетевой среде, методам и средствам мониторинга, агрегирования и обобщения информационных потоков большого объема в компьютерных сетях. Рассматриваются модели и технологии информационного поиска, содержательного анализа текстов и информационных сетей, — базовые понятия в области построения современных аналитических систем.

3.3 Обзор национальных источников

В индивидуальном разделе Каламитры М.В., посвящённом в качестве курсовой работы разработать приложение для мета-поиска в Интернет Дворцы Крыма [9].

4. Свойства мета-поисковых систем и подходы их реализации

4.1. Архитектура мета-поисковой системы

Мета-поисковая система строится на принципах клиент-агент-серверной архитектуры с ультратонким необслуживаемым клиентом, где клиентом является стандартный Web-браузер, агентом — мета-поисковая система, а сервером — Web-сервера так называемой Виртуальной библиотеки, к чьим поисковым механизмам обращается агент. Виртуальная библиотека объединяет в себе электронные каталоги, систему интеллектуального поиска и клиентские места [10].

При проектировании мета-поисковой системы нужно решить ряд проблем.

Прежде всего, из полученного от поисковых систем множества документов необходимо выделить наиболее релевантные, то есть соответствующие запросу пользователя.

Кроме этого, нужно уменьшить используемые вычислительные ресурсы мета-поискового сервера, не перегружая его слишком большим объемом ненужной информации и серьезно сэкономить трафик. Здесь нужно отметить, что в любой системе мета-поиска наиболее узким местом в основном является пропускная способность канала передачи данных, так как обработка страниц с результатами поиска, полученными от нескольких десятков поисковых серверов не является слишком трудоемкой операцией, потому что затраты времени на обработку информации на порядки меньше времени прихода страниц, запрошенных у поисковых серверов [11].

4.2. Определение задачи мета-поиска

Мета-поисковая система — это поисковый инструмент, посылающий запрос пользователя одновременно на несколько поисковых систем, каталогов [12].

Принцип работы мета-поисковика заключается в следующем: запрос пользователя преобразуется в запросы, отформатированные синтаксически и логически в конструкции, оптимальные для каждого отдельного, традиционного поисковика, т. е. из одного запроса мета-поисковый механизм делает ряд запросов, которые адресуются нескольким обычным поискам [13]. Собрав результаты, мета-поисковая система удаляет дублированные ссылки и, в соответствии со своим алгоритмом, объединяет результаты в общем списке.

В рамках одной мета-поисковой системы можно осуществлять поиск информации различного типа. Мета-поисковые системы не предназначены для индексирования и накопления данных, их назначение — чистый поиск и обработка результатов поиска.

Мета-поисковые системы позволяют взглянуть на результаты поиска по ключевым словам, подобрать новые ключевые слова с помощью облаков связанных понятий. Можно однозначно рекомендовать мета-поисковые системы для обзорного поиска. Обзорный поиск полезен при первом подходе к изучению материалов по новой для пользователя теме или же необходим для включения в поле зрения как можно большего числа интернет-источников. Даже одно ключевое слово может в некоторых случаях дать полезный, наводящий результат [14].

На рисунке 1 изображена общая схема работы мета-посиковых систем.

Рисунок 1 — Общая схема работы мета-поисковых систем

Рисунок 1 — Общая схема работы мета-поисковых систем

Главное преимущество — это возможность быстро и удобно сделать запрос фактически через одну поисковую строку сразу ко многим ведущим поисковым системам, что экономит время, да и анализ единого листинга результатов намного проще, чем сличение множества разных листингов с множеством дублирований результатов. Иначе говоря, работая через мета-поиск, ваш угол обзора всегда будет существенно шире, чем через каждую поисковую систему в отдельности, т. е. мета-поисковая система имеет те же преимущества перед поисковой системой, что и поиск в нескольких справочниках перед поиском в одном [15] (рис. 2).

Рисунок 2 — Преимущества системы мета-поиска перед поисковой системой

Рисунок 2 — Преимущества системы мета-поиска перед поисковой системой

Недостатки мета-поиска являются продолжением и логическим следствием его преимуществ: у мета-поиска отсутствует собственная индексная база, соответственно невозможно добавлять в его поиск URL своих сайтов. Второй очень важный недостаток такого поиска — скромные синтаксические возможности для формулирования условий расширенного поиска [16].

На рисунках 3–4 показаны десятка лидеров мета-поисковых систем и статистика их посещаемости соответственно.

Рисунок 3 — Лидеры мета-поисковых систем

Рисунок 3 — Лидеры мета-поисковых систем

Рисунок 4 — Статистика посещаемость мета-поисковых систем

Рисунок 4 — Статистика посещаемость мета-поисковых систем

4.3. Решение задачи мета-поиска для нахождения цитат

Поиск цитат — это поиск текста по заданному фрагменту.

Пользователь, задавший такой запрос, вероятнее всего, хочет найти происхождение цитаты — то есть либо увидеть произведение, из которого она взята (в таком случае на найденной странице будет представлен достаточно широкий оригинальный контекст цитаты, что и проверяется анализатором), либо хотя бы узнать автора и название этого произведения.

Рассмотрим эту проблему подробнее, а также введем некоторые ограничения и определения.

  1. Под поиском текстов в Интернете понимается ситуация, когда пользователю известно название произведения и/или его автор (имя-фамилия), а в качестве результата пользователь хочет получить полный текст этого произведения в электронном виде.
  2. Текстом будем считать законченное языковое произведение, характеризующееся наличием автора и названия. "Мета-текстом" будем считать любую непустую комбинацию имени-фамилии автора и названия текста. Адресом текста будет считаться веб-адрес, по которому это текст доступен в Интернете. Если такого адреса не существует, то будем считать адрес этого текста нулевым.
  3. Для примеров будем использовать литературные произведения на русском языке, хотя методы поиска применимы к текстам любого жанра и тематики (технические, публицистические и др.).

Стандартным решением проблемы поиска текстов в Интернете является создание систем, индексирующих найденные в Интернете тексты. По сути дела, данные системы являются базами данных, в которых содержатся ссылки на тексты в Интернете. В таких системах пользователь вводит мета-текст в стандартный поисковый интерфейс и, если данный текст проиндексирован, то пользователь получает адрес текста, по которому данный текст был найден в процессе индексирования. Данные системы обладают, как минимум, одним серьезным недостатком: при таком построении текст привязывается к определенному адресу в Интернете. Но Интернет-ресурсы имеет свойство закрываться, переезжать с одного домена на другой, а расположенные на них документы часто меняют название, удаляются, реорганизуются. Следовательно, проиндексированные адреса в любой момент могут перестать быть актуальными. Второй недостаток подобного метода состоит в охвате представленных адресов. Ручное пополнение баз данных не гарантирует попадание всех адресов текста, автоматическое же индексирование по адресу серьёзно повышает уровень информационного шума.

Существует способ поиска текстов в Интернете, назовем его поиском по цитате или цитатным поиском. Основная идея заключается в том, что ИПС общего назначения предоставляют возможность в качестве запроса указывать целую фразу, и результатом такого запроса будут только те документы, в которых присутствует эта фраза целиком с сохранением порядка слов. Таким образом, если пользователю вместо мета-текста известна цитата из текста, то дальнейший процесс поиска текста сокращается до ввода этой цитаты в кавычках в Google или Yandex, и поисковик либо выдает ссылки непосредственно на текст, либо однозначно сигнализирует о том, что такого текста в Интернете нет. Очевидным образом, мы сталкиваемся с двумя проблемами: предварительное извлечение цитат из текстов и релевантность выдаваемых ссылок. Первая проблема решается построением базы данных цитат, которые будут выдаваться в обмен на мета-текст. Вторая же проблема связана с понятием целостности текста (мы можем попасть не в целый текст, а в часть текста, например, в случае цитирования текста или ознакомительной страницы) и минимальной релевантной цитаты (есть вероятность, что цитата может встретиться в нескольких различных текстах). Обе эти проблемы активно изучаются и решаются авторами. Процесс поиска текстов в Интернете можно разбить на два этапа: пользователь должен по мета-тексту получить цитату, затем по полученной цитате отыскивается полный текст. Таким образом, для эффективного разрешения проблемы поиска текстов в Интернете необходимо создать специализированную ИПС, ядром которой будет база цитат, предварительно извлеченных из текстов. Эта система должна работать в качестве посредника между пользователем и ИПС общего назначения.

Мета-поисковая система поиска цитат будет включать несколько этапов.

  1. Пользователь делает запрос с цитатой.
  2. Система проводит синтаксический анализ запроса.
  3. Результаты синтаксического анализа попадают в блок семантического анализа.
  4. На основе результатов синтаксического и семантического анализа, используя словари ассоциаций, синонимов, система генерирует несколько запросов, являющихся вариациями исходного.
  5. Система посылает полученные запросы стандартным поисковым системам, например, google, yandex.
  6. Система анализирует результат работы поисковиков, выбирая самые подходящие источники цитат, и выводит их на экран пользователю [17].

На рисунке 5 показана структурная схема алгоритма поиска цитат.

Рисунок 5 — Структурная схема алгоритма поиска цитат

Рисунок 5 — Структурная схема алгоритма поиска цитат

Выводы

Анализ источников показал, что тема проектирования и реализации мета-поисковых систем актуальна не только в международном, но и национальном и локальном научных сообществах.

Были выдвинуты основные требования к мета-поисковым системам и описаны: принцип работы мета-поисковых систем, их преимущества и недостатки, а также приведена схема собственного алгоритма поиска цитат по его фрагментарному заданию.

Дальнейшая работа будет направлена на разработку схем мета-поисковой системы по мере изменения требований и нагрузок на систему, а также на разработку приложения, реализовывающего минимальный функционал, приведенных примеров существующих мета-поисковых систем, необходимый для моделирования и исследования реакции приложения на возникающую нагрузку.

Список источников

  1. А.С. Гребеньков. Поиск текстов в Интернете на основе базы цитат. X Всероссийская объединенная конференция, с. 258-260 — [Электронный ресурс]. — Режим доступа: http://ict.edu.ru/vconf/files/7877.pdf
  2. Кристофер Д. Маннинг, Прабхакар Рагхаван, Хайнрих Шютце. Введение в информационный поиск — [Электронный ресурс]. — Режим доступа: https://www.ozon.ru/context/detail/id/5497130/
  3. Хараламбос Марманис, Дмитрий Бабенко. Алгоритмы интеллектуального Интернета. Передовые методики сбора, анализа и обработки данных — [Электронный ресурс]. — Режим доступа: https://www.ozon.ru/context/detail/id/6753996/
  4. Г.С. Осипов, И.А. Тихомиров, И.В. Смирнов. Интеллектуальный поиск в глобальных и локальных вычислительных сетях, и базах данных. Программные системы: теория и приложения. Переславль-Залесский, 2004, 21-34 — [Электронный ресурс]. — Режим доступа: http://docplayer.ru/27455876-Intellektualnyy-poisk-v-globalnyh-i-lokalnyh-vychislitelnyh-setyah-i-bazah-dannyh.html
  5. Г.С. Осипов, И.А. Тихомиров, И.В. Смирнов. Искусственный интеллект и принятие решений, Реляционно-ситуационный метод поиска и анализа текстов и его приложения, 2008, №2, 3-10 — [Электронный ресурс]. — Режим доступа: http://docplayer.ru/29580361-Relyacionno-situacionnyy-metod-poiska-i-analiza-tekstov-i-ego-prilozheniya.html
  6. Ландэ Д.В., Снарский А.А., Безсуднов И.В. Интернетика. Навигация в сложных сетях. Модели и алгоритмы — [Электронный ресурс]. — Режим доступа: http://poiskbook.kiev.ua/art/internetica/
  7. Ландэ Д.В., Снарский А.А. Моделирование сложных сетей — [Электронный ресурс]. — Режим доступа: http://freescb.info/sites/freescb.info/files/mss-new.pdf
  8. А.Г. Додонов, Д.В. Ландэ, В.Г. Путятин. Компьютерные сети и аналитические исследования — [Электронный ресурс]. — Режим доступа: http://dwl.kiev.ua/art/ksai/an-book.pdf
  9. Каламитра Марина Викторовна. Метапоисковая система Дворцы Крыма — [Электронный ресурс]. — Режим доступа: http://masters.donntu.ru/2013/fknt/kalamitra/ind/index.htm
  10. Саркисова И.О. Автоматизация поиска неиндексируемых ресурсов в распределенных компьютерных сетях — [Электронный ресурс]. — Режим доступа: http://magazine.stankin.ru/arch/n_10/14/index.html.
  11. Архитектура метапоисковых систем — [Электронный ресурс]. — Режим доступа: http://citforum.ru/internet/search/metaping.shtml
  12. Мета-поисковые системы — [Электронный ресурс]. — Режим доступа: http://catalysis.ru/link/index.php?ID=12&SECTION_ID=54
  13. Мета-поисковые системы — [Электронный ресурс]. — Режим доступа: http://www.vsepoisk.ru/2009/07/blog-post_23.html
  14. Метапоисковые системы: принципы работы, опыты кластеризации поисковых результатов — [Электронный ресурс]. — Режим доступа: http://life-prog.ru/2_10898_metapoiskovie-sistemi-printsipi-raboti-opiti-klasterizatsii-poiskovih-rezultatov.html
  15. Метапоисковые системы — [Электронный ресурс]. — Режим доступа: https://studopedia.org/11-95698.html
  16. Шпаргалка по метапоисковым системам — [Электронный ресурс]. — Режим доступа: http://internetno.net/category/shpargalki/meta-search/
  17. Серёженко О.А., Коломойцева И.А. Применение мета-поиска к решению задач поиска цитат // Программная инженерия: методы и технологии разработки информационно-вычислительных систем (ПИИВС-2016): сборник научных трудов I научно-практической конференции (студенческая секция). 16-17 ноября 2016 г. — Донецк, ГОУ ВПО Донецкий национальный технический университет, 2016. — с. 194-200.
На верх