Назад в библиотеку

Тезаурус как средство повышения эффективности современных информационно-поисковых систем

Автор: Н.А. Рогова
Источник: Труды Академии управления МВД России, с. 113-118.

Аннотация

Н.А. Рогова. Тезаурус как средство повышения эффективности современных информационно-поисковых систем.В статье анализируется возможность применения информационно-поисковых тезаурусов как средства повышения эффективности поиска в современных информационно-поисковых системах. Предлагается использование тезаурусов для специфических предметных областей, таких как система оперативного управления органами внутренних дел.

Введение

Возрастание интенсивности информационного потока вследствие увеличения специализации во всех областях социальной деятельности и количества публикуемых материалов создает определенные трудности ориентации в громадном объеме недостаточно упорядоченных материалов. Это обстоятельство обусловило выделение поиска информации в самостоятельную проблему, которая решается посредством автоматизации процессов переработки информации, внедрением и использованием информационнопоисковых систем (ИПС) в качестве основного звена информационно-справочной системы, хранилища информации и т. д.

Все преобразования информации, осуществляемые непосредственно в информационной системе, сводятся к пяти основным процедурам: ввод, обработка, хранение, поиск, вывод. Информационные системы можно разделить на группы систем информационного обеспечения в рамках автоматизированных систем специального назначения и систем, имеющих самостоятельное целевое информационное назначение и область применения. Примерами первых являются системы управления (АСУ, АСУП, АСУТП), системы научных исследований (АСНИ), системы проектирования (САПР), системы принятия решений (СППР) и многие другие. Информационными системами, имеющими самостоятельное назначение, являются информационно-поисковые системы.

Поисковая система (retrieval system — англ.) — это комплекс средств, предназначенных для нахождения и получения (выборки и выдачи) необходимых объектов (включая изделия, документы, тексты и т. п.), обладающих определенными признаками, которые соответствуют указанным в запросах [7].

Информационно-поисковые системы (ИПС) появились в середине XX в., когда ученые предупредили о возможности возникновения проблемы информационного взрыва. Стало понятным, что документальный поиск представляет отдельную задачу, имеющую свой предмет и свои методы решения. Но полностью автоматизировать интеллектуальные поисковые системы оказалось невозможным. В 70-е гг. с внедрением компьютеров в работу библиотек началась автоматизация простых рутинных операций. Для данного периода характерен повышенный интерес к информационно-поисковым языкам (ИПЯ) и методам индексирования. Типичная ИПС тех лет — это человеко-машинная система, где анализ содержания документов и их индексирование выполнялись вручную, а компьютер использовался лишь для их поиска. Эта процедура заключалась в автоматическом сравнении поисковых образов документов (ПОД) и поисковых образов запросов (ПОЗ), составленных на основе дескрипторных словарей или тезаурусов. Этот период развития поисковых систем характеризуется выявлением природы ИПЯ через его сопоставление с естественным языком, разработкой конкретных языков, созданием и использованием методик индексирования.

Как правило, ИПС использовались в режиме избирательного распространения информации и функционировали как автономные системы. Так, в СССР в начале 80-х гг. была создана Государственная автоматизированная система научно-технической информации (ГАСНТИ), основой которой явился Рубрикатор ГАСНТИ [3], предназначенный для единой тематической систематизации научно-технической информации (НТИ). Он представлял собой иерархическую классификационную систему отраслей науки, техники и народного хозяйства, а также межотраслевых и комплексных проблем и стал основой системы рубрикаторов, создаваемых органами НТИ.

Рубрикатор ГАСНТИ имел три уровня иерархии. Первый (верхний) уровень мог содержать до 100 рубрик (от 00 до 99), и каждая рубрика вышестоящего уровня могла содержать до 100 рубрик нижестоящего уровня или не иметь нижестоящих рубрик. Рубрики верхнего уровня подразделялись на четыре условные тематические группы: общественные науки (коды от 00 до 26), естественные и точные науки (коды от 27 до 43), прикладные науки и отрасли народного хозяйства (коды от 44 до 81), межотраслевые и комплексные проблемы (коды от 82 до 99).

В настоящее время Рубрикатор ГАСНТИ преобразован в ГРНТИ — Государственный рубрикатор научно-технической информации и является частью общесистемных средств лингвистического обеспечения систем НТИ, куда также входят комплекс базисных тезаурусов, номенклатура грамматических средств ИПЯ, правила представления данных в коммуникативных форматах, методики индексирования для обмена информационными материалами в режиме сети.

Теории и практике построения таких систем в конце 70-х гг. — начале 80-х гг. посвящено большое количество статей как в России, так и за рубежом. Среди отечественных источников выделяется научно-технический сборник Научно-техническая информация. Информационные процессы и системы, среди зарубежных — Динамические библиотечноинформационные системы Жерарда Солтона. В них рассматриваются основные принципы построения информационнопоисковых систем и моделирования процессов их функционирования [8].

Далее, в конце 70-х гг.–середине 90-х гг. в развитии ИПС происходит переход от ручного интеллектуального индексирования к автоматизированному. Массовое распространение получили системы, названные бестезаурусными, или — системами поиска по свободному тексту free-text searching systems. Особенностью их является, с одной стороны, отказ от лексического контроля и тем самым отказ от учета парадигматики, с другой — широкое использование контекста и синтагматических связей.

Заключительный этап развития документальных ИПС начался с середины 1990-х гг. и длится по настоящее время. Изменения в информационной сфере произошли в связи с развитием сети Интернет и ростом объемов документальной информации в электронном виде. Для данного этапа характерны гипертекстовые сетевые технологии как основа единого информационного пространства; появление глобальных ИПС; специальные языки представления электронных документов; видовое, тематическое и языковое разнообразие информационных массивов; ориентация на полнотекстовый поиск; использование лингвистического обеспечения предыдущего периода.

Задача поиска в общем виде сводится к необходимости ответа на следующие вопросы: что искать? (т. е. какие источники информации); где искать? (места размещения этих источников) и как искать? (какие инструменты использовать). Основными источниками информации, представленными в Интернете, являются документы WWW (World Wide Web), статьи в группах новостей и списках рассылки, файлы в библиотеках файлов, справочники адресной информации организаций и людей, статьи в тематических базах данных, энциклопедиях. Для успешного поиска необходимо научиться пользоваться специальными инструментами, цель которых — собирать данные об информационных ресурсах и предоставлять пользователям услугу быстрого поиска. Такими инструментами и являются современные информационно-поисковые системы.

Под ИПС в ее абстрактном виде понимается совокупность информационно-поискового языка с правилами перевода с естественного языка на этот язык и наоборот, и критерия смыслового соответствия между поисковым образом документа (ПОД) и поисковым образом запроса (ПОЗ). Это система, обеспечивающая поиск и отбор необходимых данных в специальной базе (индексе) с описаниями источников информации на основе информационно-поискового языка и соответствующих правил поиска.

По характеру представления и логической организации хранимой информации автоматизированные информационно-поисковые системы принято разделять на фактографические, документальные и геоинформационные.

Документальными называются ИПС, в которых по тематическим запросам реализуется поиск в массиве документов или текстов с последующим предоставлением пользователю подмножества их или копий.

Фактографические ИПС реализуют хранение, поиск и выдачу непосредственно фактических данных (научных, технических, экономических характеристик и свойств объектов, процессов, явлений, адресов, наименований, количественных данных и т. п.).

В геоинформационных автоматизированных системах данные организованы в виде отдель ных информационных объектов, привязанных к общей электронной топографической основе.

Главной задачей любой ИПС является поиск информации, в результате которого важно найти все документы соответствующие информационной потребности пользователя по запросу и не найти ничего лишнего. Поэтому вводится качественная характеристика процедуры поиска — релевантность, которая означает меру соответствия получаемого результата желаемому результату.

Рассматривая ИПС сети Интернет (WWW), можно классифицировать их по пространственному масштабу и специализации. По первому признаку ИПС можно разделить на локальные, глобальные, региональные и специализированные. Локальные поисковые системы могут быть разработаны для быстрого поиска страниц в масштабе отдельного сервера. Региональные ИПС описывают информационные ресурсы определенного региона, например русскоязычные страницы в Интернете. Глобальные поисковые системы стремятся по возможности наиболее полно описать ресурсы всего информационного пространства сети Интернет.

Как общие можно выделить следующие поисковые инструменты для WWW: каталоги, поисковые системы и метапоисковые системы.

Каталог — это поисковая система с классифицированным по темам списком аннотаций со ссылками на web-ресурсы. Наиболее известная модель каталогов — иерархическая модель Gopher. Несмотря на то, что поиск в каталоге очень удобен и проводится посредством последовательного уточнения тем, каталоги поддерживают возможность быстрого поиска определенной категории или страницы по ключевым словам с помощью локальной поисковой машины. База данных ссылок (индекс) каталога обычно имеет ограниченный объем, заполняется вручную персоналом каталога, хотя некоторые каталоги используют и автоматическое обновление индекса. Результат поиска в каталоге предоставляется в виде списка, состоящего из краткого описания (аннотации) документов с гипертекстовой ссылкой на первоисточник.

Поисковая машина — это поисковая система с базой данных, содержащей информацию об информационных ресурсах, формируемой программой-роботом. Поиск в такой системе проводится по запросу, составляемому пользователем, состоящему из набора ключевых слов или фразы, заключенной в кавычки. Индекс формируется и поддерживается в актуальном состоянии роботами-индексировщиками. В описании документа чаще всего содержится либо несколько первых предложений, либо выдержки из текста документа с выделением ключевых слов. Часто указывается дата обновления (проверки) документа, его размер; некоторые системы определяют язык документа и его кодировку. Если название и описание документа соответствует требованиям запроса, можно немедленно перейти к его первоисточнику по ссылке. Многие поисковые системы позволяют проводить поиск в найденных документах, предлагая уточнить запрос введением дополнительных терминов. Если интеллектуальность системы высока, она может предложить услугу поиска похожих документов, для чего нужно выбрать определенный документ и указать его системе в качестве образца для подражания.

Поисковая система состоит из следующих основных компонентов:

На сегодняшний день не существует другого способа быстрого поиска данных кроме поиска по ключевым словам. Для ускорения и удобства процедуры поиска корпорация Google, например, ввела опцию живой поиск. По мере того как вы печатаете текст в окне поиска, живой поиск автоматически показывает результаты для популярных запросов, начинающихся с тех букв, которые вы успели ввести, учитывая даже соответствие клавиш английского и русского регистров клавиатуры. Если вы не видите результатов, которые вам нужны, продолжайте печатать, и результаты будут изменяться динамически. Теперь, чтобы найти нужную информацию, не обязательно даже полностью вводить запрос, можно просто выбрать его из всплывающего списка. Эта же опция в различных интерпретациях используется в некоторых информационносправочных системах, например в системе КонсультантПлюс, но не решает проблему полноты и точности поиска.

Основным средством для повышения полноты и точности поиска является хорошее лингвистическое обеспечение. Лингвистические средства являются интерфейсом между естественным языком и формальными поисковыми механизмами ИПС. Лингвистическое обеспечение включает языки представления данных в ИПС, которые определяют архитектуру, синтаксис и семантику представлений информации в базах данных ИПС и информационно-поисковый язык, т. е. язык, на котором пользователь обращается к системе для получения интересующей его информации [7].

Именно лингвистическое обеспечение отвечает за такие процессы, как индексирование документов и запросов, эффективный поиск в базах данных по тематическим запросам и межсистемное информационное взаимодействие.

В составе лингвистического обеспечения необходимо наличие классификационного и (или) дескрипторного информационного языка.

Классификационный язык — информационный язык, предназначенный для индексирования документов и информационных запросов посредством понятий и кодов какой-либо классификационной системы, выполняющей организационную (систематизация информации), поисковую (поиск информации) и образовательную (комплексное представление о системе знаний) функции.

Современные информационно-поиско-вые языки включают булевы операции (объединение, пересечение, отрицание); операции контекстной близости; средства управления приоритетами операторов и т. д.; естественные языки и языки разметки, где представлены документыпервоисточники. Если же между массивом документов и пользователем расположить посредника, а именно — тезаурус, то это значительно сузит поле для поиска и результат получится много более точным.

Тезаурус ИПС — это автоматически формируемый словарь или заранее подготовленный словарный массив, снабженный рядом дополнительных атрибутов. Термином тезаурус обозначается упорядоченный список лексических единиц, достаточно полно представляющий лексику исследуемой предметной области с явным указанием связей между лексическими единицами. Дескриптор — это совокупность синонимов, обозначающих одно и то же понятие, или т. н. нормативный синоним, который заменяет в системе все остальные синонимы. Тезаурус отражает онтологию предметной области. Системы описания документов и запросов с помощью дескрипторов и информационнопоисковых тезаурусов называют информационнопоисковыми языками дескрипторного типа, или дескрипторными ИПЯ [6].

Тезаурус – это иерархия понятий определенного языка, максимально полно охватывающая все его предметные области. В целом структура тезауруса похожа на перевернутое дерево. Поиск может вестись как от общего к частному, так и наоборот. Сформулированный пользовательский запрос, прежде чем пойти в поисковую систему, сначала поступает в электронный тезаурус, который определяет, к каким категориям понятий относятся указанные слова, уточняет запрос и направляет его дальше – в поисковую систему.

Тезаурусы применяются в качестве инструмента технологического контроля в процессе анализа и индексирования документов и информационных запросов, а также автоматизированного поиска информации. В тезаурусах ИПС каждой лексической единице приписывается небольшой пояснительный текст – словарная статья или ссылка на другие слова этого словарного массива. Содержательно ссылки могут означать следующее: синонимию, противопоставление отдельных слов, подчиненность и т. д. Структура заполнения тезауруса регламентируется стандартами ISO–2788, ГОСТ 7.25–2001 (для одноязычных тезаурусов) и ГОСТ 7.24–2007 (для многоязычных тезаурусов) [4, 5].

Формирование поискового индекса во многих ИПС выполняется по правилам построения тезаурусов, в которые входят такие лексические единицы, как отдельные слова (существительные, прилагательные, глаголы, наречия), словосочетания, лексически весомые компоненты сложных слов, аббревиатуры, сокращения слов и словосочетаний.

В тезаурусах различные формы лексических единиц приводятся к каноническим формам, им приписываются указатели, в соответствии с которыми определяются такие основные виды ссылок, как смотри USE, синоним UF (used for), выше (выше – род) ВТ (broader term), ниже (ниже – часть) NТ (narrower term), ассоциация (related term).

Процесс построения тезауруса проходит этапы предварительного отбора лексических единиц (составление списков ключевых слов, словников), построения классов условной эквивалентности (для устранения синонимии, полисемии и омонимии и перехода к дескрипторному информационно-поисковому языку (ДИПЯ), т. е., приведения лексических единиц к заданной стандартной форме), установления заданных семантических отношений [8].

При формировании поискового индекса системы на основе тезауруса каждое слово из документов, входящих в базу данных ИПС, анализируется на вхождение в тезаурус.

Использование тезаурусов является одним из способов повышения качества (точности/полноты), а также удобства поиска: выполняются автоматические и полуавтоматические операции с запросами (модификация, расширение, изменение весов терминов). При этом тезаурусы могут быть построены как автоматически, на основе анализа совместной встречаемости слов, так и вручную.

Основной тенденцией создания тезаурусов является использование специального программного обеспечения для их формирования, которое для русскоязычных тезаурусов активно разрабатывается и внедряется.

При этом отметим, что подход, основанный на принципе автоматического построения поискового индекса системы на основе входящих в документальный массив слов и не предполагающий использование тезауруса в ИПС, считается предпочтительным. Думается, это было оправдано на начальном этапе развития полнотекстовых ИПС, поскольку хранение тезаурусов требовало значительных объемов памяти ЭВМ. В настоящее время проблема хранения информации большого объема решена, что делает возможным иметь тезаурусы любого объема и позволяет предположить, что в перспективе ИПС с тезаурусами займут ведущее положение.

Автоматизация деятельности системы органов внутренних дел, в которой существует специфическая предметная область понятий, в частности автоматизация оперативного управления органами внутренних дел, обеспечение деятельности дежурных частей и оперативных штабов, может предполагать создание специализированных тезаурусов для реализации возможности интеграции соответствующих информационноаналитических систем.

Внедрение Единой многоуровневой автоматизированной системы сбора и предоставления информации в дежурную часть МВД России (ЕМАС ДЧ) и Единой автоматизированной системы дежурных частей органов внутренних дел Российской Федерации (ЕАИС ДЧ) [1, 2] предваряют создание автоматизированной системы управления (АСУ) силами и средствами МВД России на всех уровнях: от горрайлиноргана до Министерства. Это потребует унификации лексических конструкций для использования в качестве команд управления и обмена данными. Путь решения проблем видится в разработке русскоязычного тезауруса оперативного управления органами внутренних дел, отражающего данную предметную область в соответствии с законодательством Российской Федерации, регулирующим этот вид деятельности, нормативными актами МВД России, государственными стандартами, действующими классификаторами, принятыми в системе дежурных частей органов внутренних дел. Это позволит привести в единую систему понятийно-терминологический аппарат данной предметной области, определить логико-семантические отношения между основными терминами и устранить выявленные противоречия и неясности, что в итоге должно дать возможность внедрить автоматизированные системы управления с использованием современных информационно-телекоммуникационных технологий, без которых невозможно качественно повысить эффективность оперативного управления.

Список литературы

  1. Об утверждении временной инструкции о порядке формирования, ведения и использовании базы данных Единой многоуровневой автоматизированной системы сбора и предоставления информации в дежурную часть МВД России: Приказ МВД России от 28 февраля 2008 г. № 185.
  2. О вводе в эксплуатацию Единой информационной автоматизированной системы дежурных частей органов внутренних дел Российской Федерации: Приказ МВД России от 27 августа 2009 г. № 661.
  3. ГОСТ 7.49–84. Система стандартов по библиотечному и издательскому делу. Рубрикатор ГАСНТИ. Структура, правила использования и ведения. — М., 1984.
  4. ГОСТ 7.25—2001. Межгосударственный стандарт. Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления. — М., 2001.
  5. ГОСТ 7.24—2007. Межгосударственный стандарт. Тезаурус информационно-поисковый многоязычный. Состав, структура и основные требования к построению. — М., 2007.
  6. Мамедова М.Г-К. Автоматизированный отбор лексики в информационно-поисковый тезаурус на основе анализа терминологических словарей: автореф. дис. канд. техн. наук. — Киев, 1983.
  7. Олифер В., Олифер Н. Основы компьютерных сетей. — СПб., 2009.
  8. Романова Е. Разработка системы информационно-лингвистического обеспечения электронной коммерции: автореф. дис. ... канд. эконом. наук. — М., 2006.
  9. Финам — [Электронный ресурс]. — Режим доступа: http://www.finam.ru/
На верх