М.В. Карасева, П.В. Зеленков - Реализация модуля поиска информации на основе использования мультилингвистических тезаурусов

Автор: М.В. Карасева, П.В. Зеленков
Источник: Вестник Сибирского государственного университета науки и технологий имени академика М. Ф. Решетнева — с. 54–56.

Аннотация

М.В. Карасева, П.В. Зеленков. Реализация модуля поиска информации на основе использования мультилингвистических тезаурусов. Предложен модуль поиска, ранжирования и определения уровня релевантности документов путем использования метапоисковых мультилингвистических алгоритмов обработки информации и управления.

В настоящее время разработано множество моделей и алгоритмов для представления информации в распределенных информационных системах. Частным случаем подобных систем являются информационно-управляющие системы, корпоративные информационные системы и интенсивно развивающиеся системы поддержки принятия решения. Однако большинство моделей распределенных систем строятся на основе одноязычного представления информации или учитывают многоязычность неявно [1].

Сейчас активно ведутся работы по созданию новых алгоритмов поиска, ранжирования и определения релевантности информации как в глобальной сети Интернет, так и во всевозможных локальных информационно-управляющих системах. Одним из перспективных направлений при разработке новых моделей и алгоритмов обработки информации является применение предметных словарей, или тезаурусов. Тезаурус — это максимально полный объем лексики, организованной по тематическому (семантическому) принципу с отражением определенного набора базовых семантических отношений, являющихся полным систематизированным набором данных о какой-либо области знаний, который позволяет человеку или вычислительной машине в ней ориентироваться. Необходимо отметить, что в современных системах подобные словаритезаурусы очень редко встречаются представленными в мультилингвистической частотной реализации. Авторами статьи в рамках предлагаемых ими моделей применяются тезаурусы, выполненные на основе мультилингвистической технологии для проведения поисковой процедуры в информационных системах.

Данный подход направлен в первую очередь на решение проблемы многоязычного представления информации в информационно-управляющих системах. В современных условиях даже небольшие корпоративные информационные системы работают в мультилингвистическом режиме. Нередко управленческому персоналу в процессе подготовки и принятия решения требуется своевременное предоставление документов, принадлежащих различным языковым множествам. Значительно возрастают требования к оперативности и качеству функционирования систем поиска мультилингвистической информации, используемых лицом, принимающим решение, в различных ситуациях.

В рамках предлагаемого авторами модуля основная работа по процессу поиска, ранжирования и определению уровня релевантности производится путем использования метапоисковых мультилингвистических алгоритмов обработки информации и управления [2]. Для этого сначала следует определить параметры процесса поиска. К ним относятся функции выбора предметной области и настройки языковых множеств, в рамках которых необходимо производить поиск.

Кроме того, необходимо отдельно показать возможность работы со строкой поиска информации как в Интернете, так и в корпоративной сети. Согласно предлагаемому авторами подходу, работа с поисковой строкой может проводиться в двух режимах:

режиме ручного ввода строки поиска;
режиме автоматизированного формирования строки поиска.

При вводе строки поиска в ручном режиме система проверяет наличие введенных термов в частотном мультилингвистическом тезаурусе. В случае отсутствия терма в словаре пользователю предлагается ввести поисковую строку с изменением термов в строке поиска.

Процесс формирования запроса по заданной предметной области при вводе строки поиска в автоматическом режиме [3], рассмотрим более подробно. Модуль поиска информации основан на применении частотных мультилигнвистических тезаурусов, которые повышают качество определения релевантности документов по запросам. Эти тезаурусы позволяют выделить направленность документа, вплоть до нахождения предметной области, к которой принадлежит документ. Качество определения уровня релевантности в предлагаемом решении соответствует уровню релевантности в каталожных системах ручной индексации [1]. Исходя из частотных характеристик терминов можно по заданному алгоритму сформировать поисковую строку, корректируемую пользователем или дополняемую им при необходимости.

Следует отметить, что в современных корпоративных информационных систем может храниться и мультилингвистическая информация. Однако пользователь поискового модуля не может знать всех языков, представленных в сети. Поэтому нужно учитывать конкретность указания языковых множеств, необходимых пользователю.

После завершения процесса формирования поисковой строки и указания языков, в которых будет проходить поиск информации, необходимо приступать непосредственно к процедуре поиска [3]. В результате происходит последовательный опрос всех информационных корпоративных ресурсов и формируется массив ссылок на интересующие пользователя документы, а также проводится разбиение всего множества ссылок по принципу принадлежности к языковому множеству.

Кроме того, пользователь может увидеть следующую дополнительную информацию, которая учитывается при ранжировании документов и определении уровня релевантности каждого найденного документа:

заголовок документа;
объем документа;
количество найденных термов в документе.

Это является первым шагом обработки процедуры поиска.

На втором шаге происходит определение уровня релевантности и ранжирование мультилингвистического массива ссылок. Здесь пользователю предоставляется дополнительная информация уже другого рода:

об уровне релевантности найденного документа;
общем весе релевантных термов в документе.

Третий шаг — это непосредственный просмотр найденных документов. На данном шаге можно не только просмотреть документ, но и получить о нем расширенную информацию, представленную, например, в виде таблицы, составленной при завершении процесса обработки англоязычного документа:

Термин	Частота	Вес терма в документе	Вес терма в тезаурусе
...	...	...	...
activity	8	0,002	0,000 008 17
process	3	0,000 9	0,000 010 8
search	1	0,000 01	0,000 001 76
...	...	...	...

Эти характеристики важны при расчете уровня релевантности и ранжирования найденных документов [2]. Рассмотрим структуру данной таблицы:

термин — список терминов, которые встретились в тезаурусе и документе;
частота показывает, сколько раз данный термин встретился в документе;
вес терма в документе рассчитывается относительно частоты терма и общего количества термов в документ;
вес терма в тезаурусе рассчитывается как отношение частотной характеристики терма в словаре к общей суммарной частотной характеристике всех термов словаря.

Предлагаемый авторами модуль поиска и обработки информации в корпоративных системах поддержки принятия решений полностью удовлетворяет требованиям к системам подобного уровня и позволяет решить проблему организации, хранения и обработки информации в современных распределенных мультилингвистических корпоративных системах поддержки принятия решений.

Реализация метапоисковых принципов способствует охвату индексов самых популярных поисковых веб-служб, при этом сокращается объем нерелевантных ссылок в результатах поиска, существенно повышается качество обработки запросов пользователя и уменьшается объем трафика при формировании собственной базы релевантных документов.

Кроме того, представленные мультилингвистические модели позволяют составить более гибкие мультилингвистические ответы даже на одноязычные запросы по сравнению с простой распределенно-информационной системой, с учетом неопределенности описания как мультилингвистических документов, так и запросов.

Библиографический список

Зеленков П.В. Мультилингвистическая модель распределенной системы на основе тезауруса / П.В. Зеленков, И.В. Ковалев, М.В. Карасева, С.В. Рогов // Вестник СибГАУ. 2008. № 1 (18). с. 26–27.
Метапоисковая мультилингвистическая система поиска узкоспециализированной информации / И.Н. Карцан, П.В. Зеленков, Д.А. Рагзин и др. М., 2007. Зарег. во Всерос. научн.-техн. информ. центре, № 50200701673, рег. № ОФАП 8891.
Зеленков П.В. Проблема развития метапоисковых технологий / П.В. Зеленков, Т.А. Ковалева // Вестник НИИ СУВПТ : сб. науч. тр.: НИИ систем упр., волновых процессов и технологий. Вып. 14. Красноярск, 2004. с. 95–103.