Назад в библиотеку

Автоматизированная система поиска и реферирования научно-технической информации в многоязычной среде

Авторы: Липницкий С.Ф., Мамчич А.А., Степура Л.В.
Источник: Материалы IХ Международной конференции «Развитие информатизации и государственной системы научно-технической информации» (РИНТИ-2010) – Минск: ОИПИ НАН Беларуси, 2010. – С. 327–239.

Аннотация

Липницкий С.Ф., Мамчич А.А., Степура Л.В. Автоматизированная система поиска и реферирования научно-технической информации в многоязычной среде. Предложена математическая модель процессов поиска и реферирования научно-технической информации на основе тематических корпусов текстов, т. е. совокупностей текстовых документов по конкретным предметным областям. Рассмотрены основные задачи поиска и реферирования, а также подходы к их решению.


Автоматизированная система поиска и реферирования научно-технической информации предназначена для обработки текстовых документов из различных источников (Интернет, локальная сеть, жесткие диски отдельных компьютеров пользователей). В основе механизма функционирования системы лежат интеллектуальные алгоритмы анализа документов, в которых учитываются характеристики не только самих текстов, но и знания о предметной области, формируемые на основе тематических корпусов текстов (коллекций неструктурированных текстовых документов по конкретной тематике). Объем тематического корпуса для каждой предметной области и каждого языка – порядка 1000 полнотекстовых документов.

Функциональными компонентами информационной системы являются три подсистемы:

Предложенный авторами метод поиска и аналитической обработки научно-технической информации обеспечивает работу системы в многоязычной среде. Адаптация программного комплекса к новому входному языку не требует доработки и корректировки программ. Необходимо лишь сформировать в базе данных корпус текстов на этом языке. Процедуры создания словарей базы знаний реализуются в автоматизированном режиме. В настоящее время пользователи системы могут работать на русском, белорусском и английском языках.

Задачи создания и использования корпусов текстов решаются в рамках специального раздела языкознания – кoрпусной лингвистики. Под корпусом текстов понимают совокупность документов, накопленных и размеченных по определенным принципам в зависимости от назначения. В случае отсутствия разметки эти совокупности называют корпусами текстов первого порядка. Различают тематические корпусы текстов (наборы текстов по предметным областям) и полные корпусы текстов, каждый из которых объединяет все тематические корпусы на данном входном языке. Для каждого языка (например, русского, белорусского, английского) создается свой полный корпус текстов.

С использованием корпусов текстов в системе создаются следующие словари базы знаний:

Словари словоформ и парадигм.В словаре словоформ каждой словоформе поставлены в соответствие частота в полном корпусе текстов, частоты во всех тематических корпусах текстов и номер (код) парадигмы. В первоначальном состоянии каждая словоформа словаря образует отдельную парадигму. После объединения некоторых (или всех) словоформ в словоизменительные парадигмы словоформам присваивается номер парадигмы, элементом которой эта словоформа является. Словарь парадигм служит для поиска всех словоформ парадигмы после нахождения словоформы и ее кода в словаре словоформ. Процедура поиска используется при вычислении информативности слов. Создается и актуализируется словарь парадигм в человеко-машинном режиме с использованием соответствующего инструментария. В первоначальном варианте каждая парадигма словаря парадигм содержитодну-единственную словоформу для каждого кода словоформы. После формирования парадигм коды меняются.

Словарь синонимичных словоформ. Словарь состоит из групп синонимичных словоформ, которые могут быть использованы при определении их информативности (две синонимичные словоформы считаются двумя вхождениями лексемы в текст документа). На первоначальном этапе информационная система может работать без сформированных словарей парадигм и синонимичных словоформ (т. е. с «пустыми» словарями).

Ситуативный словарь. Каждая статья словаря содержит пару информативных словоформ полного корпуса текстов, которой поставлена в соответствие информативность их ситуативной связи, превышающая некоторое пороговое значение (уровень ситуативной связи). Этот уровень задается в качестве параметра при настройке системы.

Рассмотрим принципы функционирования основных подсистем рассматриваемой системы.

Индексирование полнотекстовых документов и кратких сообщений. Целью индексирования текста является приписывание ему совокупности поисковых признаков с их весами (вес – это информативность поискового признака). При индексировании полнотекстовых документов используются абсолютные частоты слов в документе и в полном корпусе текстов. При этом частота слова – это сумма частот всех словоформ, встречающихся в документе (или в корпусе текстов) и являющихся словоизменениями исходной словоформы или ее синонимами, зафиксированными в словаре словоизменительных парадигм и в словаре синонимичных словоформ.

Краткое сообщение – это текстовый документ, объем которого не позволяет выявить статистические характеристики его словоформ. Для индексирования краткого сообщения используется релевантный ему тематический или динамический (создаваемый оперативно) корпус текстов. Поисковым образом краткого сообщения считается поисковый образ найденного релевантного тематического корпуса текстов, из которого исключены все словоформы, не содержащиеся в кратком сообщении (с учетом словоизменения и синонимии).

Поиск текстовых документов. Процесс поиска информации заключается в сравнении запросов пользователей с поисковыми образами проиндексированных документов. Поиску предшествует автоматическая коррекция запроса с целью адаптации системы к информационным потребностям пользователя. Коррекция реализуется следующим образом: на основе первоначального запроса создается динамический корпус текстов как подмножество полного корпуса; документы из динамического корпуса предъявляются пользователю, который исключает из него все непертинентные тексты; полученное в результате множество считается уточненным динамическим корпусом, на основе которого путем его индексирования формируется уточненное поисковое предписание. Процедура оценки пользователем пертинентности текстов может не проводиться. В этом случае для создания уточненного запроса используется исходный динамический корпус текстов.

Реферирование текстовых документов. Процесс реферирования текстов включает следующие основные этапы: вычисление информативности слов и предложений реферируемого документа; разбиение текста на монотематические фрагменты и установление ситуативных связей между ними; вычисление информативности монотематических фрагментов; синтез реферата. Реферат строится из информативных предложений путем поиска релевантной информации в специальной системе словарей и последующего синтеза выходного текста. Алгоритм реферирования функционирует следующим образом.

Лингвистический процессор проводит синтаксический анализ реферируемого текста. В результате получаем упорядоченную совокупность синтаксических деревьев всех его предложений. Далее статистический анализатор определяет информативность каждого слова, т. е. эмпирическую вероятность того, что это слово извлечено из тематического корпуса текстов при условии, что оно уже извлечено из полного. Из полученной на этом шаге алгоритма совокупности синтаксических деревьев последовательно исключаются деревья (в порядке возрастания информативности слов) до получения требуемого объема будущего реферата. За информативность синтаксического дерева принимается максимальный из показателей информативности его слов. Далее из каждого оставшегося синтаксического дерева удаляются их неинформативные висячие поддеревья. Заключительными шагами алгоритма реферирования являются поиск в базе знаний адекватного синтаксического шаблона реферата, заполнение его слотов полученными на предыдущем шаге синтаксическими деревьями и синтез реферата на выходном языке.

Разработанный программный комплекс может быть использован в библиотеках, в информационно-аналитических отделах различных служб и организаций, которые осуществляют оперативный сбор и аналитическую обработку текстовых документов по различным предметным областям в Интернете, локальных сетях и на жестких или съемных дисках отдельных компьютеров. Программный комплекс обеспечивает поддержку наиболее распространенных форматов представления текстовых документов (html, shtml, doc, rtf, docx, pdf, txt) с возможностью подключения дополнительных форматов, таких как ppt, xls, wpd, hlp, odt и xml.