Назад в библиотеку

Методы создания семантических метаописаний документов с применением семантических сетей, фреймовых моделей и частотных характеристик

Авторы: Губин М.Ю., Разин В.В., Тузовский А.Ф.
Источник: Доклады ТУСУРа, № 2 (22), часть 2, декабрь 2010.

Аннотация

Губин М.Ю., Разин В.В., Тузовский А.Ф. Методы создания семантических метаописаний документов с применением семантических сетей, фреймовых моделей и частотных характеристик. Сформулирован метод создания семантических метаописаний документов с помощью семантических сетей, фреймовых моделей и частотных характеристик анализируемых документов.

Введение

Естественные человеческие языки обладают большой выразительностью и сложностью, существенное влияние на смысл текста в них оказывают контекст и эмоциональная со ставляющая. Понимание естественного языка включает куда больше, чем разбор пред ложений на индивидуальные части речи и поиск значений слов в словаре. Оно базируется на обширном фоновом знании о предмете, идиомах, используемых в этой области, а также на способности применять общее контекстуальное знание для понимания недомол вок и неясностей, присущих естественной человеческой речи. Поэтому системы, исполь зующие натуральные языки с гибкостью и общностью, характерными для человеческой речи, лежат за пределами существующих методологий [1]. Однако для определённых условий (когда документ имеет достаточно строгую грамматическую структуру, а следо вательно, и содержит достаточно информативную формальную составляющую) данная задача решаема с достаточно высоким качеством распознавания смысла [1]. В этой статье будут описаны условия, выполнение которых необходимо для успешного распознавания, и предлагаемый алгоритм.

Постановка задачи

Данный алгоритм решает задачу создания метаописаний документов для последую щего семантического поиска по ним на данном множестве документов Di, относящихся к одной предметной области. Под документом Di в рамках данного исследования будем понимать фрагмент текста на естественном языке.

Для реализации семантического поиска по документам необходимо создать достаточ но полные семантические метаописания документов Ti. Семантическое метаописание документа строится согласно онтологии предметной об ласти O, представляющей собой набор понятий Ci, связанных между собой отношения ми Ri. Также в онтологию предметной области входят экземпляры объектов Ei. Понятия, отношения и экземпляры имеют одну или более текстовых меток Ti. Текстовая метка Ti элемента онтологии — слово либо словосочетание естественного русского языка, соответ ствующее некоторому элементу онтологии.

Для построения базового семантического метаописания на основе текста документа для каждого его предложения Li формируется семантическая сеть, представляющая со бой граф, состоящий из множества вершин Wi и соединяющих их рёбер Li. Элементарная сеть представляет результат синтаксического анализа и дополнительных семантических трансформаций дерева синтаксических зависимостей между словами в отдельном пред ложении. Вершинами Wi семантической сети являются сущности, встречающиеся в предложении, а рёбра Li представляют собой семантические отношения между сущно стями. Семантические сети предполагается получать из результатов синтаксического раз бора текстов на естественных языках. Задача синтаксического разбора текстов на данный момент в различной степени решена для русского [6, 7] и английского [35] языков. Так же существуют работы по синтаксическому разбору текстов на французском, норвежском, корейском и греческом [4], а также испанском и японском [4, 5] языках. В данной работе рассматривается частный случай с русским языком.

Программный интерфейс большинства существующих семантических анализаторов позволяет получить для каждой сущности набор направленных связей, исходящих от нее к другим сущностям. Направление связи обычно соответствует направлению синтаксиче ского подчинения (для равноправных однородных членов предложения пара одинаковых направленных связей идет в обе стороны). Семантические сети, соответствующие описан ным выше критериям, могут быть использованы в разрабатываемом алгоритме с незна чительными преобразованиями.

Семантическое метаописание — это набор извлечённых из предложений документа RDF&ndsp;триплетов Ti, представляющих собой кортежи вида < Si,Pi,Oi >, где Si включен в объединение Ci и Ei, Pi включен в Ri, а Oi включен в объединение Ci и Ei.

Также для ускорения актуализации метаданных алгоритмом генерируются частотные характеристики слов в документе — TF–p; и IDF–терминов [8].

Алгоритм формирования метаданных отдельного документа

На вход алгоритма поступает исходный текст файла, а также набор текстовых меток элементов онтологии.

Шаги алгоритма:

Производится семантический анализ текста. Выходом этого шага является про граммная структура, содержащая всю требуемую информацию о тексте — слова с номером их начальных символов, смысловые связи между словами, обнаруженные и преобразованные в RDF триплеты (части предложений, соответствующие одному из описанных выше фреймов). Эта программная структура приводится к семантической сети, пригодной для обработки алгоритмом.

Подсчитывается количество вхождений слов в текст. При этом не учитываются так называемые «стоп&ndsp;слова». Стоп&ndsp;словами являются предлоги, союзы и частицы. Осталь ные слова нормализуются и количество вхождений подсчитывается именно для нормы слова.

Составляется ранговое распределение слов в документе. Слова с одинаковым количе ством вхождений объединяются в классы, которые затем нумеруются в порядке убыва ния количества вхождений слов&ndsp;членов класса в тексте, начиная с 1 [8]. Производится поиск класса, слова в котором являются значимыми для текста, с наибольшим номером. Все классы, идущие после него, отсеиваются и в дальнейшей ра боте алгоритма не участвуют. [8]

Выставляется первичное значение «веса» слов в документе. Оно равняется Nmax/Ni, где Nmax — количество вхождений слов первого ранга, а Ni — количество вхождений слова ti [8].

Производятся корректировки значений весов для упорядоченных пар слов, входящих в одни и те же триплеты либо предложения. Из множества выделенных из текста RDF&ndsp;триплетов выбираются:

  1. Триплеты, каждая из позиций которых (субъект, предикат и объект) заняты в естественно&ndsp;языковом представлении вхождением метки (соответственно, субъект и объ ект — метками понятия либо экземпляра, а предикат — меткой свойства);
  2. Триплеты, одна из позиций которых занята вхождением ключевого слова, а две других — вхождением метки, так называемые триплеты&ndsp;«кандидаты».

Выход алгоритма — метаописание документа, в которое входит набор записей вида < Ei,Si >, где Ei — идентификатор элемента онтологии (так называемый URI — Universal Resource Identifier), а Si — индекс значимости этого элемента для документа. При этом Si имеет вид Si = < SiTF, SiIDF,SiC >, где SiTF — коэффициент значимости элемента с точки зрения документа (модифицированный коэффициент TF), SiIDF — коэффициент значимо сти элемента с точки зрения набора документов (коэффициент IDF); SiC — итоговое зна чение коэффициента значимости термина. В метаописание также входят все обнаружен ные в тексте триплеты, все позиции которых заняты вхождениями меток элементов онтологии.

Кроме того, по завершении работы алгоритм генерирует набор вспомогательных за писей, уменьшающих время возможной последующей повторной обработки документа. Результаты работы алгоритма — семантические метаописания, которые позволяют реализовать семантический поиск и семантическую навигацию по обработанному множе ству текстов. Качество распознавания находится на уровне примерно 60% от распознава ния человеком, в зависимости от полноты онтологии предметной области и глубины анализа текста.

Список использованной литературы

1. Люгер Д.Ф. Искусственный интеллект: стратегии и методы решения сложных проблем. — 4&ndsp;е изд. — М.: Вильямс, 2003. — 864 с.
2. Хорошилов А.А. Компьютерная лингвистика и перспективные информационные технологии: теория и практика / А.А. Хорошилов, Г.Г. Белоногов, Ю.П. Калинин // НТИ. Сер. 2. Информ. процессы и системы / ВИНИТИ. — 2004. — № 8. — С. 30—43.
3. Poon H., Domingos P. Unsupervised semantic parsing. ACL Anthology. A Digital Archive of Research Papers in Computational Linguistics [Электронный ресурс]. — Режим доступа: www.aclweb.org.
4. Deep linguistic processing with hpsg [Электронный ресурс]. — Режим доступа: http://www.delph-in.net
5. Сайт лаборатории speech technology копрорации microsoft [Электронный ресурс]. — Режим доступа: research.microsoft.com
6. Сайт рабочей группы «Автоматическая обработка текстов» [Электронный ресурс]. — Режим доступа: http://aot.ru/
7. Сайт компании RCO [Электронный ресурс]. — Режим доступа: http://www.rco.ru
8. Roelleke T. TF&ndsp;IDF uncovered: a study of theories and probabilities / T. Roelleke, J. Wang // Proceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval (Singapore, July 20 — 24, 2008). — New York: SIGIR’08. ACM, 2008. — P. 435—442.