Автоматическое выделение терминов из текстов предметных областей и установление связей между ними

Новикова Д.С.

Российский университет дружбы народов, dsnovikova@rambler.ru

В настоящей работе приведен краткий обзор наиболее интересных подходов и методов в области автоматического выделения терминов.

Ключевые слова: TF-IDF метод, MI метод, шаблоны терминов, семантический граф терминов.

 

Авторы: Новикова Д.С.

Источник: http://conf.sci.pfu.edu.ru/index.php/ittmm/2012/paper/view/245

Введение

В настоящее время задача автоматической аналитической обработки больших объёмов текстовой информации вызывает интерес у различных исследователей. В этой области существует ряд задач, качество решения которых может быть повышено за счёт разработки более детализированных моделей естественного языка. К таковым относится задача автоматического выделения терминологии предметных областей из текстов. Её качественное решение важно для аналитического информационного поиска, классификации и машинного "понимания" текстов. Важной составляющей решения вышеперечисленных задач являются тезаурусы и онтологии - модели предметных областей. В настоящее время они строятся вручную экспертами. Для автоматизации процесса построения онтологий и тезаурусов в настоящей работе предлагается подход, основанный на выделении устойчивых терминов и установлении связей между ними путём анализа корпусов предметно-ориентированных текстов.

Методы

Под терминологией в дальнейшем мы будем понимать, во-первых, множество слов и/или словосочетаний, обозначающих понятия некоторой предметной области, принадлежащие уже к сложившейся терминологической системе и зафиксированные в соответствующем терминологическом словаре, во-вторых, множество ключевых слов, выступающих в качестве "информационного портрета" текста.

Рассмотрим два основных подхода к автоматическому выделению терминов.

Статические методы

Первый подход относится к области статической обработки естественного языка. Классическими подходами в этой области считаются метод TF-IDF, используемый для выделения ключевых слов, и анализ коллокаций – для выделения словосочетаний.

TF-IDF (term frequency-invert document frequency) - статическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса. В результате его применения больший вес получат слова с высокой частотой в пределах конкретного документа и с низкой частотой употребления в других документах.

Для выделения многословных терминов используется анализ коллокаций, где коллокация – словосочетание, состоящее из двух или более слов, имеющее признаки синтаксически и семантически целостной единицы, в котором выбор одного из компонентов осуществляется по смыслу, а выбор второго зависит от выбора первого. В отличие от свободного словосочетания, коллокация определяет, какие слова могут быть использованы вместе.

Коллокации выявляются при лексическом анализе текста. Для этого используются различные меры ассоциативной связи, которые оценивают, является ли взаимное появление лексических единиц случайным, или оно статически значимо.

Чаще всего для выделения коллокаций, особенно терминологических, применяется мера MI [1]. Основным недостатком этой меры является тот факт, что она является чувствительной к величине корпуса и завышает значимость редких словосочетаний, что приводит к тому, что ее значение будет велико в случае опечаток, иностранных слов и другого информационного шума, который неизбежен в большой коллекции. Один из вариантов нивелирования данного недостатка - использование порога по частоте.

Основная модификация методов, основанных на статическом подходе, заключается в предварительном использовании морфологических шаблонов фильтров [2],[3].

 

Шаблон

Пример

[сущ.+прил.(Р.п.)+сущ.(Р.п.)]

словарь иностранных слов

[прил.+прил.+сущ.]

тепловая импульсная сварка

[прил.+сущ.+сущ.(Р.п.)]

автоматическая обработка текстов

[сущ.+сущ.(Р.п.)+сущ.(Р.п.)]

методы нанесения покрытий

[прил.+сущ.]

файловая система

[прич.+сущ.]

вытесняющая многозадачность

[сущ.+сущ.(Р.п.)]

менеджер памяти

[сущ.+сущ.(Т.п.)]

управление ресурсами

[сущ.+’-‘+сущ.]

файл-сервер

 

Семантические методы

Второй подход опирается на семантическую близость терминов, которая определяется разными способами: для английского языка при помощи семантической сети WordNet, для других языков – при помощи аналогичных ресурсов, например, в частности, для русского языка – при помощи RussNet, РуТез [4] и др. 

Рассмотрим один из методов данной группы [5]. Рассматриваемый метод состоит из пяти шагов.

Целью первого шага является извлечение всех терминов документа и подготовка для каждого термина набора статей какого-либо тезауруса или, например, Википедии, как крупномасштабной и постоянно обновляемой миллионами людей энциклопедии, покрывающей много специфических областей знаний. Также на этом шаге строятся различные морфологические варианты для каждого термина, что позволяет расширить границы поиска по статьям.

На втором шаге для каждого термина выбирается наиболее подходящая статья из всех найденных на предыдущем шаге. Это задача решается, например, при помощи определения контекста слова. Результатом работы данного шага является список терминов, в котором каждый соотнесен с одной статьей.

На третьем шаге строится семантический граф - взвешенный граф, вершинами которого являются термины документа, наличие ребра между двумя вершинами свидетельствует о том, что термины семантически связаны между собой, вес ребра является численным значением семантической близости двух терминов. При этом термины-ошибки, возникшие при разрешении лексической многозначности, оказываются периферийными или даже изолированными.

На четвертом шаге происходит обнаружение сообществ в построенном графе. Это осуществляется, например, при помощи алгоритма Гирвана-Ньюмана, разбивающего граф на подграфы. Для оценки разбиения используется мера модулярности графа, которая является мерой того, насколько разбиение качественно, т.е. существует много ребер внутри сообщества и мало вне его.      

На пятом шаге выбираются те сообщества, которые содержат ключевые термины. Ранжирование основано на использовании плотности и информативности сообщества, где плотность определяется суммой весов ребер сообщества, а информативность – суммой TF-IDF терминов сообщества, деленной на количество терминов сообщества.  

Выводы

Преимуществами статических методов являются простота реализации и удовлетворительное качество работы, когда обучающее множество – коллекция документов для сборки статистики – удачно подобрано, недостатком - зависимость работы методов от обучающего множества. Преимуществами семантических методов, во-первых, является то, что эти методы не требуют обучения, что важно, если нет достаточно качественной обучающей коллекции. Во-вторых, они позволяют группировать термины в семантически близкие сообщества и устанавливать связи между ними, что необходимо при решении задач интеллектуального индексирования и поиска. К недостаткам относится сложность снятия омонимии и  установления отношений между терминами, связанная со сложной структурой естественных языков, что зачастую является главной причиной лишь незначительного повышения эффективности поиска. Таким образом, заключаем, что наиболее разумным решением будет комбинирование методов различной природы. Поиск наиболее удачного сочетания имеющихся в настоящий момент ресурсов и методов – экспериментальная задача на будущее, представляющая особый интерес для автора.

Литература

1.  Ягунова Е.В., Пивоварова Л.М. Природа коллокаций в русском языке. Опыт автоматического извлечения и классификации на материале новостных текстов, 2010. -http://webground.su/services.php?param=priroda_collac&part=priroda_collac.htm

2.  Добров Б.В., Лукашевич Н.В., Сыромятников С.В. Формирование базы терминологических словосочетаний по текстам предметной области, 2003. - http://www.cir.ru/docs/ips/publications/2003_rcdl_thes_creation.pdf

3.  Браславский П.И., Соколов Е.А. Автоматическое извлечение терминологии с использованием поисковых машин интернета, 2007. http://www.dialog-21.ru/digests/dialog2007/materials/html/14.htm

4.  Добров Б.В., Лукашевич Н.В. Тезаурус РуТез как ресурс для решения задач информационного поиска, 2009. http://math.nsc.ru/conference/zont09/reports/93Dobrov-Lukashevich.pdf      

5.  Гринева М., Гринев М. Анализ текстовых документов для извлечения тематически сгруппированных ключевых терминов, 2009. - http://citforum.ru/database/articles/kw_extraction/

 

Automatic term Extraction FROM TEXTES on subject fields and establishing relations between them

Novikova D.S.

Russian University of People’s Friendship, dsnovikova@rambler.ru

 

This research is a review of the most interesting and effective methods of terms’ extraction.

Key words: TF-IDF, MI, term pattern, semantic graph of terms