Дорохина Г. В.*, Гнитько Д. С.**

Науч. руководитель к.т.н. Ермоленко Т.В.

*Институт проблем искусственного интеллекта

МОНМС Украины и НАН Украины

**Государственный университет информатики и искусственного интеллекта

Автоматическое выделение синтаксически связанных слов простого распространенного неосложненного предложения


Автоматическое выделения связанных по смыслу слов предложения применимо в задачах построения онтологий, словарей сочетаемости, извлечения знаний из текстов. В связной речи грамматическим выражением структурно-смысловых отношений является синтаксическая связь [1]. Трудность выделения синтаксических связей в предложе­нии связана с характерным для русского языка свободным порядком слов и явлением омонимии на морфологическом и более высоких уровнях. Поэтому данную задачу обычно решают на основе статистических методов. В Украине средства автоматического анализа текста на основе линг­вистических методов развиты недостаточно, что указывает на актуальность работы.

Объект исследования – простое распространенное неос­ложненное предложение русского языка.

Предмет исследования – методы автоматического выделе­ния синтаксически связанных слов в предложении.

Цель работы – разработка методики автоматического вы­деления синтаксически свя­занных слов простого распро­страненного неосложненного предложения.

Данное исследование является развитием работы [2]. В нем использован перечень минимальных структурных схем (МСС) простых предложений [3].

Разработанная методика состоит из четырех этапов.

На первом этапе проводим морфологический анализ слово­форм предложения. В результате предложение из N слово­форм представляется вектором S = (s1,..., si,..., sN). Здесь iномер словоформы в предложении, siмножество вариан­тов интерпретации i-ой словоформы: , где , j вариант написания леммы, а j вариант морфологической информации.

На втором этапе выполняем поиск пар потенциально свя­занных вариантов интерпретации словоформ, для чего вво­дим отношение η(x,y,t). Оно принимает значение 1, если между вариантами интерпретации пары словоформ и , возможна синтаксическая связь типа . Причем xглавное слово, y – зависимое, а T – множество типов связей, объединяющее множество связей между главными членами предложения Tm и множество связей со второстепенными членами предложения Ta (управление, согласование, примыкание). Элементы множества Tm ис­пользованы для задания шаблонов МСС h={t},.

Множество троек (x,y,t), для которых η (x,y,t)=1, обозначим через R. Множество первых компонент этих троек (главных слов) обозначим через A, множество вторых компонент (зависимых слов) обозначим через B.

На третьем этапе для сокращения количества вариантов интерпретаций словоформ формируем вектор S':

S' =(s'1, ..., s'i, ..., s'N),

.

S' описывает множество D возможных морфологических разметок предложения (МРП):

D=s'1... s'i... s'N,

D={dk : dk=}.

Для анализа каждой k-й МРП ведем обозначения:

,

,

Пусть Pr – множество предлогов русского языка.

В ряде МРП dk присутствуют словоформы, не связанные с другими словоформами предложения. Также могут при­сутствовать dk, у которых предлоги не входят во множе­ство главных слов A. Такие МРП нужно исключить. Даль­нейшему рассмотрению подлежат элементы dk множества D, для которых справедливо:

,

,

.

Переходим к четвертому этапувыбору допустимых свя­зей между словами. Пара (Fk, Rk) описывает орграф, в кото­ром Fk множество вершин, а связи являются именованными ребрами из вершины x в вершину y с име­нем t. Подграфы этого графа возможно являются деревья­ми. Не все они являются деревьями синтаксического под­чинения (ДСП). Принимать решение о корректности МРП и допустимости отдельных связей из множества Rk будем, исходя из критериев:

Анализируем соответствие Rk шаблону МСС h. Для этого введем множество Rm={Rmi}, где RmiRk одного типа, причем этот тип входит в шаблон h:

.

При |Rm|<|h| предложение не соответствует h.

Введем RM={rmv}, где RM Rm1...Rmi... Rml и

rmv=((x1,y1,t1),...,(xl,yl,tl)) : при l >1 x1=x2,i>1 xi+1=yl.

Элемент rmv – основа для создания ДСП по шаблону h. Пусть g={(x,y,t)}, где (x,y,t) – элементы вектора rmv. В него необходимо добавить второстепенные связи множества c.

Обозначим . Если орграф (g', Rk) не односвяз­ный, то по rmv невозможно построить корректное ДСП.

Иначе остается решить проблему вершин с полустепенью захода больше 1. Для каждой такой вершины оставляем по одной связи, исходя из требования: длина пути от корне­вой вершины до неё – максимальна. Если имеется одна вершина, в которую приводят n конкурирующих связей по путям одинаковой длины, считаем, что имеет место син­таксическая омонимия и все n связей корректны, а паре (Fk, g') соответствует n различных ДСП.

Перечень пар синтаксически связанных пар слов – объеди­нение признанных корректными связей множества g', ко­торые построены по всем Rmi для каждого Fk и шаблона h.

По этой методике создана программа. Выделенные в ре­зультате ее работы синтаксические связи – корректны. Их число значительно меньше числа потенциальных связей.


Литература


  1. Лущай В.В. Заполнение позиционного состава предложения по принципу функциональной эквивалентности: интроспективный анализ в русле экспликационной грамматики / В.В. ЛущайДонецк: ДонНУ.2010.255с.

  2. Дорохина Г.В. Ограничение количества гипотез фразы при распознавании слитной речи / Г.В. Дорохина // Известия ТРТУ – 2005. – № 10. – C. 54-60.

  3. Белошапкова В.А. Современный русский язык / В.А. Белошапкова.М.: Азбуковник.1997.928 с.