Институт проблем искусственного интеллекта

Государственный университет информатики и

искусственного интеллекта


Синтаксический анализ
как способ разрешения

морфологической неоднозначности


Гнитько Д.С.





Кацивелли – 2010


Начальные этапы обработки ЕЯ текстов 2


Ограничения:

Текст – последовательность предложений.

Предложения являются простыми распространенными неосложненные.

Предложение – последовательность слов русского языка.



*Базовые элементы: слово, знаки препинания, последовательность цифр, вспомогательные символы.

Алгоритм синтаксического анализа простого предложения 3


Представление предложения из N словоформ, получаемое в результате морфологического анализа:

S = (s1,..., si,..., sN). (1)

Здесь i – номер словоформы в предложении, si – множество вариантов интерпретации i-ой словоформы:

si={}, , (2)

где j-й вариант написания леммы и j-й вариант морфологи­ческой информации.

(x, y)отношение, выражающее возможную синтаксическую связь между вариантами интерпретации пары словоформ

xsi, ysh, i, h = , i h, (3)


в которой х выступает в роли главного слова, а y – в роли зависимого.

Пусть R – множество всех возможных синтаксически связанных пар (x, y) предложения S, А – множество первых компонент в парах множества R, B множество вторых компонент пар множества R:

R={(x,y)}: xei, yeh, ih, (x, y)

А={x}: (x,y)R, B={y}: (x,y)R. (4)


Критерий отсутствия в предложении словоформ, не связанных с другими словоформами:

i = zsi : z (AB). (5)

Для сокращения количества вариантов интерпретаций словоформ формируем вектор S:

S = (s1, ..., si, ..., sN),

si si : z si (zA)( zB). (6)

S описывает множество D возможных морфологических разметок предложения: 4

D=s1... si... sN,

D={dk : dk=}. (7)


Критерий отсутствия в возможной морфологической разметке предложения dk словоформ, не связанных с другими словоформами:


Fk = {dki : i = }

Rk={(x,y): (x,y) R, xFk, yFk}

Ak={x: (x,y) Rk }

Bk={y: (x,y) Rk }

i = dki (AkBk). (8)

Критерий правильного использования предлогов.

Pr – множество предлогов русского языка.

zPrFk zBkАk (9)






Перечень минимальных структурных схем 5


N1Vf (1.1) Примеры предложений: Грачи прилетели. Дела делаются.

NCopAdj 1/ 5/f (1.2)  Примеры предложений: Ночь была тихая (тихой, тиха). Ночь тихая (тиха). Ночь была тише.

NCopN 1/ 5 (1.3)  Примеры предложений: Он (был) студент. Он был студентом.

N1 CopN2…pr /Advpr (1.4)  Примеры предложений: Дом (будет) без лифта. Люди (были) в отчаянии. Чай – с сахаром. Глаза (были) навыкате.

Inf Vf (1.5) Примеры предложений: Курить воспрещалось. Отмалчиваться следуед.

Inf Copf N 1/5 (1.6) Примеры предложений: Дозвониться – проблема (было проблемой).

Любить иных – тяжелый крест.

Inf Copf Adj 1/ 5/ f (1.7)  Примеры предложений: Промолчать – разумное решение.

Промолчать – разумно (разумнее).

Inf CopN2…pr /Advpr (1.8)  Примеры предложений: Промолчать было в его правилах.

Молчать некстати. Идти трудно.

Inf CopInf (1.9)  Примеры предложений: Отказаться было обидеть.

Cops3 Adjfsn (1.10)  Примеры предложений: Было темно. Ночью будет морозно. 

Coppl3 Adjfpl (1.11)  Примеры предложений: Результатом были довольны. Отказом были обижены.   

Coppl N2…pr /Advpr (1.12)  Примеры предложений: Дома были в слезах. Все были в восторге. 

CopN1 (1.13)  Примеры предложений: Будет дождь. Была зима. 

CopsN2…pr /Advpr (1.14)  Примеры предложений: Будет без осадков. Было поздно.