Институт проблем искусственного интеллекта
Государственный университет информатики и
искусственного интеллекта
Синтаксический
анализ
как способ разрешения
морфологической неоднозначности
Гнитько Д.С.
Кацивелли – 2010
Начальные этапы обработки ЕЯ текстов 2
Предобработка текста:
разбиение текста на базовые элементы*;
классификация базовых элементов.
Морфологический анализ:
словарный морфологический анализ простых слов;
словарный морфологический анализ составных слов;
безсловарный морфологический анализ слов.
Разрешение морфологической неоднозначности.
Ограничения:
Текст – последовательность предложений.
Предложения являются простыми распространенными неосложненные.
Предложение – последовательность слов русского языка.
*Базовые элементы: слово, знаки препинания, последовательность цифр, вспомогательные символы.
Алгоритм синтаксического анализа простого предложения 3
Представление предложения из N словоформ, получаемое в результате морфологического анализа:
S = (s1,..., si,..., sN). (1)
Здесь i – номер словоформы в предложении, si – множество вариантов интерпретации i-ой словоформы:
si={}, , (2)
где – j-й вариант написания леммы и – j-й вариант морфологической информации.
(x, y) – отношение, выражающее возможную синтаксическую связь между вариантами интерпретации пары словоформ
xsi, ysh, i, h = , i h, (3)
в которой х выступает в роли главного слова, а y – в роли зависимого.
Пусть R – множество всех возможных синтаксически связанных пар (x, y) предложения S, А – множество первых компонент в парах множества R, B – множество вторых компонент пар множества R:
R={(x,y)}: xei, yeh, ih, (x, y)
А={x}: (x,y)R, B={y}: (x,y)R. (4)
Критерий отсутствия в предложении словоформ, не связанных с другими словоформами:
i = zsi : z (AB). (5)
Для сокращения количества вариантов интерпретаций словоформ формируем вектор S:
S = (s1, ..., si, ..., sN),
si si : z si (zA)( zB). (6)
S описывает множество D возможных морфологических разметок предложения: 4
D=s1... si... sN,
D={dk : dk=}. (7)
Критерий отсутствия в возможной морфологической разметке предложения dk словоформ, не связанных с другими словоформами:
Fk = {dki : i = }
Rk={(x,y): (x,y) R, xFk, yFk}
Ak={x: (x,y) Rk }
Bk={y: (x,y) Rk }
i = dki (AkBk). (8)
Критерий правильного использования предлогов.
Pr – множество предлогов русского языка.
zPr∩Fk zBk∩Аk (9)
Перечень минимальных структурных схем 5
N1Vf (1.1) Примеры предложений: Грачи прилетели. Дела делаются.
N1 Copf Adj 1/ 5/f (1.2) Примеры предложений: Ночь была тихая (тихой, тиха). Ночь тихая (тиха). Ночь была тише.
N1 Copf N 1/ 5 (1.3) Примеры предложений: Он (был) студент. Он был студентом.
N1 Copf N2…pr /Advpr (1.4) Примеры предложений: Дом (будет) без лифта. Люди (были) в отчаянии. Чай – с сахаром. Глаза (были) навыкате.
Inf Vf (1.5) Примеры предложений: Курить воспрещалось. Отмалчиваться следуед.
Inf Copf N 1/5 (1.6) Примеры предложений: Дозвониться – проблема (было проблемой).
Любить иных – тяжелый крест.
Inf Copf Adj 1/ 5/ f (1.7) Примеры предложений: Промолчать – разумное решение.
Промолчать – разумно (разумнее).
Inf Copf N2…pr /Advpr (1.8) Примеры предложений: Промолчать было в его правилах.
Молчать некстати. Идти трудно.
Inf Copf Inf (1.9) Примеры предложений: Отказаться было обидеть.
Cops3 Adjfsn (1.10) Примеры предложений: Было темно. Ночью будет морозно.
Coppl3 Adjfpl (1.11) Примеры предложений: Результатом были довольны. Отказом были обижены.
Coppl N2…pr /Advpr (1.12) Примеры предложений: Дома были в слезах. Все были в восторге.
Copf N1 (1.13) Примеры предложений: Будет дождь. Была зима.
Cops3 N2…pr /Advpr (1.14) Примеры предложений: Будет без осадков. Было поздно.