Назад в библиотеку

Синтаксическая модель предложения русского языка на основе предикатных структур

Автор: Т.В. Ермоленко, А.С. Гайдамака
Источник: Институт проблем искусственного интеллекта МОН Украины и НАН Украины, г. Донецк Украина, 83048, г. Донецк, ул. Артема, 118 б.

В статье сделан аналитический обзорсуществующих способов синтаксическогопредставления предложений, предложенамодель семантико‐синтаксическогопредставления предложения в видепредикатной структуры. Модель в такомвиде позволит осуществлять дальнейшийсемантический и прагматический анализ ЕЯ–текста. Авторами разработан методполучения предикатной структурыпредложения русского языка, ис­пользующийсинтаксические шаблоны и словарьвалентности предикатов.

Ключевые слова: лингвистический анализ ЕЯ–текстов, дерево синтаксического разбора, предикат, валентность предиката, семантическая классификация предикатов.

Введение

Задачи автоматической обработки текстов (АОТ) возникли практически сразу после появления вычислительной техники. Так, развитие хранилищ данных делает актуальными задачи поиска и извлечения информации, формирования корректно построенных текстовых документов. Бурное развитие Internet повлекло за собой создание и накопление огромных объемов текстовой информации, что требует создания средств полнотекстового поиска, автоматической классификации и реферирования текстов, авто­матизированного машинного перевода. Таким образом, область применения систем анализа естественно–языковых (ЕЯ) текстов достаточно разнообразна, а в виду большого роста объемов текстовой информации и сложной структурированности ЕЯ‐текстов, ана­лиз текстов представляет собой очень актуальную проблему, особенно в последние годы, когда наметилась тенденция к информатизации общества.

Стремительное увеличение вычислительных мощностей сделало возможным при­менение трудоёмких лингвистических алгоритмов на больших объемах данных. Но несмотря на то, что в области формализации естественных языков и систем АОТ, в частности, задействовано большое количество людей и мощностей, работающих в самых разных направлениях, результаты пока довольно скудны, так как ни одна из сущест­вующих моделей не может перекрыть структуру языка в целом, а объёмы данных, с которыми имеет дело лингвистика, очень большие.

Независимо от того, на каком языке написан исходный текст, его полный линг­вистический анализ проходит одни и те же стадии: графематический, морфологический, синтаксический и семантический. В результате формируются модели текста, адекватно отражающие его словообразовательные, грамматические и смысловые конструкции.

Графематический анализ – достаточно простой компонент, выполняющий первые предварительные действия над текстом. Можно выделить следующие основные функ­ции графематического анализа [1], [2]: разбиение текста на графемы, абзацы и предложения; определение границ предложений; различение слов и служебных графем (например, знаков пунктуации); определение регистра слов; извлечение лексических конструкций (несловарных единиц, имеющих регулярную структуру: номер теле­фона, дата, инициалы, сокращения и т.п.); распознавание собственных имен; рас­познавание подписей к рисункам и таблицам; распознавание формул (математи­ческих и химических).

Корректная работа графематического анализатора невозможна без словарей фамилий, имен, отчеств, географических и административных названий, общепринятых сокращений, условных обозначений и аббревиатур, а также набора стоп‐слов и шаб­лонов, указывающих на возможность принадлежности прилегающих слов к словарю географических и административных названий.

Графематические дескрипторы, характеризующие каждое слово входного текста, создают формальное его описание на уровне графематики, которое уже подвергается автоматизированной обработке в терминах лингвистических теорий.

Морфологический анализ – давно и хорошо отработанная лингвистическая про­цедура, реализованная во множестве разнообразных исследовательских и коммер­ческих проектов. В результате анализа для каждой словоформы текста определяется ее морфологическая информация (МИ) и осуществляется лемматизация – приведе­ние текстовых форм слова к словарным (начальным) [2–4].

Главной проблемой является омонимичность словоформ. Например, у слово­формы «стекла» два варианта морфологической интерпретации: стекло – существи­тельное, стекать – глагол. Поэтому программы работают с целым набором возмож­ных морфологических интерпретаций, постепенно выделяя наиболее вероятные на следующих этапах анализа.

Следующий этап обработки – синтаксический анализ. Его задача состоит в том, чтобы, используя МИ о словоформах, построить синтаксическую структуру каждого предложения входного текста [5].

Построение достоверных синтаксических структур всех подряд предложений текста – очень важная и нужная ступень в автоматическом понимании текста, но получить хорошие результаты синтаксического анализа для всех предложений ЕЯ‐текста оказывается практически невыполнимой или безмерно сложной задачей, по­скольку формальные математические модели и их программные динамические реализации не способны охватить всю сложность и многообразие языковой системы, особенно для языков с относительно свободным порядком слов, каким являются русский. В связи с присутствием в русском языке большого количества синтакси­чески омонимичных конструкций, наличием тесной связи между семантикой и син­таксисом, процедура автоматизированного синтаксического анализа текста является трудоемкой. Сложность алгоритма увеличивается экспоненциально при увеличении количества слов в предложении и числа используемых правил. Применение фор­мализма для структурирования ЕЯ‐предложения может привести к потере правиль­ного синтаксического представления или комбинаторному взрыву, когда из‐за мор­фологической и синтаксической омонимии программа оказывается не в состоянии просчитать все возможные варианты структур.

В задачу семантического анализа входит выделение смысла входного текста и выражения этого смысла на внутреннем языке системы. Выходной структурой является семантическая сеть. Одним из основных параметров анализа текста является понимание смысла входного предложения, включающее в себя описание сущностей входного текста, определение их свойств и отношений между ними. Отнесение подобных вопросов только лишь к сфере семантики неправомочно – они должны решаться на уровне синтакси­ческой модели, так как проявляются на уровне общей схемы, не зависящей от смысла высказываний, поэтому морфолого‐синтаксические признаки и структуры привлекаются в качестве правил локального контекстного разбора, задачей которого является заполне­ние слотов семантической сети. Таким образом, семантический анализ текста базируется на результатах синтаксического анализа, получая на входе уже не набор слов, разбитых на предложения, а набор графов, отражающих синтаксическую структуру каждого пред­ложения. Поэтому выбор используемой синтаксической модели крайне важен для про­ведения качественного семантического анализа.

В данной работе предложен подход к построению синтаксической модели пред­ложений русского языка в виде предикатной структуры.

Цель данной работы – разработка синтаксической модели предложения русс­кого языка, позволяющей рассматривать предложение как структурированную форму сообщения, которая выражает смысл предложения. Модель в таком виде позволит осуществлять дальнейший семантический и прагматический анализ ЕЯ‐текста.

Для достижения поставленной цели необходимо решить следующие задачи:

  1. Сделать обзор синтаксических моделей представления ЕЯ‐предложения, обосно­вать выбор семантико‐синтаксического представления предложения в виде предикатной структуры.

  2. Разработать метод получения предикатной структуры предложения русского языка, использующий синтаксические шаблоны и словарь валентности предикатов.

Модели представления синтаксической структуры предложения

Модель синтаксической структуры предложения в значительной степени пере­дает концепцию разработчиков лингвистических процессоров относительно синтакси­ческого уровня анализа: какая именно информация об элементах предложения и их взаимосвязях должна выявляться в процессе анализа, присутствовать в его результа­тах и какие формы представления ей адекватны. Наиболее общим для разработчиков синтаксических анализаторов является подход к получению синтаксического строения предложения с помощью некоторого частично упорядоченного множества бинарных связей между элементами. Представления о бинарных синтаксических связях ис­пользуются в двух известных моделях синтаксической структуры: графах зависимо­стей и графах непосредственных составляющих (НС). В настоящее время эти две формы представления синтаксической структуры остаются основными, они исполь­зуются в чистом виде или в смешанных формах, сочетающих в себе свойства обоих графов [5].

Графы зависимостей – способ синтаксического представления предложения как линейно упорядоченного множества элементов (словоформ), на котором можно задать ориентированное дерево (узлы – элементы множества). Каждая дуга, связывающая пару узлов, интерпретируется как подчинительная связь между двумя элементами, направ­ление которой соответствует направлению данной дуги. Множество всех узлов дерева, прямо или косвенно зависящих от какого‐либо узла, включая сам этот узел, составляет группу зависимости этого узла.

Такой способ представления синтаксических структур имеет определенные не­достатки: жесткое требование рассматривать каждое формально выделенное вхождение слова в качестве отдельного элемента предложения; все без исключения связи между словоформами трактуются как подчинительные.

НС‐структура – множество отрезков предложения, называемых составляющими, которое удовлетворяют следующим условиям:

С помощью НС‐структур предложение анализируется как двусоставная конструк­ция, включающая две НС – именную и глагольную группу. Дополнение может ква­лифицироваться как узел, который подчинён глагольной группе. НС–структуры дают возможность выделить в предложении не только отдельные слова, но и некоторые словокомплексы, функционирующие как единое целое (например, сложное сказуемое), а также более естественно описать конструкции с неподчинительными отношениями,

К недостаткам НС‐структур относятся неоднозначность трактовки силы связи между элементами словосочетаний, что приводит к неоднозначным НС‐структурам (например, [[чудовищного роста] смертности] или [чудовищного [роста смертности]]), а также тот факт, что НС‐структуры не вводят никакой иерархии среди составляющих одного уровня.

Общим недостатком рассмотренных моделей является то, что члены предложения определяются на основе формальных признаков: не по отношению к их возможному или реальному семантическому содержанию, а по отношению к тому месту, которое они занимают в дереве порождения предложения.

Предлагаемый подход к формированию синтаксических моделей использует пре­дикативность – одну из важнейших характеристик простого предложения. Ни одна теория или концепция синтаксической организации предложения не обходит стороной свойство предикативности. Глагол является определяющей частью языка, предложения без глагола или без предикативного слова не существует. Предикат – центральная синтаксема в семантическом простом элементарном предложении, формирующая его семантико‐синтаксическую структуру. Предикативно связанные грамматические субъект и предикат квалифицируются как главные члены предложения, поскольку они фор­мируют его конструктивный минимум. Более того, предикатная модель наилучшим образом отражает смысл предложения, так как в предикатах указывается не только аргументная структура и количество актантов, но и их семантическое содержание.

Предикатная модель синтаксической структуры предложения

На синтаксическом уровне предикат – это ядерная структура, которая включает в свой состав пактантов. Само ядро – это глагольная конструкция, а актанты объе­диняются с ядром системой отношений. Узлами в этой конструкции являются имена (существительное, местоимение, числительное) в их атрибутивной форме. Синтакси­ческие отношения реализуются определенным образом, а их количество может дости­гать не более 7, связано это с тем, что семь – предел возможности человека одно­временно воспринимать разные характеристики одной ситуации или объекта.

Предикатную модель простого предложения принимаем в следующей интерпретации (рис. 1).

Предикатная модель простого предложения

Рисунок 1 – Предикатная модель простого предложения: Mov – предикат,

Subj – субъект, Obji – актанты предиката, Ri – отношения предиката,

К – отношение «быть субъектом»

Следует учитывать, что объекты, субъект и предикат человек всегда воспринимает как некоторую целостность, которая всегда реализуется через совокупность своих приз­наков – атрибутов, которые, например, помечают цвет, материал, отдельные стороны динамических ситуаций. Язык имеет средства для их описания (табл. 1).

Таблица 1 – Языковые средства атрибутивного описания элементов предикатной модели

Элемент модели Обозначение Часть речи
Объект Obj Существительное, субстантивированное прилагательное и местоимение
Субъект Subj Существительное, субстантивированное прилагательное и местоимение
Предикат Mov Глагол, краткая форма прилагательного/причастия, наречия–предикативы
Признак объекта Attr(Obj) Прилагательное
Признак действия Attr(Mov) Наречие
Признак действия Attr(Attr) Мера признака

Атрибутивный уровень формирования описаний объектов/субъектов реализуется с помощью использования хорошо известной схемы связи, которая определяется как согласование. В этом случае необходимо, чтобы сочетаемые элементы имели одинаковую МИ. Сочетаемыми элементами в этом случае будут имена.

Помимо того, что каждый объект, субъект, предикат определяются, в общем случае, на множестве своих признаков, эти элементы могу иметь зависимые слова, связанные с ними подчинительной связью типа управления и примыкания. Для общей схемы описа­ния объекта/субъекта и предиката введем понятие звезды.

Под звездой понимается граф‐звезда, узлами которого являются слова предло­жения, в одной доле находится главное слово, в другой доле – множество зависимых слов, отстоящих от главного на одну связь. Связи направлены от главного слова к зави­симым и могут быть нескольких типов: атрибутивная (согласование), управление, при­мыкание.

Связи предикатной структуры имеют иерархическую зависимость, в которой четко прослеживаются три группы отношений:

  1. отношение К0, как центральное отношение двухсоставной предикатной конст­рукции;

  2. отношения Ri предиката MOV;

  3. синтагматические отношения – отношения связей внутри звезды, включая отношение атрибутивного уровня описания составляющих предложения.

Следовательно, в построенная таким образом модель позволяет полностью выявлять оба типа синтаксических отношений – предикативное и синтагматическое. Первое выражает зависимость между синтаксическими объектами через понятие, означающее действие, второе – сочетание двух синтаксических объектов, обнару­живает формальные и смысловые связи слов.

В разработанной нами предикатной модели согласно описанной выше структуре (рис. 1) содержится семь слотов, соответствующих валентным гнездам предиката. Причем номер валентности определяет ее тип, семантику и морфологическое выражение (табл. 2). Таким образом, актанты выступают в качестве семантических падежей и интерпрети­руются как «роли» в отношениях действия и состояния, которые выражаются предикатом.

Таблица 2 – Тип, семантика и морфологические характеристики валентных гнезд

Номер валентного гнезда Наличие предлога Падеж актанта Семантический падеж
0 Именит. Субъект
1 Винит. Объект
2 Дательный Адресат
3 Творит. Инструмент
4 + Родит.‐ предл. Начальный локатив
5 + Родит.‐ предл. Конечный локатив
6 + Родит.‐ предл. Средний локатив


Немаловажную роль при формировании предикатной структуры играет семантиче­ская классификация предикатов. В [6] аргументировано доказано, что между синтакси­ческой формой и содержанием существует тесная связь даже на уровне классификации. Таким образом, каждому семантическому классу можно поставить в соответствие опреде­ленный шаблон заполнения валентных гнезд. Это свойство было использовано в предла­гаемой нами синтаксической модели предложения: в предикатную структуру введено поле, указывающее на семантический класс предиката. В нашей работе мы ориентиро­вались на труды русского языковеда Л.М. Васильева [7]. В его «Системном семантиче­ском словаре русского языка» предикатная лексика распределена на 12 основных се­мантических класса: 1) бытийные предикаты; 2) бытийно‐пространственные предикаты (предикаты пространственной локализации); 3) предикаты отношения; 4) оценочные пре­дикаты; 5) предикаты состояния; 6) количественные предикаты; 7) предикаты свойства; 8) предикаты поведения; 9) предикаты звучания; 10) предикаты движения; 11) акциональные предикаты; 12) акционально‐процессуальные предикаты. Более того, в каждом из этих классов выделяют подклассы, т.е. предложенная классификация имеет иерархическую структуру.

С учетом вышесказанного синтаксическая модель предложения, которую мы предлагаем, описана следующей структурой:

PRED = <{ Obji } i=1,...,7, sem>,

где PRED – ядро структуры, предикат, sem – номер семантического класса, Obji – звезда, главное слово в ней субстантив, являющийся актантом.

Опишем этапы работы метода синтаксического анализа предложения русского языка, формирующего синтаксическую модель в виде структуры PRED

Синтаксический анализ предложений

Анализ синтаксической структуры предложения должен выполняться на основе ин­формации о словах, полученной на этапе графематического и морфологического анализа. При этом каждой словоформе предложения приписывается соответствующий набор (наборы – в случае морфологической омонимии) МИ. Таким образом, входными дан­ными метода являются:

S = (s [1],..., s[i],.., s[N]),

где s[i] = {s[i][1],..., s[i][j],..., s[i][N} – вектор множеств интерпретаций словоформ, при этом каждое множество интерпретаций s[i] является массивом пар (лемма, МИ).

Выходные данные с учетом синтаксической омонимии, в результате чего возмож­но получение нескольких вариантов синтаксического разбора, представляют собой множество пар вида (дерево зависимостей; предикатная модель).

Дерево зависимостей для предложения из N слов задается в матричном виде с помощью матрицы А, имеющей размерность NхN. Элементы матрицы, а[i][j], представ­ляют собой структуру, отражающую наличие и тип связи между словами s[i] и s[j], при­чем s[i] – главное слово. Элемент а[i][j] указывает на один из типов связи: атрибутивная (согласование), управление, примыкание, координация (отношение «подлежащее– сказуемое»). В свою очередь, связь «координация» описывается с помощью шаблона предикативного ядра простого предложения и имеет 17 типов (согласно количеству минимальных структурных схем простого предложения русского языка [8]). Подробно эти шаблоны и алгоритм их выделения описаны в работе [9].

Модуль синтаксического анализа осуществляет свою работу в несколько этапов:

  1. Фрагментация – членение предложения по знакам пунктуации и союзам на сег­менты, представляющие собой неразрывные синтаксические единства, и установление частичной иерархии на множестве этих единств. Подробно этот процесс изложен в [9]. Для работы на этом этапе используются словари шаблонов:

  1. Заполнение звезд: поиск пар потенциально связанных вариантов интерпретации словоформ, включая пару (грамматический предикат, грамматический субъект). Этот этап использует:

На выходе – наборы звезд: < s[i], < s[j] >>, где s[i] – главное слово, < s[j] > – мно­жество зависимых слов.

  1. Сокращение количества вариантов интерпретаций словоформ согласно критерию: для каждой словоформы хотя бы один вариант её интерпретации должен принадлежать либо множеству главных, либо множеству зависимых слов.

  2. Заполнение актантной структуры найденного предиката. Заполняются семь валентных гнезд. Для чего используется семантический словарь предикатов, работа по созданию над которым ведется в настоящее время.

Опишем коротко состав словарной статьи. Поля статьи содержат данные о предикате следующего свойства:

  1. Семантико‐синтаксический класс.

  2. Переходность (для глаголов).

  3. Нуль– или не нуль‐валентный.

  4. Информация о заполнении валентных гнезд.

При заполнении валентных гнезд наряду с МИ актантов (как правило, являющимися субстантивами) указываются предлоги, которыми управляет предикат и которые управляют актантом. Следует обратить внимание, что актантом гнезд от 5‐го до 7‐го может быть наречие.

Например, для глагола «переправить»/p>

  1. Семантико‐синтаксический класс 10.2.1.1 (глагол движения, обозначающий произвольное перемещение).

  2. Переходный.

  3. Не нуль‐валентный.

  4. Информация о заполнении валентных гнезд сведена в табл. 3.

Таблица 3 – Заполнение валентных гнезд для предиката «переправить»

Субъект Объект Адресат Инструмент Начальный локатив Конечный локатив Средний локатив
NULL 1 NULL 4 NULL 3 NULL 5 из 2
с 2
от 2
в 4
до 2
к 3
через 4


В табл. 3 NULL указывает на отсутствие предлога, цифра – на номер падежа субстантива, являющегося актантом, которым этот предлог управляет.

Выводы

Вопросы описания понятий входного текста, определение их свойств и отношений между ними должны решаться на уровне синтаксической модели, поскольку понятия и связи между ними проявляются в морфолого‐синтаксических признаках и структурах и не зависят от смысла высказываний. Поэтому выбор используемой синтаксической модели крайне важен для проведения качественного семантического анализа.

Существующие способы представления синтаксических структур имеют опреде­ленные недостатки: деревья подчинения не учитывают связей между словосочетаниями и синтаксически целостными группами слов, системы НС игнорируют направленные связи и не позволяют описывать разрывные словосочетания. Кроме того, в этих пред­ставлениях члены предложения определяются на основе формальных признаков, а не по отношению к их семантическому содержанию. Поэтому ни одна из моделей не дает полного представления о синтаксической структуре предложения.

В данной работе предложена синтаксическая модель предложения в виде преди­катной структуры, для формирования которой необходимо использовать лингвисти­ческие знания в виде семантического словаря предикатов, разработан метод синтакси­ческого анализа, формирующий эту синтаксическую модель и опирающийся на словари шаблонов и набор правил выделения синтаксических связей пар слов.

Описанная в работе синтаксическая модель позволяет полностью выявлять как предикативные, так и синтагматические отношения, описывает не только аргументную структуру и количество актантов предиката, но также учитывает их семантическое со­держание, используя семантическую классификацию предикатов.

Развитием данной работы может стать понимание текста, которое тесно связано с выявлением предикатных структур, характеризующих смысл предложений, а также – цепочек этих предикатных структур, которые опосредуют смысл текста. Полученные для множества текстов предметной области цепочки предикатных структур можно разбить на классы, которые характеризуют отдельные подобласти предметной области, и озаглавить названиями подобластей (подтем). Отнесение подцепочек цепочки предикатных струк­тур, полученной для некоторого текста, к этим классам, и дальнейшая пометка их названиями соответствующих классов, и есть интерпретация текста, то есть, понимание.

Литература

  1. 1. Peter Jackson. Natural Language Processing for Online Applications / Peter Jackson, Isabelle Moulinier. – John Benjamins Publishing, 2002. – 237 p.
  2. 2. Ермаков Л.Е. Выделение объектов в тексте на основе формальных описаний / Л.Е.  Ермаков, В.В. Плешко, В.Д. Митюнин // Информационные технологии. – 2003. – N 12. – С. 1–6.
  3. 3. Дорохина Г.В. Модуль морфологического анализа без словаря слов русского языка / Г.В. Дорохина, В.Ю. Трунов, Е.В. Шилова // Искусственный интеллект. – 2010. – № 2. – С. 32–36.
  4. 4. Ермаков Д.Е. Компьютерная морфология в контексте анализа связного текста / Д.Е. Ермаков, Плешко В.В. // Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции «Диалог'2004». – Москва : Наука, 2004. – С. 185–190.
  5. 5. Гладкий Д.В. Синтаксические структуры естественного языка в автоматизированных системах общения / Гладкий Д.В. – М : Наука, 1985. – 144 с.
  6. 6. Семантические типы предикатов / под ред. О.Н. Селиверстовой. – М. : Наука, 1982. – 365 с.
  7. 7. Васильев Л.М. Системный семантический словарь русского языка / Леонид Михайлович Васильев // Предикатная лексика. – Уфа : Изд‐во «Восточный университет», 2000. – 200 с.
  8. 8. Современный русский язык : Учебник для филологических специальностей высших учебных заведений / В.А. Белошапкова, Е.А. Брызгунова, Е.А. Земская и др.; Под ред. Белошапковой ; [3–е изд, испр. и доп.] –– М. : Aзбуковник, 1997. – 928 с.
  9. 9. Дорохина Г.В. Aвтомaтическое выделение синтаксически связанных слов простого распространенного неосложненного предложения / Г.В. Дорохина, Д.С. Гнитько // Сучасна інформаційна Україна: інфор­матика, економіка, філософія : матеріали доповідей конференції, (12 – 13 травня 2011 року). – Донецьк, 2011. –Т. 1. –С. 34–38.
  10. 10. Сокирко A.3. Семантические словари в автоматической обработке текста (по материалам системы ДИAЛИНГ) / Сокирко A.3. // Диссертация на соискание ученой степени кандидата технических наук. – МГПИИЯ – М., 2001. – 108 с.