Назад в библиотеку

Лингвистический процессор ЭТАП: дескрипторное соответствие и обработка метафор

Автор: Цинман Л.Л., Сизов В.Г.
Источник: ИППИ РАН

Аннотация

Цинман Л.Л., Сизов В.Г. Лингвистический процессор ЭТАП: дескрипторное соответствие и обработка метафор. Разработан синтаксический анализатор, который занимается построением синтаксической структуры анализируемой фразы на основе результатов морфологического анализа.

Введение

Синтаксический анализатор (СА) системы ЭТАП строит синтаксическую структуру (СинтС) анализируемой фразы на основе результатов морфологического анализа, осуществляемого по морфологическому словарю, и с помощью синтаксической информации, содержащейся в словарных статьях комбинаторного словаря (КС) слов анализируемой фразы. Основным инструментом получения СинтС являются синтаксические правила (синтагмы), некоторые из которых проверяют наличие (или отсутствие) в словарных статьях КС той или иной синтаксической информации.

Постановка задачи

Главной проблемой, которая возникает в любом СА при построении СинтС, является борьба с омонимией всякого рода (как морфологической, так и синтаксической). Особенно это актуально для СА системы ЭТАП. Дело в том, что в нашем СА используется фильтровый метод синтаксического анализа (СинтА). При этом методе сначала строится полный набор допустимых (с точки зрения принятого в нашем СА описания синтаксиса) гипотетических синтаксических связей между словами анализируемой фразы. Затем, с помощью разнообразных фильтров этот набор вычищается до тех пор, пока оставшиеся связи не образуют дерево, являющееся искомой СинтС фразы. Количество гипотетических связей, первоначально возникающих при фильтровом методе СА, может в несколько раз (в зависимости от неоднозначности слов фразы и вероятной синтаксической омонимии) превосходить необходимое для СинтС число связей. Впрочем, этот недостаток фильтрового метода алгоритма с лихвой перекрывается тем фактом, что он позволяет анализировать самые редкие и сложные синтаксические конструкции, которые только могут встретиться в тексте.

Резкого уменьшения количества возникающих при СинтА гипотетических связей можно добиться за счет более полного и точного описания разных типов языковой информации в словарных статьях КС. В этой работе мы обсудим проблемы использования только одного типа такой информации – дескрипторных ограничений на актанты управляющих слов, представленных в моделях управления (МУ) этих слов.

Рассмотрим в качестве примера словарное описание глагола резать. Этот глагол представлен в нашем КС тремя словарными статьями. Приведем фрагменты этих словарных статей.

РЕЗАТЬ1 (Мальчик острыми ножницами режет фольгу на длинные тонкие полоски).

МУ: Первый актант: S, им. Второй актант: S, вин. Третий актант: S, твор. Четвертый актант: на1

TRANS:CUT1 РЕЗАТЬ2 (Волк острыми клыками мгновенно зарезал кабана)

МУ: Первый актант: S, им. Второй актант: S, вин. Третий актант: S, твор.

TRANS:KILL РЕЗАТЬ3 (Дым от костра резал мне глаза)

МУ: Первый актант: S, им. Второй актант: S, вин. TRANS:GRATE3

Для приведенных выше фрагментов описания словарных статей глагола резать мы получим 12 различных вариантов синтаксического разбора этой простой фразы: 3 претендента на роль сказуемого, для каждого из которых по 2 претендента на роль подлежащего и на роль прямого дополнения. Для снятия подобной омонимии в нашем СА широко используется система семантических признаков, или дескрипторов. В словаре существительным, глаголам и некоторым прилагательным приписываются соответствующие дескрипторы (например, слово станок снабжено дескрипторами ‘ПРЕДМЕТ’, ‘МЕХАНИЗМ’, ‘ИНСТРУМЕНТ’, а слово металл – дескрипторами ‘ВЕЩЕСТВО’, ‘ПРЕДМЕТ’, ‘МАТЕРИАЛ’). Одновременно в МУ указываются дескрипторы слов, которые могут претендовать на роль актантов ключевого слова (если, конечно, дескрипторы слов предполагаемых актантов можно перечислить):

Синтаксические правила при установлении гипотетических синтаксических связей между словами проверяют требуемое дескрипторное соответствие. Связь устанавливается только в том случае, когда слову, претендующему на роль некоторого актанта, приписан хотя бы один из указанных в соответствующей строке модели управления дескриптор. При отсутствии в строке МУ каких-либо дескрипторов дескрипторное согласование предполагается выполненным.

Разумеется, заранее предусмотреть все случаи неканонических употреблений предикатного слова создатели словарной статьи, не могут. Если же все-таки стремиться при описании МУ к учету всех случаев метафорического или фразеологического использования управляющего слова (Ю.Д.Апресян называет такие использования разрешенными неправильностями), то дескрипторные ограничения пришлось бы ослабить настолько, что их проверка стала бы бессмысленной. В реальной практике при описании МУ создатели словарных статей часто вообще избегают указания каких-либо дескрипторных ограничений не в последнюю очередь именно потому, что многие слова допускают неканоническое использование.

Для разрешения этой коллизии мы создали и включили в СА алгоритмическую процедуру, позволяющую в статьях КС писать в МУ дескрипторные ограничения с учетом только канонического использования управляющих лексем и в то же время оставляющую возможность правильного анализа фраз, в которых управляющая лексема использована неканонически.

Выводы

В данной работе рассмотрены проблемы, возникающие при построении синтаксического анализа. Изучен способ борьбы с омонимией всякого рода.

Список использованной литературы

1. Апресян Ю. Д. Лингвистическое обеспечение системы Этап-2 // Наука. 1989. С. 92-107.

2. Цинман Л. Л., Сизов В.Г. Система Этап: процедуры ослабления синтаксических правил и их использование. Труды Международного семинара // Знание. 1999. С. 321-325.


Назад в библиотеку