Назад в библиотеку

Многоцелевой лингвистический процессор

Автор: Мельчук И.А.
Источник:Журнал "Институт проблем передачи информации" №4 2009

Аннотация

Мельчук И.А. Многоцелевой лингвистический процессор. Разработана общая идеология работы процессора. Опубликованы лексические компоненты модели.

Общая постановка проблемы

Это система, главное предназначение которой – анализировать и синтезировать тексты, то есть преобразовывать тексты из их исходного вида в некоторое абстрактное представление, приближенное к представлению смысла, и обратно. Помимо этого главного предназначения, направленного на решение фундаментальной задачи моделирования естественного языка, имеется и прикладной аспект. Коль скоро система умеет понимать и строить тексты, разумно попытаться использовать эту способность в каких-либо конкретных приложениях, способных принести конкретную пользу.

Теоретические принципы системы

Между теоретической моделью и ее компьютерной реализацией имеется двусторонняя зависимость. С одной стороны, компьютерная система стремится как можно более точно воплотить теоретические принципы МСТ. Это, в первую очередь, представление каждого высказывания на нескольких уровнях (морфологическом, поверхностно-синтаксическом и глубинно-синтаксическом), изображение синтаксического строения предложения в виде дерева зависимостей между словами и признание словаря, наряду с грамматикой, важнейшим компонентом лингвистической модели. С другой стороны, компьютерная модель имеет неоценимое значение для развития теории, поскольку служит объективным и надежным полигоном для проверки и отладки теоретических положений и конкретных решений. Дело в том, что как только мы покидаем область наблюдаемого текста и переходим на более абстрактные уровни представления, мы лишаемся возможности непосредственно оценивать результаты. Лишь компьютерное моделирование предоставляет исследователю возможность наглядно увидеть, насколько адекватна действительности разработанная им теоретическая схема..

ЭТАП-3 – это многоцелевой лингвистический процессор. Основными прикладными системами, в составе которых он опробовался, были системы машинного перевода (МП) с русского языка на английский и обратно, работающие на текстах большого объема.

В лингвистическом процессоре ЭТАП-3 его авторы стремятся к тому, чтобы ресурсы, которыми пользуются разные прикладные системы, носили по возможности общий характер. Так, во всех приложениях ЭТАП-3 используется единственный английский комбинаторный словарь, единственный русский комбинаторный словарь и т.д.; скажем, первый из них используется как словарь входного языка в системе англо-русского перевода и как словарь выходного языка в системе русско-английского и арабско-английского перевода..

Разрешение синтаксической омонимии

В примерах типа контроль правительства представлен распространенный случай синтаксической омонимии – родительный субъекта и объекта: либо правительство контролирует кого-то, т.е. является Агенсом, либо оно само кем-то контролируется, т.е. является Пациенсом. Этот тип омонимии надежно разрешается в случае, если ключевое слово (контроль) зависит от ЛФ OPER1 = осуществлять или OPER2 = быть под, находиться под, подвергаться. В контексте OPER1 существительное в форме РОД (правительство) может обозначать только Пациенса контроля, потому что АГЕНС контроля уже реализован подлежащим данной ЛФ: Президент осуществляет контроль правительства. В контексте OPER2 то же существительное может обозначать только Агенса контроля, потому что его ПАЦИЕНС уже реализован подлежащим данной ЛФ: Президент находится под контролем правительства.

Разрешение лексической неоднозначности

У глагола держать насчитывается свыше 10 разных значений, представленных во фразах держать сыр во рту (А сыр во рту держала), Пустите, не держите меня!, держать общегородское первенство, Лед держал его, но потрескивал, Тормоза не держат, держать кого-л. под стражей, держать окна открытыми и т.п. Такие многозначные слова создают большие трудности при переводе. Однако нужное значение многозначного глагола легко выбирается, когда он употреблен в контексте существительного, для которого он является значением ЛФ, например, ЛФ OPER1. Таковы, в частности, словосочетания держать речь, держать пари, держать экзамен и т. п. В ходе анализа текста на основе информации об ЛФ в словарных статьях слов речь, пари, экзамен глаголу держать приписывается символ OPER1, и многозначность разрешается.

Универсальный Сетевой Язык (UNL)

Опция конвертации-деконвертации языка UNL разрабатывается в рамках широкой международной инициативы, инициированной Университетом ООН. В этом университете разработан формальный язык-посредник UNL и поставлена задача построить модули, обеспечивающие перевод с этого языка на широкий круг естественных языков, в первую очередь, на официальные языки ООН и другие крупнейшие языки. Цель проекта состоит в том, чтобы предоставить пользователям Интернета возможность получать информацию на своем родном языке, независимо от того, на каком языке эта информация представлена в Интернете. В этот состоит важное социальное измерение проекта. В настоящее время в проекте участвуют исследовательские группы, представляющие французский, испанский, португальский, арабский, хинди, китайский, индонезийский и некоторые другие языки. В ИППИ РАН разрабатывается «мостик» между UNL и русским языком.

Выводы

Система ЭТАП-3 позволяет реализовать эту способность также в режиме многоязычного поиска. Так, если исходный запрос будет переведен системой на английский язык и механизм перифразирования будет запущен внутри английского языка, то мы получим еще и серию синонимичных запросов для поиска в англоязычном Интернете.

Список использованной литературы

1. Иомдин Л. М. Задачи построения и развития системы перефразирования // Изв. РАН. Теория и системы управления. 2005. № 3. С. 172-189.


Назад в библиотеку