Повышение точности определения морфологических признаков неизвестных слов методом аналогий с помощью нечетких множеств

Автор: А. В. Гашков
Источник: Вестник Челябинского государственного университета. 2014. № 7 (336). Филология. Искусствоведение. Вып. 89. С. 20–23.

Аннотация

Проблема определения морфологических признаков неизвестных слов, то есть таких, которые не содержатся в словаре автоматической системы, пока не имеет удовлетворительного решения. Известные системы определяют морфологические признаки неизвестных слов с точностью менее 30 %, что недостаточно для спользования таких систем в полностью автоматическом режиме. Предполагается, что использование метода аналогий в сочетании с нечеткими множествами может лучшить качество анализа. Проведенные эксперименты показали, что точность определения признаков неизвестных слов возросла до 50 %, что автор полагает довлетворительным результатом.

Ключевые слова: метод аналогий, морфология, неизвестное слово, нечеткое множество, автоматический анализ текста.

Определение признаков слов, которые отсутствуют в словаре автоматической системы анализа текста на естественном языке (неизвестные слова) остается одной из проблем, все еще не имеющих удовлетворительного решения. В настоящее время как в России, так и за рубежом на рынке существуют много коммерческих программ и бесплатных модулей, которые, на наш взгляд, успешно справляются именно с задачами морфологического анализа: определяют начальную форму слова, выдают морфологическую информацию о слове. Все известные нам отечественные системы работают на основе словаря основ, большая часть изученных нами программ (Starling, mystem, RuMor, RMUморфологический анализ, Cir_morph, Semantarus Morpho/Семантарус Морфо и др.) работает на основе классической модели А. А. Зализняка и его грамматического словаря. Программы RuMor, RMUморфологическийанализ, Morphology и др. анализируют только известные слова. Неизвестные системе слова анализируют следующие программы: mystem, Starling, RSO Morphology, ThesaurusBrowser и морфологические модули АОТ. Чтобы оценить существующие программы, мы провели эксперимент. Работа программ расценивалась нами по следующим критериям:

1. Работа с неизвестными словами.

2. Оценка анализа по критерию схожести и полноты.

Отметим, что под схожестью (коэффициент схожести Жаккара) мы понимаем соотношение количества верно определенных словоформ, ложноположительных и ложноотрицательных результатов, а под точностью – соотношение количества верно определенных словоформ и ложноположительных результатов.

В ходе подготовки к эксперименту выяснилось, что программа Pymorphy работает на основе алгоритмов АОТ, поэтому их результаты полностью совпадают. Кроме того, мы не смогли найти в публичном доступе следующие программы: Cir_morph, Libmorphrus, RCO Morphology, RDMA_IAI, Semantarus Morpho. Поэтому в нашем эксперименте участвовали следующие программы: АОТ (Pymorphy), Mystem и Polymorph/Полиморф.

В качестве экспериментального материала нами были отобраны 50 словоформ, не входящих в словарь А. А. Зализняка, то есть потенциально неизвестные слова: ухаживанье,капитанша, увлеченья, сожаленье, рисованья,стрелянием, снурке, тюрбо, почтенье, ухаживаньем, автотрофы, актуализма, Антарктиде, аборигенки, аватар, алкаши, анальгетики,андроид, аэроглиссера, аэрофотоснимок, бабульки, бандюг, барыге, берегинь, биоэнергетика, близняшками, бутсах, видеодатчик,видеокассетами, выгородка, выгородки, выживание, выщербинами, гидрокостюм, грузовоз, девятиэтажке, диаспор, дизайнера, дизайнеров, дубликаторов, заклятьях, засоней,зауряды, золотинка, именья, кадавр, каталка,каталке, котопес, котопса. Слова отбирались следующим методом: предлагалось случайное слово, которое затем проверялось программой по словарю метода аналогий. Если слово отсутствовало в словаре, то оно добавлялось в тестовый набор. Для определения точности анализа все словоформы анализировались всеми программами, а схожесть и полнота анализа оценивались человеком. Затем для каждого модуля вычислялись схожесть и полнота для анализа неизвестных слов, отраженная в таблице:

Таблица 1

Схожесть и полнота автоматического морфологического анализа неизвестных слов тремя анализаторами

Модуль	Схожесть, %	Полнота, %
АОТ	19,87	60,00
Mystem	26,69	69,23
Полиморф	18,87	66,37

Ранее нами были получены данные о том, что метод аналогий является более эффективным, чем рассмотренные выше [2]. Метод аналогий базируется на следующем наблюдении: если в обратном словаре словоформ приписать каждой словоформе ее грамматические признаки (например, признаки части речи, типа словоизменения, рода, числа, падежа, лица и др.), то обнаружится, что многие участки словаря (иногда довольно значительного размера) имеют совершенно одинаковые наборы признаков [1. С. 44]. Поэтому можно предположить, что если для неизвестного слова найти его место в обратном словаре, то его грамматические признаки будут с высокой вероятностью совпадать с признаками слов, находящихся рядом. Специальный словарь, необходимый для работы алгоритма, основанного на методе аналогий, подготавливается следующим образом.

1. Составляется словарь словоформ.

Каждой словоформе приписываются грамматические признаки.

Словарь преобразуется в обратный.

Из словаря исключаются записи о всех идущих подряд словоформах, имеющих одинаковые грамматические признаки, кроме первой и последней.

2. У оставшихся словоформ исключаются начальные совпадающие части, не оказывающие влияния на результаты анализа [1. С. 44–45].

Фактически после выполнения последнего шага мы получаем словарь окончаний, в котором, в редких случаях, могут появляться целые слова.

Алгоритм анализа, по Г. Г. Белоногову, следующий.

1. Проверяется, что слово не входит в дополнительный словарь служебных слов (если

входит, то морфологическая информация извлекается из этого словаря).

Ищется место слова в сокращенном обратном словаре, слову назначается морфологическая информация той позиции в словаре, которая наиболее полно совпадает с конечными буквами слова.

Очевидно, что при таком поиске неизвестные слова анализируются точно так же, как и известные. Г. Г. Белоногов утверждает, что система анализа, построенная на основе метода аналогий, демонстрирует вероятность правильного анализа (включая известные слова) 99 % [1].

Для проверки качества анализа неизвестных слов методом аналогий мы провели эксперимент. Был подготовлен обратный словарь словоформ, основанный на известном словаре А. А. Зализняка, в который были включены только словоформы самостоятельных частейречи. Затем из произведения А. Ф. Достоевского «Идиот» были выбраны слова, отсутствующие в обратном словаре и отвечающие следующим требованиям: имена нарицательные, состоящие целиком из кириллических символов (то есть без тире, апострофа и т. п.), в количестве одной тысячи. После определения морфологических признаков методом аналогий полученные признаки были проверены экспертом-человеком. Эксперимент показал следующие результаты для метода аналогий на реальном художественном тексте:

Точность распознавания части речи 71,6 %.

Точность распознавания морфологических признаков – 36,4 %.

Как видим, точность метода недостаточна для того, чтобы использовать его в полностью автоматизированных системах. Тем не менее, по нашим данным, это один из самых точных существующих методов.

Кроме неудовлетворительной для целей автоматического анализа точности, алгоритм имеет следующие недостатки:

– невозможно добавить новые слова в словарь без полной перестройки;

– одиночные слова, имеющие морфологическая признаки, отличающиеся от признаков слов, находящихся рядом, вызывают проблемы с определением признаков новых слов используется медленный дихотомический поиск.

В связи с вышеизложенным существует необходимость совершенствования описанного алгоритма определения морфологических признаков неизвестных слов.

Для повышения точности, а также упрощения дальнейшего использования результатов работы метода аналогий мы используем нечеткие множества. Понятие нечеткое множество («пушистое множество» в буквальном переводе) было введено Л. А. Заде в его работе «Fuzzy Sets» в журнале Information and Control [4. С. 338–353]. Л. А. Заде расширил канторовское понятие множества, допустив, что функция принадлежности элемента множеству может принимать не только значения 0 или 1, но и любое значение из интервала [0, 1].

Нечеткое множество определяется следующим способом. Пусть задано множество e], тогда нечетким подмножеством a множества е называется множество пар {(μi, xi)}, где x о e μi – степень принадлежности элемента xi к множеству a [3. С. 22].

Нечеткие множества позволяют моделировать широкий круг явлений: омонимию, размытость семантического поля и так далее, и сгладить противоречие между естественным языком и его моделью при автоматическом анализе.

Измененный метод работает следующим образом. По заданной графической форме алгоритм ищет в обратном словаре запись, ей соответствующую. Если запись найдена, алгоритм выдает морфологические признаки, ассоциированные с ней, и завершает работу.Если словоформа не найдена в словаре, то алгоритм находит место, в которое должна быть вставлена данная словоформа. Затем алгоритм находит пять ближайших предыдущих и пять последующих записей и сводит информацию о морфологических признаках из найденных десяти записей в одно нечеткое множество. Чем дальше запись от предполагаемого места вставки новой словоформы, тем меньший вклад она вносит в результирующее множество.

Например, пусть нам нужно определить морфологические признаки графемы липосомы (человек-эксперт укажет следующие признаки: ед. род., мн. вин. и мн. им. от жен., неод. от липосома). Данная словоформа отсутствует в обратном словаре, поэтому алгоритм помещает ее в обратный словарь таким образом, что соседними записями в обратном словаре окажутся следующие:

сомы; сущ.. муж., им., мн., одуш.; сущ., жен., им., мн., неодуш.; сущ., жен., род., ед., неод.; сущ., жен., вин., мн., неодуш.

весомы; прил., кратк., полож., мн.

невесомы; прил., кратк., полож., мн.

идиосомы; сущ., жен., им., мн., неод; сущ., жен., род., ед., неод.; сущ., жен., вин., мн., неодуш.

хромосомы; сущ., жен., им., мн., неод; сущ., жен., род., ед., неод.; сущ., жен., вин., мн., неодуш.

атомы; атомы; сущ., муж., им., мн., неод.; сущ., муж., вин., мн., неод.;

гематомы; сущ., жен., им., мн., неод; сущ., жен., род., ед., неод.; сущ., жен., вин., мн., неодуш.

анатомы; сущ., муж., им., мн., од.

патологоанатомы; сущ., муж., им., мн., од.

тератомы; сущ., жен., им., мн., неод.; сущ.,жен., род., ед., неод.; сущ., жен., вин., мн., неод.

В результате объединения информации из всех записей мы получаем следующее нечеткое множество, отсортированное по функции принадлежности:

{сущ., жен., род., ед., неод. / 0,93,

сущ., жен., им., мн., неод. / 0,93,

сущ., жен., вин., мн., неод. / 0,93,

сущ., муж., им., мн., од. / 0,73,

прил., кратк., полож., мн. / 0,61,

сущ., муж., им., мн., неод. / 0,50,

сущ., муж., вин., мн., неод. / 0,50}

Как можно видеть, правильные комбинации граммем получили наибольший вес, несмотря на то, что в рассматриваемый участок словаря попали не только существительные мужского рода, но и краткие прилагательные. Проверка качества анализа неизвестных слов предлагаемым алгоритмом была произведена на тексте Н. В. Гоголя «Мертвые души».

Проверка проводилась экспертом-человеком путем случайной выборки двухсот словоупотреблений, не входящих в обратный словарь словоформ. в результате предпринятых изменений схожесть определения Морфологических признаков неизвестных слов возросла с 36 % до 52 %, что можно признать удовлетворительным результатом. Кроме того, выбранный метод записи информации о неизвестном слове позволяет в дальнейшем анализе учесть новую информацию о слове – например, контекст.

Таким образом, метод аналогий является одним из самых точных методов определения морфологических признаков неизвестных слов и имеет потенциал для улучшения, что показано в данной работе.

Список литературы

1. Белоногов, Г. Г. Компьютерная лингвистика и перспективные информационные технологии. М., 2004. 248 с.

2. Гашков, А. В. Оценка эффективности метода аналогий при автоматическом определении морфологических свойств неизвестныхслов // Вестн. Челяб. гос. ун-та. 2010. № 7. Филология. Искусствоведение. Вып. 41. С. 27–31.

3. Кофман, А. Введение в теорию нечетких множеств. М., 1982. 432 с.

4. Zadeh, L. A. Fuzzy sets // Information and control. 1965. Vol. 8, n. 3. Р. 338-353.