Повышение точности определения морфологических признаков неизвестных слов методом аналогий с помощью нечетких множеств
Автор: А. В. Гашков
Источник: Вестник Челябинского государственного университета. 2014. № 7 (336). Филология. Искусствоведение. Вып. 89. С. 20–23.
Аннотация
Проблема определения морфологических признаков неизвестных слов, то есть таких, которые не содержатся в словаре автоматической системы, пока не имеет удовлетворительного решения. Известные системы определяют морфологические признаки неизвестных слов с точностью менее 30 %, что недостаточно для спользования таких систем в полностью автоматическом режиме. Предполагается, что использование метода аналогий в сочетании с нечеткими множествами может лучшить качество анализа. Проведенные эксперименты показали, что точность определения признаков неизвестных слов возросла до 50 %, что автор полагает довлетворительным результатом.
Ключевые слова: метод аналогий, морфология, неизвестное слово, нечеткое множество, автоматический анализ текста.
Определение признаков слов, которые отсутствуют в словаре автоматической системы анализа текста на естественном языке (неизвестные слова) остается одной из проблем, все еще не имеющих удовлетворительного решения. В настоящее время как в России, так и за рубежом на рынке существуют много коммерческих программ и бесплатных модулей, которые, на наш взгляд, успешно справляются именно с задачами морфологического анализа: определяют начальную форму слова, выдают морфологическую информацию о слове. Все известные нам отечественные системы работают на основе словаря основ, большая часть изученных нами программ (Starling, mystem, RuMor, RMUморфологический анализ, Cir_morph, Semantarus Morpho/Семантарус Морфо и др.) работает на основе классической модели А. А. Зализняка и его грамматического словаря. Программы RuMor, RMUморфологическийанализ, Morphology и др. анализируют только известные слова. Неизвестные системе слова анализируют следующие программы: mystem, Starling, RSO Morphology, ThesaurusBrowser и морфологические модули АОТ. Чтобы оценить существующие программы, мы провели эксперимент. Работа программ расценивалась нами по следующим критериям:
1. Работа с неизвестными словами.
2. Оценка анализа по критерию схожести и полноты.
Отметим, что под схожестью (коэффициент схожести Жаккара) мы понимаем соотношение количества верно определенных словоформ, ложноположительных и ложноотрицательных результатов, а под точностью – соотношение количества верно определенных словоформ и ложноположительных результатов.
В ходе подготовки к эксперименту выяснилось, что программа Pymorphy работает на основе алгоритмов АОТ, поэтому их результаты полностью совпадают. Кроме того, мы не смогли найти в публичном доступе следующие программы: Cir_morph, Libmorphrus, RCO Morphology, RDMA_IAI, Semantarus Morpho. Поэтому в нашем эксперименте участвовали следующие программы: АОТ (Pymorphy), Mystem и Polymorph/Полиморф.
В качестве экспериментального материала нами были отобраны 50 словоформ, не входящих в словарь А. А. Зализняка, то есть потенциально неизвестные слова: ухаживанье,капитанша, увлеченья, сожаленье, рисованья,стрелянием, снурке, тюрбо, почтенье, ухаживаньем, автотрофы, актуализма, Антарктиде, аборигенки, аватар, алкаши, анальгетики,андроид, аэроглиссера, аэрофотоснимок, бабульки, бандюг, барыге, берегинь, биоэнергетика, близняшками, бутсах, видеодатчик,видеокассетами, выгородка, выгородки, выживание, выщербинами, гидрокостюм, грузовоз, девятиэтажке, диаспор, дизайнера, дизайнеров, дубликаторов, заклятьях, засоней,зауряды, золотинка, именья, кадавр, каталка,каталке, котопес, котопса. Слова отбирались следующим методом: предлагалось случайное слово, которое затем проверялось программой по словарю метода аналогий. Если слово отсутствовало в словаре, то оно добавлялось в тестовый набор. Для определения точности анализа все словоформы анализировались всеми программами, а схожесть и полнота анализа оценивались человеком. Затем для каждого модуля вычислялись схожесть и полнота для анализа неизвестных слов, отраженная в таблице:
Таблица 1
Схожесть и полнота автоматического морфологического анализа неизвестных слов тремя анализаторами
Модуль
|
Схожесть, %
|
Полнота, %
|
АОТ
|
19,87
|
60,00
|
Mystem
|
26,69
|
69,23
|
Полиморф
|
18,87
|
66,37
|
Ранее нами были получены данные о том, что метод аналогий является более эффективным, чем рассмотренные выше [2]. Метод аналогий базируется на следующем наблюдении: если в обратном словаре словоформ приписать каждой словоформе ее грамматические признаки (например, признаки части речи, типа словоизменения, рода, числа, падежа, лица и др.), то обнаружится, что многие участки словаря (иногда довольно значительного размера) имеют совершенно одинаковые наборы признаков [1. С. 44]. Поэтому можно предположить, что если для неизвестного слова найти его место в обратном словаре, то его грамматические признаки будут с высокой вероятностью совпадать с признаками слов, находящихся рядом. Специальный словарь, необходимый для работы алгоритма, основанного на методе аналогий, подготавливается следующим образом.
1. Составляется словарь словоформ.
Каждой словоформе приписываются грамматические признаки.
Словарь преобразуется в обратный.
Из словаря исключаются записи о всех идущих подряд словоформах, имеющих одинаковые грамматические признаки, кроме первой и последней.
2. У оставшихся словоформ исключаются начальные совпадающие части, не оказывающие влияния на результаты анализа [1. С. 44–45].
Фактически после выполнения последнего шага мы получаем словарь окончаний, в котором, в редких случаях, могут появляться целые слова.
Алгоритм анализа, по Г. Г. Белоногову, следующий.
1. Проверяется, что слово не входит в дополнительный словарь служебных слов (если
входит, то морфологическая информация извлекается из этого словаря).
Ищется место слова в сокращенном обратном словаре, слову назначается морфологическая информация той позиции в словаре, которая наиболее полно совпадает с конечными буквами слова.
Очевидно, что при таком поиске неизвестные слова анализируются точно так же, как и известные. Г. Г. Белоногов утверждает, что система анализа, построенная на основе метода аналогий, демонстрирует вероятность правильного анализа (включая известные слова) 99 % [1].
Для проверки качества анализа неизвестных слов методом аналогий мы провели эксперимент. Был подготовлен обратный словарь словоформ, основанный на известном словаре А. А. Зализняка, в который были включены только словоформы самостоятельных частейречи. Затем из произведения А. Ф. Достоевского «Идиот» были выбраны слова, отсутствующие в обратном словаре и отвечающие следующим требованиям: имена нарицательные, состоящие целиком из кириллических символов (то есть без тире, апострофа и т. п.), в количестве одной тысячи. После определения морфологических признаков методом аналогий полученные признаки были проверены экспертом-человеком. Эксперимент показал следующие результаты для метода аналогий на реальном художественном тексте:
Точность распознавания части речи 71,6 %.
Точность распознавания морфологических признаков – 36,4 %.
Как видим, точность метода недостаточна для того, чтобы использовать его в полностью автоматизированных системах. Тем не менее, по нашим данным, это один из самых точных существующих методов.
Кроме неудовлетворительной для целей автоматического анализа точности, алгоритм имеет следующие недостатки:
– невозможно добавить новые слова в словарь без полной перестройки;
– одиночные слова, имеющие морфологическая признаки, отличающиеся от признаков слов, находящихся рядом, вызывают проблемы с определением признаков новых слов используется медленный дихотомический поиск.
В связи с вышеизложенным существует необходимость совершенствования описанного алгоритма определения морфологических признаков неизвестных слов.
Для повышения точности, а также упрощения дальнейшего использования результатов работы метода аналогий мы используем нечеткие множества. Понятие нечеткое множество («пушистое множество» в буквальном переводе) было введено Л. А. Заде в его работе «Fuzzy Sets» в журнале Information and Control [4. С. 338–353]. Л. А. Заде расширил канторовское понятие множества, допустив, что функция принадлежности элемента множеству может принимать не только значения 0 или 1, но и любое значение из интервала [0, 1].
Нечеткое множество определяется следующим способом. Пусть задано множество e], тогда нечетким подмножеством a множества е называется множество пар {(μi, xi)}, где x о e μi – степень принадлежности элемента xi к множеству a [3. С. 22].
Нечеткие множества позволяют моделировать широкий круг явлений: омонимию, размытость семантического поля и так далее, и сгладить противоречие между естественным языком и его моделью при автоматическом анализе.
Измененный метод работает следующим образом. По заданной графической форме алгоритм ищет в обратном словаре запись, ей соответствующую. Если запись найдена, алгоритм выдает морфологические признаки, ассоциированные с ней, и завершает работу.Если словоформа не найдена в словаре, то алгоритм находит место, в которое должна быть вставлена данная словоформа. Затем алгоритм находит пять ближайших предыдущих и пять последующих записей и сводит информацию о морфологических признаках из найденных десяти записей в одно нечеткое множество. Чем дальше запись от предполагаемого места вставки новой словоформы, тем меньший вклад она вносит в результирующее множество.
Например, пусть нам нужно определить морфологические признаки графемы липосомы (человек-эксперт укажет следующие признаки: ед. род., мн. вин. и мн. им. от жен., неод. от липосома). Данная словоформа отсутствует в обратном словаре, поэтому алгоритм помещает ее в обратный словарь таким образом, что соседними записями в обратном словаре окажутся следующие:
сомы; сущ.. муж., им., мн., одуш.; сущ., жен., им., мн., неодуш.; сущ., жен., род., ед., неод.; сущ., жен., вин., мн., неодуш.
весомы; прил., кратк., полож., мн.
невесомы; прил., кратк., полож., мн.
идиосомы; сущ., жен., им., мн., неод; сущ., жен., род., ед., неод.; сущ., жен., вин., мн., неодуш.
хромосомы; сущ., жен., им., мн., неод; сущ., жен., род., ед., неод.; сущ., жен., вин., мн., неодуш.
атомы; атомы; сущ., муж., им., мн., неод.; сущ., муж., вин., мн., неод.;
гематомы; сущ., жен., им., мн., неод; сущ., жен., род., ед., неод.; сущ., жен., вин., мн., неодуш.
анатомы; сущ., муж., им., мн., од.
патологоанатомы; сущ., муж., им., мн., од.
тератомы; сущ., жен., им., мн., неод.; сущ.,жен., род., ед., неод.; сущ., жен., вин., мн., неод.
В результате объединения информации из всех записей мы получаем следующее нечеткое множество, отсортированное по функции принадлежности:
{сущ., жен., род., ед., неод. / 0,93,
сущ., жен., им., мн., неод. / 0,93,
сущ., жен., вин., мн., неод. / 0,93,
сущ., муж., им., мн., од. / 0,73,
прил., кратк., полож., мн. / 0,61,
сущ., муж., им., мн., неод. / 0,50,
сущ., муж., вин., мн., неод. / 0,50}
Как можно видеть, правильные комбинации граммем получили наибольший вес, несмотря на то, что в рассматриваемый участок словаря попали не только существительные мужского рода, но и краткие прилагательные. Проверка качества анализа неизвестных слов предлагаемым алгоритмом была произведена на тексте Н. В. Гоголя «Мертвые души».
Проверка проводилась экспертом-человеком путем случайной выборки двухсот словоупотреблений, не входящих в обратный словарь словоформ. в результате предпринятых изменений схожесть определения Морфологических признаков неизвестных слов возросла с 36 % до 52 %, что можно признать удовлетворительным результатом. Кроме того, выбранный метод записи информации о неизвестном слове позволяет в дальнейшем анализе учесть новую информацию о слове – например, контекст.
Таким образом, метод аналогий является одним из самых точных методов определения морфологических признаков неизвестных слов и имеет потенциал для улучшения, что показано в данной работе.
Список литературы
1. Белоногов, Г. Г. Компьютерная лингвистика и перспективные информационные технологии. М., 2004. 248 с.
2. Гашков, А. В. Оценка эффективности метода аналогий при автоматическом определении морфологических свойств неизвестныхслов // Вестн. Челяб. гос. ун-та. 2010. № 7. Филология. Искусствоведение. Вып. 41. С. 27–31.
3. Кофман, А. Введение в теорию нечетких множеств. М., 1982. 432 с.
4. Zadeh, L. A. Fuzzy sets // Information and control. 1965. Vol. 8, n. 3. Р. 338-353.