Назад в библиотеку

Разработка алгоритмов построения морфологического анализатора на основе словаря

Автор: Круть А.В., Ольшевский А.И.
Источник: Информатика, управляющие системы, математическое и компьютерное моделирование (ИУСМКМ - 2021) - Донецк : ДонНТУ, 2021. - С. 416-420.

Аннотация

Круть А.В., Ольшевский А.И. Разработка алгоритмов построения морфологического анализатора на основе словаря В данной статье рассмотрены методы морфологического анализа, модели, способы и формы представления словарей. Описана структурная схема взаимодействия программных модулей.

Введение

В большинстве естественных языков наблюдается такое явление, как морфологическая изменяемость слов. Данное явление сильно выражено в русском и украинском языках, которые относятся к группе флективных языков со сложной системой флексий.

К числу основных функций, обеспечиваемых морфологическим анализатором, относятся получение всех словоформ слова, постановка слова в заданную форму (например, словарную) и получение грамматических характеристик словоформы(части речи, рода, числа, падежа и других). При применении морфологического анализатора к разбору связного текста возникает комплекс проблем, которые выдвигают дополнительные требования к модулю морфологического анализа. Большая часть слов русского текста представляет неизменный фундамент языка и охватывается словарем в пределах 100 тысяч слов. Другая, более редкая, но не менее важная составляющая лексикона, постоянно пополняется и в принципе не имеет четко очерченных границ, прежде всего в части имен собственных и словообразовательных вариантов известных слов. К счастью, общие правила словообразования и словоизменения обладают регулярностью, что позволяет во многих случаях достаточно точно идентифицировать не только модель словоизменения, но и лексико-семантический разряд неизвестного слова. Возможность анализа неизвестных слов – необходимое качество морфологического анализатора.

Актуальность проблемы морфологического анализа и синтеза словоформ определяется тем, что блок морфологического анализа является необходимой частью большинства работающих с естественно-языковыми текстами программ самого различного уровня и назначения.

Обзор основных принципов построения компьютерной морфологии

Морфологическим анализом называется установление по словоформе исходного слова – лексемы, а также морфологических характеристик данной словоформы, таких как род, падеж, число и т.д. Разрабатываемый морфологический анализатор должен будет выполнять морфологический анализ, и выявлять существительные-понятия данного текста.

Среди методов морфологического анализа, использующихся в лингвистических процессорах, можно выделить методы с декларативной и с процедурной ориентацией. Для методов декларативной ориентации характерно наличие полного словаря всех возможных словоформ для каждого слова. При этом каждая словоформа снабжается полной и однозначной морфологической информацией, куда входят как постоянные, так и переменные морфологические параметры. Задача морфологического анализа в этом случае сводится к поиску нужной словоформы в словаре и копированию морфологической информации, соответствующей найденной словоформе, в программу.

В процедурных методах используют вероятностно-статистические методы и лексиконы суффиксов или квази-суффиксов, основ или квази-основ, построенных эмпирически. Каждое слово разделяется на основу и аффикс, и словарь содержит только основы слов вместе со ссылками на соответствующие строки в таблице возможных аффиксов. Основной критерий при разбиении слова на основу и аффикс – основа должна оставаться неизменной во всех возможных словоформах данного слова. Поскольку большое количество слов русского языка имеет одни и те же аффиксы, то суммарный объем словаря основ и словаря аффиксов оказывается значительно меньше, чем объем полного словаря всех словоформ, используемого в декларативных методах. Однако процедура морфологического анализа усложняется: теперь из словаря основ необходимо поочередно выбирать все основы, совпадающие с начальными буквами анализируемого слова, и для каждой такой основы перебирать все возможные для нее аффиксы. В случае точного совпадения очередного варианта «основа+ аффикс» с анализируемым словом вариант анализа считается успешным, и в программу передается морфологическая информация, соответствующая данной основе и данному аффиксу. При этом, как правило, постоянные морфологические параметры определяются основой слова, а переменные – аффиксом.

Структурная схема взаимодействия модулей

Неотъемлемой частью любой конфигурации является программный модуль. Программным он называется потому, что содержит в себе исходные тексты алгоритмов, написанных на встроенном языке, или, проще – код. Строительными элементами программного модуля являются операторы и комментарии.

На рисунке 1 представлена схема логической структуры программы.

pic1

Рисунок 1 – Структурная схема взаимодействия модулей

Выводы

В результате анализа были выбраны методы построения структуры морфологического словаря и способов программирования, позволяющих минимальными силами решить поставленную задачу применительно к текстам произвольной сложности. Для реализации предложенной модели морфологического анализатора и анализа эффективности разработанных структур словаря были использованы современные средства в области веб – программирования.

Данная разработка является открытой – предложенную модель морфологического анализатора можно встроить в любые компьютерные системы для веб - платформы, обрабатывающие тексты на естественном языке.

Список использованной литературы

1. Зализняк А. А. Грамматический словарь русского языка. Словоизменение / А. А..Зализняк. –М. :Русский язык, 1977. – 880 с.
2. Аношкина Ж.Г. Морфологический процессор русского языка / Ж.Г. Аношкина.// Альманах «Говор». – 1995. – №6. – С. 17-23.
3. Ножов И.М. Процессор автоматизированного морфологического анализа без словаря. Деревья и корреляция. / Ножов И.М. // Диалог’2000. Труды конференции. – Протвино, 2000. – Т.2. – С. 284-290.
4. Сокирко А.В. Морфологические модули на сайте / А.В. Сокирко. // Диалог- 2004. – 2004. – Т.1. – С. 3-18.
5. Ермаков А.Е. Выделение объектов в тексте на основе формальных описаний /А.Е. Ермаков, В.В. Плешко, В.А. Митюнин. // Информационные технологии. – 2003. – №12.