Назад в библиотеку

Словообразовательная база знаний экспертной обучающей системы


Автор: Вороной С.М., Єгошина А.А.

Источник: Международная научная конференция Интеллектуальный анализ информации. — 2009.

Анотация

Для экспертной обучающей системы предложена логическая структура словообразовательной базы знаний и формальная модель узлов дерева, включающий описание методов словообразования с использованием функций выбора.


Введение


Проблема обработки естественно языковой информации остается актуальной на протяжении последних десятилетий. Системы информационного поиска, диалоговые системы, средства машинного перевода и автоматического реферирования, модули проверки правописания используют анализ текстов, написанных на естественном языке.

Использование словообра зовательного компонента в информационно-поисковых системах предоставляет возможности для расширения полноты запроса, необходимость которого вызвана малым количеством обнаруженных ресурсов. Наличие модуля словообразования в системах обработки текстов приспосабливает их к работе с неопо-знанными словами, которые образованы путем сложения основ, конверсией частей речи, с помощью аффиксов и т.д.

Словообразовательные процессы — это основной путь пополнения лексики языка, в связи с этим модуль словообразования является неотъемлемой частью современных интеллектуальных информационно-поисковых и обучающих систем с естественно языковым интерфейсом.

Актуальность разработки системы обучения словообразованию обусловлена тем, что знание словообразовательной системы способствует формированию и развитию у изучающих русский язык навыков грамотной речи: правильного употребления производных слов в структуре синтаксических единиц, соблюдения норм согласования и управления, умения пользоваться синонимическими разноуровневыми языковыми средствами и т.д. [1].


Постановка задачи


Обучение включает в себя больше, чем просто представление информации; необходима проверка действий обучаемого с динамичной обратной связью в процессе обучения для избежания ошибочных выводов, а также отложенная обратная связь для периодической оценки знаний обучаемого. Парадигма экспертной системы позволяет очень четко разделить знания и их обработку, увеличивая возможность многократного проведения такого процесса [2].

Одним из основных компонентов экспертной системы является база знаний (БЗ), предназначенная для хранения долгосрочных данных, описывающих словообразовательную область (словари флективных классов, корней, аффиксов и окончаний) [3], а также правил словообразовательного синтеза и чередований.

Разработка БЗ на основе устроенного по семантическому принципу словообразовательного словаря Тихонова позволит применять при словообразовательном анализе и синтезе основные принципы объектно-ориентированного программирования, в первую очередь наследование. Мотивационные и семантические отношения в словообразовании можно трактовать и использовать как связи множественного наследования признаков. Множественного наследования потому, что мотивированное слово наследует признаки как минимум от двух источников: от слова основы и от словообразующего форманта.


Словообразовательная база знаний экспертной обучающей системы


Словообразовательная БЗ представляет собой лес, в качестве деревьев которого выступают словообразовательные гнезда словаря Тихонова. Дерево — одна из наиболее распространенных структур, используемых для представления данных в ЭВМ. Подобные структуры широко применяются при организации банков данных, систем управления базами данных, в системах программного имитационного моделирования сложных комплексов и т.д. собое значение сетевые структуры приобрели в системах искусственного интеллекта, в которых они адекватно отражают логику организации данных и сложные отношения, возникающие в таких системах между различными элементами данных. В этих системах деревья применяются для представления логических конструкций, необходимых для представления знаний, образования понятий и осуществления логических выводов.

Формально дерево (tree) представляет собой конечное множество Т одного или более узлов со следующими свойствами:

  1. Существует один выделенный узел, а именно корень (root) данного дерева Т;
  2. Остальные узлы распределены среди m>=0 непересекающихся множеств Т1,...Тm, и каждое из этих множеств в свою очередь является деревом, деревья Т1,...Тm называются поддеревьями (subtrees) данного корня.

Выбор представления дерева зависит от решаемой задачи и способа ее решения. Узлом дерева назовем структуру Аkij=<U(R),za,Sa(x)ij>, [1].

где U(R) — объединение элементов множества формантов R, представляющее собой производящую основу;

za — часть речи слова, образующегося в узле Аkij;

Sa(x)ij функция, задающая способ словообразования, с помощью которого образуется узел Аkij, (x)ij — формат.

Корнями деревьев являются первые и обязательные ступени словообразования, которые являются непроизводными.

На каждой ступени словообразования может быть образовано большое число производных слов. Порядок размещения узлов (производных слов) дерева на каждом ярусе учитывает их семантическую близость к родительскому узлу (производящему слову), а также лексико-грамматические и словообразовательные отношения. Например, для имени существительного со значением лица наиболее семантически близкими являются уменьшительно-ласкательные и увеличительные существительные; за ними идут названия лиц женского пола, детей (при названии животных–самок и детенышей).

Самые близкие производные слова в лексико-грамматическом отношении для качественных прилагательных — это формы оценки. Для глаголов — это возвратные глаголы и существительные со значением процесса.


Наиболее широким является первый ярус дерева. Принцип размещения узлов (производных слов) следующий:

  1. если родительский узел–имя существительное, то дочерние узлы размещены в таком порядке:
    1. формы оценки исходного существительного;
    2. остальные имена существительные;
    3. имена прилагательные;
    4. наречия;
    5. рефиксальные и префиксально-суффиксальные имена существительные и имена прилагательные (в алфавитном порядке);
    6. глаголы.

    В каждом из этих разрядов может быть один, несколько или множество узлов. Однако редки случаи, когда в ярусе встречаются все перечисленные разряды.


  2. если родительский узел–имя прилагательное:
    1. субстантивные прилагательные;
    2. формы оценки исходного прилагательного;
    3. бесприставочные имена прилагательные;
    4. наречия;
    5. имена существительные;
    6. префиксальные прилагательные и наречия;
    7. глаголы.
  3. если родительский узел–имя числительное:
    1. собирательные числительные;
    2. существительные;
    3. количественные существительные;
    4. наречия;
    5. прилагательные.
  4. если родительский узел–глагол:
    1. возвратный глагол;
    2. суффиксальная форма несовершенного вида
    3. однократный глагол;
    4. многократный глагол;
    5. отглагольные существительные;
    6. причастия;
    7. прилагательные;
    8. наречия;
    9. префиксальные и префиксально-суффиксальные глаголы.

Местоимения и наречия как производящие основы выступают редко, поэтому необходимость разработки принципа размещения производных не возникает.

Для учета описанного порядка размещения узлов в структуру, описывающую элемент узла дерева, вводится дополнительный элемент К, представляющий собой бинарный массив, длина которого равна максимальному числу категорий перечисленных выше частей речи. Наибольшим числом категорий, равным девяти, обладает глагол K=[k1, k2, ... k9]. (2)

Если у текущего родительского узла существуют потомки, обладающие i-м свойством, то ki=1, если же таких потомков нет или число свойств меньше i, то ki=0. То есть, например ∀ki (i>6→ki=0);

Таким образом, структура (1) будет иметь вид: Аkij=<U(R),za,Sa(x)ij>. (3)

Причем, под именами элементов массива будет подразумеваться название категории, свойственной части речи za. То есть узел — имя существительное, то выражение K=[k1=1 будет означать наличие потомков, обозначающих формы оценки исходного существительного, однако если в качестве родительского узла выступает глагол, то выражение K=[k1=1 удет означать наличие потомков, являющихся возвратными глаголами.

Рассмотрим первую ступень словообразования прилагательного бедный:

бедн(ый)

бедн-ейш-ий

бедн-оват-ый

бедн-еньк-ий

бедн-о

бедн-ость

бедн-от-а

бедн-як

без-бедн-ый

пре-бедн-ый

бедн-е-ть

при-бедн-ить-ся

Для данного примера элементы массива категорий будут иметь такие значения: К={0,1,1,1,1,1,1,0,0}. Первые семь элементов обозначают наличие или отсутствие потомков, обладающих характеристиками, свойственными производным прилагательного. Последние два элемента равны нулю, так как категорий производных прилагательного существует только семь.

Аффиксы, хранящиеся в словарях, структура которых приведена в [3], будем трактовать как факты БЗ. А функции Sa(x)ij, задающие законы словообразования,–как правила БЗ.

Однако, следует отметить, что поведение одного и того же аффикса в разных ситуациях различно, то есть одному и тому же аффиксу могут соответствовать разные правила.

Сведения об объекте представляют собой множество информационных характеристик, таких, как код аффикса(x), часть речи родительского узла и текущего(c), финаль основы производящего слова(f) π=. (4)

Части речи родительского и текущего узлов предлагается представить в видекодов, первый разряд которых соответствуют коду части речи родительского узла, а второй–текущего.


Заключение


Таким образом, в настоящей работе предложена логическая структура слово образовательной базы знаний и формальная модель узлов дерева, включающая описания методов словообразования с использованием функций выбора.

В дальнейшем планируется разработка эвристического алгоритма нахождения пути к узлу дерева, обладающему требуемой семантикой. Полученные результаты применяются при разработке экспертной обучающей системы словообразованию русского языка.


Список использованной литературы


1. Потиха З.А. Современное русское словообразование.   М.: Просвещение. 1970.

2. Рыбина Г.В., Рыбин В.М. Опыт разработки и перспективы использования обучающих интегрированных экспертных систем в учебном процессе // Научная сессия МИФИ–2007. Сб.научных трудов: В 17 т. — М.: МИФИ. — Т. 3. Интеллектуальные системы и технологии. — С. 37–39.

3. Егошина А.А. Об одном способе построения статического словаря морфологического процессора // Материалы Седьмой Международной научно-технической конференции Искусственный интеллект. Интеллектуальные и многопроцессорные системы — 2006. — Таганрог:Издательство ТРТУ. — 2006. — Т. 2. — С. 305–309.