Интеллектуальный анализ информации. — 2009.
Для экспертной обучающей системы предложена логическая структура словообразовательной базы знаний и формальная модель узлов дерева, включающий описание методов словообразования с использованием функций выбора.
Проблема обработки естественно языковой информации остается актуальной на протяжении последних десятилетий. Системы информационного поиска, диалоговые системы, средства машинного перевода и автоматического реферирования, модули проверки правописания используют анализ текстов, написанных на естественном языке.
Использование словообра зовательного компонента в информационно-поисковых системах предоставляет возможности для расширения полноты запроса, необходимость которого вызвана малым количеством обнаруженных ресурсов. Наличие модуля словообразования в системах обработки текстов приспосабливает их к работе с неопо-знанными словами, которые образованы путем сложения основ, конверсией частей речи, с помощью аффиксов и т.д.
Словообразовательные процессы — это основной путь пополнения лексики языка, в связи с этим модуль словообразования является неотъемлемой частью современных интеллектуальных информационно-поисковых и обучающих систем с естественно языковым интерфейсом.
Актуальность разработки системы обучения словообразованию обусловлена тем, что знание словообразовательной системы способствует формированию и развитию у изучающих русский язык навыков грамотной речи: правильного употребления производных слов в структуре синтаксических единиц, соблюдения норм согласования и управления, умения пользоваться синонимическими разноуровневыми языковыми средствами и т.д. [1].
Обучение включает в себя больше, чем просто представление информации; необходима проверка действий обучаемого с динамичной обратной связью в процессе обучения для избежания ошибочных выводов, а также отложенная обратная связь для периодической оценки знаний обучаемого. Парадигма экспертной системы позволяет очень четко разделить знания и их обработку, увеличивая возможность многократного проведения такого процесса [2].
Одним из основных компонентов экспертной системы является база знаний (БЗ), предназначенная для хранения долгосрочных данных, описывающих словообразовательную область (словари флективных классов, корней, аффиксов и окончаний) [3], а также правил словообразовательного синтеза и чередований.
Разработка БЗ на основе устроенного по семантическому принципу словообразовательного словаря Тихонова позволит применять при словообразовательном анализе и синтезе основные принципы объектно-ориентированного программирования, в первую очередь наследование. Мотивационные и семантические отношения в словообразовании можно трактовать и использовать как связи множественного наследования признаков. Множественного наследования потому, что мотивированное слово наследует признаки как минимум от двух источников: от слова основы и от словообразующего форманта.
Словообразовательная БЗ представляет собой лес, в качестве деревьев которого выступают словообразовательные гнезда словаря Тихонова. Дерево — одна из наиболее распространенных структур, используемых для представления данных в ЭВМ. Подобные структуры широко применяются при организации банков данных, систем управления базами данных, в системах программного имитационного моделирования сложных комплексов и т.д. собое значение сетевые структуры приобрели в системах искусственного интеллекта, в которых они адекватно отражают логику организации данных и сложные отношения, возникающие в таких системах между различными элементами данных. В этих системах деревья применяются для представления логических конструкций, необходимых для представления знаний, образования понятий и осуществления логических выводов.
Формально дерево (tree) представляет собой конечное множество Т одного или более узлов со следующими свойствами:
Выбор представления дерева зависит от решаемой задачи и способа ее решения. Узлом дерева назовем структуру Аkij=<U(R),za,Sa(x)ij>, [1].
где U(R) — объединение элементов множества формантов R, представляющее собой производящую основу;
za — часть речи слова, образующегося в узле Аkij;
Sa(x)ij функция, задающая способ словообразования, с помощью которого образуется узел Аkij, (x)ij — формат.
Корнями деревьев являются первые и обязательные ступени словообразования, которые являются непроизводными.
На каждой ступени словообразования может быть образовано большое число производных слов. Порядок размещения узлов (производных слов) дерева на каждом ярусе учитывает их семантическую близость к родительскому узлу (производящему слову), а также лексико-грамматические и словообразовательные отношения. Например, для имени существительного со значением лица наиболее семантически близкими являются уменьшительно-ласкательные и увеличительные существительные; за ними идут названия лиц женского пола, детей (при названии животных–самок и детенышей).
Самые близкие производные слова в лексико-грамматическом отношении для качественных прилагательных — это формы оценки. Для глаголов — это возвратные глаголы и существительные со значением процесса.
Наиболее широким является первый ярус дерева. Принцип размещения узлов (производных слов) следующий:
В каждом из этих разрядов может быть один, несколько или множество узлов. Однако редки случаи, когда в ярусе встречаются все перечисленные разряды.
Местоимения и наречия как производящие основы выступают редко, поэтому необходимость разработки принципа размещения производных не возникает.
Для учета описанного порядка размещения узлов в структуру, описывающую элемент узла дерева, вводится дополнительный элемент К, представляющий собой бинарный массив, длина которого равна максимальному числу категорий перечисленных выше частей речи. Наибольшим числом категорий, равным девяти, обладает глагол K=[k1, k2, ... k9]. (2)
Если у текущего родительского узла существуют потомки, обладающие i-м свойством, то ki=1, если же таких потомков нет или число свойств меньше i, то ki=0. То есть, например ∀ki (i>6→ki=0);
Таким образом, структура (1) будет иметь вид: Аkij=<U(R),za,Sa(x)ij>. (3)
Причем, под именами элементов массива будет подразумеваться название категории, свойственной части речи za. То есть узел — имя существительное, то выражение K=[k1=1 будет означать наличие потомков, обозначающих формы оценки исходного существительного, однако если в качестве родительского узла выступает глагол, то выражение K=[k1=1 удет означать наличие потомков, являющихся возвратными глаголами.
Рассмотрим первую ступень словообразования прилагательного бедный:
бедн(ый)
бедн-ейш-ий
бедн-оват-ый
бедн-еньк-ий
бедн-о
бедн-ость
бедн-от-а
бедн-як
без-бедн-ый
пре-бедн-ый
бедн-е-ть
при-бедн-ить-ся
Для данного примера элементы массива категорий будут иметь такие значения: К={0,1,1,1,1,1,1,0,0}. Первые семь элементов обозначают наличие или отсутствие потомков, обладающих характеристиками, свойственными производным прилагательного. Последние два элемента равны нулю, так как категорий производных прилагательного существует только семь.
Аффиксы, хранящиеся в словарях, структура которых приведена в [3], будем трактовать как факты БЗ. А функции Sa(x)ij, задающие законы словообразования,–как правила БЗ.
Однако, следует отметить, что поведение одного и того же аффикса в разных ситуациях различно, то есть одному и тому же аффиксу могут соответствовать разные правила.
Сведения об объекте представляют собой множество информационных характеристик, таких, как код аффикса(x), часть речи родительского узла и текущего(c), финаль основы производящего слова(f) π=
Части речи родительского и текущего узлов предлагается представить в видекодов, первый разряд которых соответствуют коду части речи родительского узла, а второй–текущего.
Таким образом, в настоящей работе предложена логическая структура слово образовательной базы знаний и формальная модель узлов дерева, включающая описания методов словообразования с использованием функций выбора.
В дальнейшем планируется разработка эвристического алгоритма нахождения пути к узлу дерева, обладающему требуемой семантикой. Полученные результаты применяются при разработке экспертной обучающей системы словообразованию русского языка.
1. Потиха З.А. Современное русское словообразование. М.: Просвещение. 1970.
2. Рыбина Г.В., Рыбин В.М. Опыт разработки и перспективы использования обучающих интегрированных экспертных систем в учебном процессе // Научная сессия МИФИ–2007. Сб.научных трудов: В 17 т. — М.: МИФИ. — Т. 3. Интеллектуальные системы и технологии. — С. 37–39.
3. Егошина А.А. Об одном способе построения статического словаря морфологического процессора // Материалы Седьмой Международной научно-технической конференции Искусственный интеллект. Интеллектуальные и многопроцессорные системы — 2006
. — Таганрог:Издательство ТРТУ. — 2006. — Т. 2. — С. 305–309.