Назад в библиотеку

МЕТОДИКА ПРОЕКТИРОВАНИЯ ОНТОЛОГИИ ПРЕДМЕТНОЙ ОБЛАСТИ

Автор: Палагин А.В., Петренко Н.Г., Малахов К.С.
Источник: Методика проектирования онтологии предметной области / А.В. Палагин, Н.Г. Петренко, К.С. Малахов // Комп’ютерні засоби, мережі та системи. — 2011. — № 10. — С. 5-12. — Бібліогр.: 3 назв. — рос. [Ссылка]


КОМП'ЮТЕРНI ЗАСОБИ, МЕРЕЖI ТА СИСТЕМИ

A. Palagin, N. Petrenko, K. Malakhov

TECHNIQUE FOR DESIGNING A DOMAIN ONTOLOGY

The article describes the technique for designin a domain ontology, shows the flowchart of algorithm design and example of constructing a fragmentof the ontology of the subject area of Computer Science is considere.

Key words: computer ontology, ontograf, subject area, Protege.

Описується методика проектування онтології ПдО, подана блок-схема алгоритму проектування ПдО і розглянуто приклад побудови фрагмента онтологіі з предметної області Обчислювальна техніка.

Ключові слова: комп’ютерна онтологія, онтограф, предметна область, Protege.

Описывается методика проектирования онтологии ПдО, приведена блок-схема алгоритма и рассмотрен пример построения фрагмента онтологии ПдО Вычислительная техника.

Ключевые слова: предметная область, компьютерная онтология, онтограф, Protege.


УДК 004.415

А.В. ПАЛАГИН, Н.Г. ПЕТРЕНКО, К.С. МАЛАХОВ

МЕТОДИКА ПРОЕКТИРОВАНИЯ ОНТОЛОГИИ ПРЕДМЕТНОЙ ОБЛАСТИ

Введение

Под компьютерной онтологией предметной области (ПдО) понимается тройка [1, 2]:  O = ⟨X,R,F⟩,

где X = {x1,x2,...,xi,...,xn}, i = 1,n,

n = Card X – конечное множество концептов (понятий) заданной ПдО;

R = {r1,r2,...,rk,...,rm}, R:x1×x2×...×xn,

k = 1,m, m = Card R, – конечное множество семантически значимых отношений между концептами ПдО. Они определяют тип взаимодействия между понятиями. В общем случае, отношения делят на общезначимые (из которых выделяют, как правило, отношения частичного порядка) и конкретные отношения заданной ПдО;

F : X×R – конечное множество функций интерпретации, заданных на концептах и/или отношениях. Частным случаем задания множества функций интерпретации F является глоссарий, составленный для множества понятий Х. Определение понятия Хi , в общем случае, включает подмножество понятий{xi-1},через которые определяется Хi; отношение Rk, связывающее Хi с {xi-1}; и множество атрибутов (признаков), присущих Хi.

Компьютерная онтология – формальное выражение концептуальных знаний о предметной области и по своей значимости сопоставима с базой знаний интеллектуальной информационной системы, а её построение является специфической формой человеческого мышления. Оно (мышление) в процессе познания оперирует, в том числе, суждениями, утверждениями, понятиями и отношениями между ними. А последние являются фундаментом, основой для по-строения составной части научной теории – онтологической базы знаний в заданной предметной области. При этом такие знания описываются в декларатив-ной форме [2].

В простом случае методика проектирования онтологии ПдО (О ПдО) включает три этапа проектирования.

  1. Предварительный анализ заданной ПдО.
  2. Построение вручную онтографа ПдО. Под онтографом понимается двудольный граф, вершинами которого являются понятия ПдО, а дугами – связи между ними. Двудольный граф – это однонаправленный ориентированный граф, в одну вершину которого может входить и выходить несколько дуг.
  3. Графическое (визуальное) проектирование онтографа ПдО и составление формализованного описания онтологии ПдО.

Основная часть. Анализ предметной области

Этап системного анализа предметной области заключается в:

Основными принципами при системном анализе ПдО, в частности, являются: принцип конечной цели; принцип единства; принцип связности; принцип иерархии; принцип развития (интеграция с другими фрагментами онтологии ПдО или «родственными» онтологиями). На этом этапе также формируются требования к разрабатываемой онтологии ПдО.

Построение компонент онтологического описания ПдО

Напомним некоторые известные определения, непосредственно относящиеся к построению множеств концептуальной модели ПдО или её онтологии.

Понятие – целостная совокупность суждений, в которых что-либо утверждается об отличительных признаках исследуемой сущности, ядром которой являются суждения (или утверждения) о наиболее общих и при этом существенных признаках этой сущности.

Каждое понятие характеризуется объёмом и содержанием. Объём и содержание понятия – две взаимосвязанные стороны понятия. Объём – класс обобщённых в понятии предметов, содержание – совокупность (обычно существенных) признаков, по которым произведено обобщение и выделение предметов в данном понятии.

Каждому понятию соответствует одно или несколько имён.

Все понятия (или концепты) делятся на ряд классов (по семантической зависимости) [3]:

Онтология ПдО – это концептуальная модель реального мира и её понятия должны отражать данную реальность.

Построение фрагмента онтологии категориального уровня (ОКУ)

Построение ОКУ для любой онтологии ПдО – важный этап в общем алгоритме проектирования:

Проектирование ОКУ может быть выполнено следующим образом:

Построение множества X считается наиболее важным моментом при разработке онтологии ПдО. Оно должно быть обязательно не пустым.

Для хорошо проработанных предметных областей за основу множества элементов {xi} может быть взято содержимое различных толковых словарей. В противном случае следует составить полный список терминов, в котором указать (причём пересечение объёмов и содержаний понятий в таком предварительном списке не существенно):

Следующий шаг – уточнение и определение окончательного списка классов-понятий, имена которых будут входить в разрабатываемую онтологию и являться вершинами онтографа. Также следует принять единые правила присваивания имён понятиям и свойствам, например, употребление только единственного числа, отсутствие аббревиатур и т. д. [1].

Следующим шагом является упорядочивание списка понятий по некоторому типу отношения «выше-ниже» на основе профессиональных знаний разработчика О ПдО и, возможно, следует повторить некоторые фрагменты процесса анализа ПдО (с привязкой к составленному списку понятий), выполненные на предварительном этапе.

В результате должен быть получен полный список существенных для заданной ПдО (и предполагаемых приложений) понятий и их машинноинтерпретируемые формулировки.

Построение множества R также основано на результатах этапа предварительного анализа ПдО. По сути, требуется установить для каждого элемента xi∈ X семантическое отношение Rk с элементом xj∈ X, xiRkxj i,j = 1,n, i ≠ j,k = 1,m. Другими словами, необходимо построить множество дуг, связывающих вершины направленного онтографа. В качестве вершин онтографа выступает множество понятий ПдО. Вершиной (или вершинами) онтографа (без учёта ОКУ) является родовое понятие, которое не имеет надкласса, а нижний уровень представляют конкретные понятия, т. е. не имеющие видовых понятий в заданной ПдО.

На практике множество R сначала представляют некоторым обобщённым отношением “выше-ниже”. Известно несколько подходов к разработке иерархии классов: процесс нисходящей разработки, процесс восходящей разработки и комбинированный процесс. Последний наиболее часто используется разработчиками, так как он является наиболее естественным, сначала оперирует понятиями среднего уровня, к которым наиболее часто обращаются разработчики. Затем эти понятия обобщаются и ограничиваются.

При связывании двух и более вершин онтографа (взятых поочередно, начиная с первых записей составленного на предыдущем этапе списка) следует извлечь информацию из соответствующих определений понятий о конкретных семантических отношениях Rk. В случае отсутствия такой информации или ее неполноты – отношение формируется на основе профессиональных знаний разработчика О ПдО.

В заключение данного подэтапа следует соотнести разработанные классы и их иерархии результатам предварительного анализа ПдО. В частности, уточняются зависимости для конкретных пар {xi,xj}. В процессе соотнесения (и построения иерархии) следует учитывать, что:

Следует помнить, что не существует единственно правильной иерархии классов.

Описанное построение онтографа является специальным видом классифи- кации понятий ПдО – онтологической классификацией.

Построение множества F

Для данной методики построение функций интерпретации заключается в составлении глоссария терминов ПдО, которые являются вершинами онтографа ПдО. Такой глоссарий составляется на этапе предварительного анализа ПдО, а на последующих этапах уточняется и дополняется. Причём, на этапе составления онтографа ПдО – учитывается информация (из определений понятий) о понятиях и отношениях между ними, а на этапе формирования формализованного описания – информация о существенных признаках, характеризующих определяемое понятие.

Графическое (визуальное) проектирование онтографа ПдО и составление формализованного описания онтологии ПдО

На основе построенных множеств кортежа выполняется синтез концептуальной модели ПдО, например, с помощью известного инструментального средства Protege (ИСР) и сформировать формальное описание разработанной онтологии на одном из языков описания (например, OWL), а также графическое представление онтографа.

ИСР поддерживает ручной ввод элементов множеств X и R, в результате чего на экране получим визуальное представление онтографа ПдО. Кроме того, признаки, взятые из определений понятий, заполняются в соответствующие слоты.

В заключение в ИСР можно автоматически сформировать формализованное описание О ПдО.

Блок-схема алгоритма проектирования онтологии ПдО показана на рис. 1.

Блок-схема алгоритма проектирования онтологии ПдО

РИС. 1. Блок-схема алгоритма проектирования онтологии ПдО

Рассмотрим пример построения фрагмента онтологии из ПдО «Вычислительная техника». Из словарей по информатике и вычислительной технике выбраны следующие понятия: «Оперативная память», «Вычислительная машина», «Устройство ввода-вывода», «Аналоговая вычислительная машина», «Микропроцессор», «Центральный процессор», «Цифровая вычислительная машина», «Центральный процессор на основе микропроцессора фирмы AMD», «Информационные шины», «Управляющие шины», «Центральный процессор на основе микропроцессора фирмы Intel», «Теоретический базис», «Архитектура вычислительных систем», «Программирование», «Компьютерные сети», «Проектирование средств вычислительной техники», «Теория автоматов», «Разработчик средств вычислительной техники», «Software (программное обеспечение, ПО)», «Hardware (аппаратные средства, АС)», «Архитектура АС вычислительной системы», «Единая система стандартов», «Проектирование вычислительной системы», «АС вычислительной системы», «Архитектура вычислительной системы типа SISD», «Архитектура вычислительной системы типа MISD», «Архитектура вычислительной системы типа SIMD», «Архитектура вычислительной системы типа MIMD», «Архитектура вычислительной системы», «Программное обеспечение вычислительной системы». При этом базовыми понятиями ОКУ будут понятия «Информатика» и «Вычислительная техника».

Далее выполним ранжирование списка терминов по обобщённому отношению «выше-ниже».

  1. «Информатика».
  2. «Вычислительная техника», «Теоретический базис».
  3. «Единая система стандартов», «Hardware», «Software», «Разработчик средств ВТ», «Архитектура вычислительных систем», «Программирование», «Компьютерные сети», «Проектирование средств вычислительной техники», «Теория автоматов».
  4. «Вычислительная система (ВС)».
  5. «Проектирование вычислительной системы», «АС вычислительной системы», «ПО вычислительной системы», «Архитектура ВС».
  6. «Вычислительная машина», «Архитектура АС вычислительной системы».
  7. «Цифровая вычислительная машина», «Аналоговая вычислительная машина», «Архитектура вычислительной системы типа SISD», «Архитектура вычислительной системы типа MISD», «Архитектура вычислительной системы типа SIMD», «Архитектура вычислительной системы типа MIMD».
  8. «Центральный процессор», «Устройство ввода-вывода».
  9. «Центральный процессор на основе микропроцессора фирмы AMD», «Центральный процессор на основе микропроцессора фирмы Intel».
  10. «Оперативная память», «Микропроцессор».

Множество отношений состоит из элементов – {категорное_отношение, участник, множество-элемент, регламентировать, быть_характеристикой, род-вид, целое-часть, разработать, содержаться_в}.

На рис. 2 показан онтограф фрагмента ПдО «Вычислительная техника».

Онтограф фрагмента ПдО "Вычислительная техника"

РИС. 2. Онтограф фрагмента ПдО “Вычислительная техника”

Выводы

Предложенная в работе методика разработки онтологии ПдО и соответствующий алгоритм ориентированы на ручное построение с автоматическим формированием их формального описания в инструментальной среде Protege на одном из общепринятых языков описания онтологий. Для повышения эффективности процесса построения онтологий необходимо привлечение известных, или создание оригинальных инструментов автоматизированного приобретения новых знаний из различных источников.

  1. Палагин А.В., Яковлев Ю.С. Системная интеграция средств компьютерной техники. – Винница: УНІВЕРСУМ, 2005. – 680 с.
  2. Палагин А.В., Петренко Н.Г. Системно-онтологический анализ предметной области // УСиМ. – 2009. – № 4. – С. 3–14.
  3. Ивлев Ю.В. Логика: учебник для вузов. – М.: «Логос», 1997. – 272 с.

Получено 20.06.2011