Назад в библиотеку

РАЗРАБОТКА ПРИКЛАДНОЙ ОНТОЛОГИИ В СИСТЕМАХ ОБРАБОТКИ ДАННЫХ НАУЧНЫХ И НАУЧНО-ОБРАЗОВАТЕЛЬНЫХ ОРГАНИЗАЦИЙ

Автор: Андриевская Н.К.
Источник: ЖУРНАЛ: ВЕСТНИК ДОНЕЦКОГО НАЦИОНАЛЬНОГО УНИВЕРСИТЕТА. СЕРИЯ Г: ТЕХНИЧЕСКИЕ НАУКИ. С. 43-51. Издательство: Донецкий национальный университет (Донецк) ISSN: 2663-4228eISSN: 2663-4236 [Ссылка]


УДК 004.048

РАЗРАБОТКА ПРИКЛАДНОЙ ОНТОЛОГИИ В СИСТЕМАХ ОБРАБОТКИ ДАННЫХ НАУЧНЫХ И НАУЧНО - ОБРАЗОВАТЕЛЬНЫХ ОРГАНИЗАЦИЙ

© 2020 Андриевская Н.К.


В условиях научно-образовательной организации ГОУ ВПО ДОННТУ была разработана онтология предметной области научной и методической деятельности. Приведено формализованное описание онтологий и основные принципы их построения. Описана комбинированная технология построения онтологической модели, которая подразумевает поиск и интеграцию подходящих «top-level» готовых онтологий для формирования базового верхнего уровня онтологии и использование корпусов документов и широких междоменных онтологий для автоматического и полуавтоматического формирования предметных онтологий нижних уровней. Приведен обзор и выбраны две онтологии верхнего уровня, Dublin Core и FOAF, для дальнейшего использования. Спроектирована «базовая» прикладная онтология в среде Protege. Приведено описание разработанной прикладной онтологии и произведена визуализация онтографа. На последнем этапе исследований была проведена проверка модели резонерами, успешное выполнение которой подтвердило корректность построения. Вопросы автоматического и полуавтоматического формирования нижних уровней онтологии, расширения и оценки качества не представлены в данной работе и будут исследованы в дальнейшем.

Ключевые слова: онтология, Semantic Web, protege tool, OWL, Reasoning, таксономия.


Введение

Последние годы характеризуются активным ростом наукоемких процессов обработки информации с использованием современных ИТ. С увеличением объёмов информационных потоков появляется необходимость использования новых способов хранения, представления, формализации и систематизации данных, а также их автоматической обработки. Разработка онтологии предметной области деятельности научной и научно-образовательной организации и использование современных технологий Semantic Web позволят перейти на новый уровень обработки информации – семантический, с возможностью поиска и извлечения не только документов, но и знаний. В работе [1] был предложен, а в работе [2] подробно описан базирующийся на онтологии подход к построению системы управления профессиональными знаниями вуза, обеспечивающий представление и интерпретацию информации в виде знаний. Каркасом разрабатываемой системы является прикладная онтология в области учета научной и профессиональной деятельности, не затрагивающая на данном этапе непосредственно учебные процессы.

Постановка задачи

Формализованную модель онтологии предметной области можно представить как знаковую систему, где О – онтология [3]:

O = (C, R, A, P, D), (1)

С = {с1, ..., сn} – конечное множество понятий, где n = 1...N – количество понятий, присутствующих в онтологии;

R = {r1, ..., rm} – конечное множество отношений между понятиями

ri (cx, cy), где m = 1...M – количество отношений между понятиями;

A = {a1, ..., aw} – конечное множество атрибутов, т.е. бинарных отношений, при w = 1...W – количество атрибутов.

P = {p1, ..., pt} – конечное множество конкретных свойств атрибута, при

t = 1...T – количество свойств атрибута.

D = {d1, ..., dk} – конечное множество типов отношений, при k = 1...K – количество типов отношений.

Все онтологии делятся на следующие виды [4]:

Пусть R = O и F = O. Тогда онтология O трансформируется в простой словарь:

O = V = <C, {}, {}>. (4)

Исходя из требований, предъявляемых к онтологии, следует, что общее количество понятий, используемых в онтологии, должно стремиться к максимальному числу понятий, используемых в данной предметной области:

n -> Nmax.(5)

Это достигается постепенно, при последовательном расширении онтологии в процессе функционирования системы.

В силу того, что около 80 % ранее разработанных онтологий относятся к легким и они более удобны в реализации, следует стремится к их широкому использованию при разработке онтологической модели системы управления знаниями научных и научно-образовательных организаций.

Принципы построения прикладной онтологии

Развитие механизмов создания, обновления и поддержки онтологий является весьма актуальной задачей в настоящее время. Существуют различные подходы к построению онтологий, подробно они были описаны в работе [2]. Изучив предметную область данной системы, предлагается разработать каркас онтологической модели, ее условно статическую часть в экспертном режиме, чтобы повысить непротиворечивость создания модели. Назовем такую онтологическую модель «базовой». В дальнейшем «базовая» модель будет откорректирована, улучшена и расширена за счет процедур автоматического и полуавтоматического пополнения знаний.

В целом, прикладная онтология предназначена для представления понятий, необходимых для описания научной и методической деятельности, а также описания тематик конкретных научных исследований и дисциплин.

При построении базовой онтологии будем использовать уже сложившееся разделение всей онтологии на онтологию «верхнего уровня» и «онтологии предметных областей». Онтологию научного знания можно разделить на онтологии верхнего уровня, описывающие, например, предметно-независимые онтологии и онтологии предметных областей (ПО) для конкретных научных областей. Как показано в работе [2], в необходимости создания онтологии верхнего уровня убеждены почти все авторы приведенных в обзоре публикаций. С помощью использования онтологий верхнего уровня устраняется проблема сравнения различных онтологий между собой, а также проблемы интеграции нескольких онтологий. Онтологии предметного знания должны конкретизировать и подстроить онтологию верхнего уровня под конкретную предметную область. Онтологии, ориентированные на решение конкретных задач, еще более раскрывают предметную область.

Процесс построения онтологий итерационный и состоит из определенных этапов, каждый из которых позволяет извлекать из текста знания. Одним из важных этапов является проверка экспертом построенной онтологии. При разработке онтомодели проектируемой системы обработки данных научной и научно - образовательной организации будет использоваться комбинированный способ формирования онтологии, которая будет иметь составную структуру, подразделяющуюся на онтологию «верхнего уровня» и «онтологии предметных областей». Так как в соответствии с формулой 5 мы должны стремиться к максимальному объему онтологии, то, в общем, технология создания включает:

  1. Подбор и использование онтологий верхнего уровня, существующих глоссариев, тезаурусов.
  2. Экспертное создание таксономий, метатэгов и онтологий.
  3. Подбор и использование онтологий верхнего уровня, существующих глоссариев, тезаурусов для выбора имен понятий и экземпляров при автоматическом формировании онтологий.
  4. Для расширения онтологии предлагается использовать также автоматическую обработку корпусов документов.
  5. При автоматическом формировании онтологий нижних уровней следует использовать не только разработанные междоменные и тематические онтологии, но и возможности получения знаний из открытых источников Интернет, когда «базовую» онтологию верхнего уровня можно использовать для полуавтоматического или автоматического поиска и простой категоризации знаний нижних уровней.
  6. Подбор и использование существующих междоменных онтологий при населении классов экземплярами.

Выбор онтологий верхнего уровня

Рассмотрим описание популярных существующих онтологий верхнего уровня и широких онтологий (табл. 1).

Таблица 1. Существующие онтологии

Уровень Описание
Top-level Cyc – содержит 2,2 миллиона утверждений (фактов и правил), описывающих более 250 тысяч термов, включая почти 15000 предикатов.
Top-level Sowa’s top-level ontology.
Top-level SUMO
Marc – представляющая структуру формата MARC21 и Dublin Core на языке OWL.
SKOS – Семейство формальных языков для описания классификационных схем, тезаурусов, авторитетных файлов. В настоящее время разработки ведутся в W3C.
Top-level BFO Basic Formal Ontology – 36 классов, в основном в медицине, ориентирована на создание онтологий в рамках научных исследований, не содержит свойств.
Top-level GFO General Formal Ontology – 79 классов, в основном в медицине.
Top-level DOLCE – около 1000 классов, в системах на базе веб-технологий.
DBpedia междоменная онтология, основанная на наиболее часто используемых терминах в статьях Википедии. Он содержит более 685 классов, 2795 различных свойств и более 4,2 миллиона экземпляров.
CERIF 2008 Основные объекты – это Person, Organisation Unit и Project.
TOVE (Toronto Virtual Enterprise) – построение интегрированной модели, состоящей из следующих онтологий: операций, состояний и времени, организации, ресурсов, продуктов, производства, цены, количества.
Top-level DUBLIN CORE – Описание библиографических ссылок – содержит выходные данные о публикации: о дате выхода, издании, серии, страницах, ISBN, ISSN, краткое содержание, комментарии и пр.
FOAF-проект, посвященный связыванию людей и информации с помощью Интернета.
KACTUS – построение методологии многократного применения знаний о технических системах во время их жизненного цикла.

Обратим внимание при выборе онтологии верхнего уровня на Дублинское ядро (Dublin Core). Расширенный набор метаданных Dublin Core содержит 33 поля, соответствует ISO 158362003 и ГОСТ Р 7.0.10-2010.

Выбранные классы [5]:

Граф выбранных классов приведен на рис. 1, их объектные свойства на рис 2.

Граф Dublin Core для интеграции с моделью системы

Рис. 1. Граф Dublin Core для интеграции с моделью системы

Объектные свойства для выбранных классов Dublin Core

Рис. 2. Объектные свойства для выбранных классов Dublin Core

Рассмотрим «top-level» онтологию FOAF [6]. Выбранные классы:

Граф выбранных классов представлен на рис. 3, свойства классов на рис. 4:

Граф FOAF для интеграции с моделью системы

Рис. 3. Граф FOAF для интеграции с моделью системы

Объектные свойства для выбранных классов FOAF

Рис. 4. Объектные свойства для выбранных классов FOAF

Онтология верхнего уровня Dublin Core прекрасно подходит при разработке формата метаданных, определяющих состав и семантику элементов данных для использования в системах обработки данных научной и научно - образовательной организации, часть информации о персоне и деятельности будем использовать из готовой онтологии FOAF. Эти онтологии были адаптированы: удалены не используемые классы и свойства и подкорректированы описания классов для дальнейшей интеграции в разрабатываемую онтологию.

Разработка «базовой» онтологической модели

Для реализации прикладной онтологической модели был выбран редактор онтологий Protege – самый популярный инструмент для редактирования онтологий и для разработки онтологий [2]. Он имеет графический интерфейс, который позволяет разработчикам онтологий концентрироваться на концептуальных терминах, не думая о синтаксисе языка вывода. Protege обладает гибкой моделью знаний и расширяемой архитектурой плагинов.

При построении модели необходимо выполнить следующие этапы: определить классы онтологии, расположить классы в таксономическую иерархию, определить объектные свойства (отношения), а также свойства данных (атрибуты), заполнить значения экземпляров.

Определяем классы и строим иерархию классов. Все концепции, показанные на рисунке 5, в основном сосредоточены на организационной структуре вуза, преподавателе, публикациях, студентах.

Далее мы определяем свойства объекта в соответствии с нашим отношением, которое мы хотим добавить между классами при помощи соответствующих пунктов в закладке Characteristics. Например, в один момент времени организация может иметь только одного начальника, следовательно, отношение hasBoss должно быть отмечено как Functional.

Иерархия классов, объектные свойства, а также свойства данных

Рис. 5. Иерархия классов, объектные свойства, а также свойства данных

Или, если в один момент времени сотрудник может быть членом нескольких организаций тогда отношение organizationMember должно иметь свойство Inverve functional.

Средствами редактора Protege был построен онтограф семантической сети рассматриваемой предметной области в результате онтологического моделирования (рис. 6). В данном примере приведен каркас онтологической модели, включающий только классы.

Онтограф «базовой» онтологической модели

Рис. 6. Онтограф «базовой» онтологической модели

Сведем описание классов, атрибутов в таблицу 2 и их отношений таблицу 3.

Таблица 2. Описание классов, атрибутов

Class Описание Основные свойства данных (Атрибуты)
Link фио (fio), название (title), издание (book), год (year), том (tom), выпуск всего (volume), выпуск в году (number), страницы (papers)
Address страна (country), индекс (zip_code), город (city), штат (state)
квартира (flat), улица (street), номер дома (house)
Contacts эл. почта (email), телефон (phone)
Academic_degree к.т.н (кандидат технических наук), к.э.н (кандидат эконом. наук)
Academic_rank Доцент, профессор
Collection_type Издание, журнал, книга, материалы конференции
Discipline Программирование, Основы дискретной математики
Group наименование (title), год формирования (year)
Material(abstract) название (title)
Article УДК (UDK), аннотация (annotation), ключевые слова (keywords), дата публикации (publication_date)
Collection издательство (publisher), год издания (year)
Organization наименование (title)
Person фамилия (surname), имя (name), отчество (patronymic), день рождения (birthday)
Student NULL
Position Преподаватель, ассистент
Preparation_direction код специальности (specialtyСode), наименование (title)
Preparation_profile NULL
Structural_subdivision наименование (title)
Department NULL
Faculty NULL

Таблица 3. Описание отношений

Class Описание Свойства объектов (Отношения)
Link NULL
Address NULL
Contacts NULL
Academic_degree NULL
Academic_rank NULL
Collection_type NULL
Discipline NULL
Group имеетСтаросту (hasHeadman), содержитСтудентов (containsStudents)
Material(abstract) NULL
Article былаНаписанаАвторами (wasWrittenByAuthors) содержитСсылки (containsLinks)
Collection имеетАдрес (hasAddress), имеетТип (hasType)
Organization имеетНачальника (hasBoss), находитсяПоАдресу (located AtAddress), содержитСтруктурныеПодразделения, (contains StructuralSubdivisions), имеетСотрудников (hasStaff)
Person имеетКонтакты (hasСontacts), членОрганизации (organizationMember)
Employee имеетУченоеЗвание (hasAcademicRank), имеетУченуюСтепень (hasAcademicDegree), занимаетДолжность (holdsPosition)
Student состоитВГруппе (isInGroup), относитсяКФакультету (refersToFaculty)
Preparation_profile дляГруппы (forGroup), содержитДисциплины (containsDisciplines) имеетНаправлениеПодготовки (hasPreparationDirection)
Structural_subdivision имеетСотрудников (hasStaff)
Department имеетЗаведующего (hasHeadOfDepartment) имеетПрофилиПодготовки (hasPreparationProfile)
Faculty имеетДекана (hasDeanOfFaculty) содержитКафедры (containsDepartments)

Проверка корректности построенной модели

Для проверки корректной работы полученной онтологии сначала выполним несколько запросов SPARQL. Запросы отработали верно (рис.7).

Запросы SPARQL

Рис. 7. Запросы SPARQL

Классы, индивиды и свойства определены, и мы можем использовать резонеры для вывода иерархической структуры в Protege. В Protege иерархия вручную построенных классов называется заявленной иерархией, а иерархия классов, которая автоматически вычисляется резонером, называется выводимой иерархией. Запустим на выполнение резонер Hermit 1.4.3.456 (рис. 8).

Результаты работы резонера

Рис. 8. Результаты работы резонера

Отметим, что различия в заявленной иерархии и выводимой отсутствуют, ошибки не определяются, следовательно, классы в онтологии корректны, онтологическая модель представлена в согласованном виде.

Выводы

В результате выполнения работы была спроектирована «базовая» онтология, которая представляет собой некоторую разновидность семантической сети, имеющей вид ориентированного графа, вершинами которого являются классы, дугами – свойства, представляющие направленные отношения или связи между ними.

Онтологическая модель будет использована при решении разных задач системы при обработке данных научных и научно-образовательных организаций [2, 7]. По мере рассмотрения тем предметной области, в процессе извлечения знаний, онтология будет пополняется новыми понятиями. Вопросы автоматического и полуавтоматического формирования нижних уровней онтологии, расширения и оценки качества не представлены в данной работе и являются темами дальнейших исследований.

СПИСОК ЛИТЕРАТУРЫ

  1. Андриевская, Н. К. Основные принципы и подходы при разработке системы управления профессиональными знаниями вуза / Н. К. Андриевская // Информатика и кибернетика. – 2019. – № 4 (18). – C. 49-56.
  2. Андриевская, Н. К. Онтологический подход в системах обработки данных научных и научно-образовательных организаций / Н. К. Андриевская // Проблемы искусственного интеллекта. – 2020. – № 1 (16). – С. 23-36.
  3. Бажанова, А. И. Исследование применения онтологических моделей для семантического поиска / А. И. Бажанова, Т. В. Мартыненко // Информационные управляющие системы и компьютерный мониторинг (ИУС и КМ - 2011) : материалы II научно-технической конференции студентов, аспирантов и молодых ученых. – Донецк : ДонНТУ, 2011. – С. 244-248.
  4. Mizoguchi R.. Using Ontological Engineering to Overcome Common AI-ED Problems / Riichiro Mizoguchi, Jacqueline Bourdeau // Journal of Artificial Intelligence and Education. – 2000. – № 11. – P. 107-121.
  5. Jena documentation overview. – URL: https://jena.apache.org/documentation (дата обращения: 16.03.2020). – Текст : электронный.
  6. FOAF Vocabulary Specification 0.99. – URL: http://xmlns.com/foaf/spec/ (дата обращения: 16.03.2020). – Текст : электронный.
  7. Бажанова, А. И. Разработка морфологического анализатора для построения понятийного аппарата электронной библиотеки кафедры АСУ / А. И. Бажанова, Т. В. Мартынеко, Н. К. Андриевская // Материалы II научно-технической конференции студентов, аспирантов и молодых ученых. – Донецк : ДонНТУ, 2011. – С. 326-330.

Поступила в редакцию 22.06.2020 г.

DEVELOPMENT OF APPLIED ONTOLOGY IN DATA PROCESSING SYSTEMS OF SCIENTIFIC AND EDUCATIONAL ORGANIZATIONS

Andrievskaya N.K.

А domain ontology of scientific and methodological activities for scientific and educational organization Donetsk National Technical University developed. A formalized description of ontologies is given and the basic principles of their construction are described. A combined technology for constructing an ontological model is described. The mentioned technology includes suitable ready-made technologies integration for basic top-level ontology formation and using of document bodies and broad cross-domain ontologies for automatic and semi-automatic formation of lower levels subject ontologies. Two top-level ontologies, Dublin Core and FOAF, are reviewed and selected for further use. A "basic" applied ontology designed in the Protege environment. The developed applied ontology is described and the ontograph is visualized. The correctness of the model construction was confirmed by the successful testing of resonators. The issues of automatic and semi-automatic formation of the lower levels of ontology, extension, and quality assessment are not presented in this paper and will be investigated in the future.

Keywords: ontology, Semantic Web, Protege tool, OWL, Reasoning, taxonomy.

Андриевская Наталия Климовна
Старший преподаватель кафедры автоматизированных систем управления ГОУ ВПО «Донецкий национальный технический университет»,
ДНР, г. Донецк.
E-mail: nataandr@yandex.ru

Andrievskaya Natalia Klimovna
Senior lecturer of the automated control systems department of Donetsk National Technical University,
DPR, Donetsk.