Автор: Андриевская Н.К.
Источник: ЖУРНАЛ: ВЕСТНИК ДОНЕЦКОГО НАЦИОНАЛЬНОГО УНИВЕРСИТЕТА. СЕРИЯ Г: ТЕХНИЧЕСКИЕ НАУКИ. С. 43-51. Издательство: Донецкий национальный университет (Донецк) ISSN: 2663-4228eISSN: 2663-4236 [Ссылка]
УДК 004.048
РАЗРАБОТКА ПРИКЛАДНОЙ ОНТОЛОГИИ В СИСТЕМАХ ОБРАБОТКИ ДАННЫХ НАУЧНЫХ И НАУЧНО - ОБРАЗОВАТЕЛЬНЫХ ОРГАНИЗАЦИЙ
© 2020 Андриевская Н.К.
В условиях научно-образовательной организации ГОУ ВПО ДОННТУ была разработана онтология предметной области научной и методической деятельности. Приведено формализованное описание онтологий и основные принципы их построения. Описана комбинированная технология построения онтологической модели, которая подразумевает поиск и интеграцию подходящих «top-level» готовых онтологий для формирования базового верхнего уровня онтологии и использование корпусов документов и широких междоменных онтологий для автоматического и полуавтоматического формирования предметных онтологий нижних уровней. Приведен обзор и выбраны две онтологии верхнего уровня, Dublin Core и FOAF, для дальнейшего использования. Спроектирована «базовая» прикладная онтология в среде Protege. Приведено описание разработанной прикладной онтологии и произведена визуализация онтографа. На последнем этапе исследований была проведена проверка модели резонерами, успешное выполнение которой подтвердило корректность построения. Вопросы автоматического и полуавтоматического формирования нижних уровней онтологии, расширения и оценки качества не представлены в данной работе и будут исследованы в дальнейшем.
Ключевые слова: онтология, Semantic Web, protege tool, OWL, Reasoning, таксономия.
Последние годы характеризуются активным ростом наукоемких процессов обработки информации с использованием современных ИТ. С увеличением объёмов информационных потоков появляется необходимость использования новых способов хранения, представления, формализации и систематизации данных, а также их автоматической обработки. Разработка онтологии предметной области деятельности научной и научно-образовательной организации и использование современных технологий Semantic Web позволят перейти на новый уровень обработки информации – семантический, с возможностью поиска и извлечения не только документов, но и знаний. В работе [1] был предложен, а в работе [2] подробно описан базирующийся на онтологии подход к построению системы управления профессиональными знаниями вуза, обеспечивающий представление и интерпретацию информации в виде знаний. Каркасом разрабатываемой системы является прикладная онтология в области учета научной и профессиональной деятельности, не затрагивающая на данном этапе непосредственно учебные процессы.
Формализованную модель онтологии предметной области можно представить как знаковую систему, где О – онтология [3]:
O = (C, R, A, P, D), (1)
С = {с1, ..., сn} – конечное множество понятий, где n = 1...N – количество понятий, присутствующих в онтологии;
R = {r1, ..., rm} – конечное множество отношений между понятиями
ri (cx, cy), где m = 1...M – количество отношений между понятиями;
A = {a1, ..., aw} – конечное множество атрибутов, т.е. бинарных отношений, при w = 1...W – количество атрибутов.
P = {p1, ..., pt} – конечное множество конкретных свойств атрибута, при
t = 1...T – количество свойств атрибута.
D = {d1, ..., dk} – конечное множество типов отношений, при k = 1...K – количество типов отношений.
Все онтологии делятся на следующие виды [4]:
весомыеонтологии (Heavy-weighted), содержащие аксиомы:
O = {C, R, A};(2)
легкие(Light-weighted), не содержащие аксиом:
O = {C, R, {}}.(3)
Пусть R = O и F = O. Тогда онтология O трансформируется в простой словарь:
O = V = <C, {}, {}>. (4)
Исходя из требований, предъявляемых к онтологии, следует, что общее количество понятий, используемых в онтологии, должно стремиться к максимальному числу понятий, используемых в данной предметной области:
n -> Nmax.(5)
Это достигается постепенно, при последовательном расширении онтологии в процессе функционирования системы.
В силу того, что около 80 % ранее разработанных онтологий относятся к легким
и они более удобны в реализации, следует стремится к их широкому использованию при разработке онтологической модели системы управления знаниями научных и научно-образовательных организаций.
Развитие механизмов создания, обновления и поддержки онтологий является весьма актуальной задачей в настоящее время. Существуют различные подходы к построению онтологий, подробно они были описаны в работе [2]. Изучив предметную область данной системы, предлагается разработать каркас онтологической модели, ее условно статическую часть в экспертном режиме, чтобы повысить непротиворечивость создания модели. Назовем такую онтологическую модель «базовой». В дальнейшем «базовая» модель будет откорректирована, улучшена и расширена за счет процедур автоматического и полуавтоматического пополнения знаний.
В целом, прикладная онтология предназначена для представления понятий, необходимых для описания научной и методической деятельности, а также описания тематик конкретных научных исследований и дисциплин.
При построении базовой онтологии будем использовать уже сложившееся разделение всей онтологии на онтологию «верхнего уровня» и «онтологии предметных областей». Онтологию научного знания можно разделить на онтологии верхнего уровня, описывающие, например, предметно-независимые онтологии и онтологии предметных областей (ПО) для конкретных научных областей. Как показано в работе [2], в необходимости создания онтологии верхнего уровня убеждены почти все авторы приведенных в обзоре публикаций. С помощью использования онтологий верхнего уровня устраняется проблема сравнения различных онтологий между собой, а также проблемы интеграции нескольких онтологий. Онтологии предметного знания должны конкретизировать и подстроить онтологию верхнего уровня под конкретную предметную область. Онтологии, ориентированные на решение конкретных задач, еще более раскрывают предметную область.
Процесс построения онтологий итерационный и состоит из определенных этапов, каждый из которых позволяет извлекать из текста знания. Одним из важных этапов является проверка экспертом построенной онтологии. При разработке онтомодели проектируемой системы обработки данных научной и научно - образовательной организации будет использоваться комбинированный способ формирования онтологии, которая будет иметь составную структуру, подразделяющуюся на онтологию «верхнего уровня» и «онтологии предметных областей». Так как в соответствии с формулой 5 мы должны стремиться к максимальному объему онтологии, то, в общем, технология создания включает:
Экспертноесоздание таксономий, метатэгов и онтологий.
Рассмотрим описание популярных существующих онтологий верхнего уровня и широких онтологий (табл. 1).
Таблица 1. Существующие онтологии
Уровень | Описание |
---|---|
Top-level | Cyc – содержит 2,2 миллиона утверждений (фактов и правил), описывающих более 250 тысяч термов, включая почти 15000 предикатов. |
Top-level | Sowa’s top-level ontology. |
Top-level | SUMO |
Marc – представляющая структуру формата MARC21 и Dublin Core на языке OWL. | |
SKOS – Семейство формальных языков для описания классификационных схем, тезаурусов, авторитетных файлов. В настоящее время разработки ведутся в W3C. | |
Top-level | BFO Basic Formal Ontology – 36 классов, в основном в медицине, ориентирована на создание онтологий в рамках научных исследований, не содержит свойств. |
Top-level | GFO General Formal Ontology – 79 классов, в основном в медицине. |
Top-level | DOLCE – около 1000 классов, в системах на базе веб-технологий. |
DBpedia междоменная онтология, основанная на наиболее часто используемых терминах в статьях Википедии. Он содержит более 685 классов, 2795 различных свойств и более 4,2 миллиона экземпляров. | |
CERIF 2008 Основные объекты – это Person, Organisation Unit и Project. | |
TOVE (Toronto Virtual Enterprise) – построение интегрированной модели, состоящей из следующих онтологий: операций, состояний и времени, организации, ресурсов, продуктов, производства, цены, количества. | |
Top-level | DUBLIN CORE – Описание библиографических ссылок – содержит выходные данные о публикации: о дате выхода, издании, серии, страницах, ISBN, ISSN, краткое содержание, комментарии и пр. |
FOAF-проект, посвященный связыванию людей и информации с помощью Интернета. | |
KACTUS – построение методологии многократного применения знаний о технических системах во время их жизненного цикла. |
Обратим внимание при выборе онтологии верхнего уровня на Дублинское ядро (Dublin Core). Расширенный набор метаданных Dublin Core содержит 33 поля, соответствует ISO 158362003 и ГОСТ Р 7.0.10-2010.
Выбранные классы [5]:
Граф выбранных классов приведен на рис. 1, их объектные свойства на рис 2.
Рис. 1. Граф Dublin Core для интеграции с моделью системы
Рис. 2. Объектные свойства для выбранных классов Dublin Core
Рассмотрим «top-level» онтологию FOAF [6]. Выбранные классы:
Граф выбранных классов представлен на рис. 3, свойства классов на рис. 4:
Рис. 3. Граф FOAF для интеграции с моделью системы
Рис. 4. Объектные свойства для выбранных классов FOAF
Онтология верхнего уровня Dublin Core прекрасно подходит при разработке формата метаданных, определяющих состав и семантику элементов данных для использования в системах обработки данных научной и научно - образовательной организации, часть информации о персоне и деятельности будем использовать из готовой онтологии FOAF. Эти онтологии были адаптированы: удалены не используемые классы и свойства и подкорректированы описания классов для дальнейшей интеграции в разрабатываемую онтологию.
Для реализации прикладной онтологической модели был выбран редактор онтологий Protege – самый популярный инструмент для редактирования онтологий и для разработки онтологий [2]. Он имеет графический интерфейс, который позволяет разработчикам онтологий концентрироваться на концептуальных терминах, не думая о синтаксисе языка вывода. Protege обладает гибкой моделью знаний и расширяемой архитектурой плагинов.
При построении модели необходимо выполнить следующие этапы: определить классы онтологии, расположить классы в таксономическую иерархию, определить объектные свойства (отношения), а также свойства данных (атрибуты), заполнить значения экземпляров.
Определяем классы и строим иерархию классов. Все концепции, показанные на рисунке 5, в основном сосредоточены на организационной структуре вуза, преподавателе, публикациях, студентах.
Далее мы определяем свойства объекта в соответствии с нашим отношением, которое мы хотим добавить между классами при помощи соответствующих пунктов в закладке Characteristics. Например, в один момент времени организация может иметь только одного начальника, следовательно, отношение hasBoss должно быть отмечено как Functional.
Рис. 5. Иерархия классов, объектные свойства, а также свойства данных
Или, если в один момент времени сотрудник может быть членом нескольких организаций тогда отношение organizationMember должно иметь свойство Inverve functional.
Средствами редактора Protege был построен онтограф семантической сети рассматриваемой предметной области в результате онтологического моделирования (рис. 6). В данном примере приведен каркас онтологической модели, включающий только классы.
Рис. 6. Онтограф «базовой» онтологической модели
Сведем описание классов, атрибутов в таблицу 2 и их отношений таблицу 3.
Таблица 2. Описание классов, атрибутов
Class Описание | Основные свойства данных (Атрибуты) |
---|---|
Link | фио (fio), название (title), издание (book), год (year), том (tom), выпуск всего (volume), выпуск в году (number), страницы (papers) |
Address | страна (country), индекс (zip_code), город (city), штат (state) квартира (flat), улица (street), номер дома (house) |
Contacts | эл. почта (email), телефон (phone) |
Academic_degree | к.т.н (кандидат технических наук), к.э.н (кандидат эконом. наук) |
Academic_rank | Доцент, профессор |
Collection_type | Издание, журнал, книга, материалы конференции |
Discipline | Программирование, Основы дискретной математики |
Group | наименование (title), год формирования (year) |
Material(abstract) | название (title) |
Article | УДК (UDK), аннотация (annotation), ключевые слова (keywords), дата публикации (publication_date) |
Collection | издательство (publisher), год издания (year) |
Organization | наименование (title) |
Person | фамилия (surname), имя (name), отчество (patronymic), день рождения (birthday) |
Student | NULL |
Position | Преподаватель, ассистент |
Preparation_direction | код специальности (specialtyСode), наименование (title) |
Preparation_profile | NULL |
Structural_subdivision | наименование (title) |
Department | NULL |
Faculty | NULL |
Таблица 3. Описание отношений
Class Описание | Свойства объектов (Отношения) |
---|---|
Link | NULL |
Address | NULL |
Contacts | NULL |
Academic_degree | NULL |
Academic_rank | NULL |
Collection_type | NULL |
Discipline | NULL |
Group | имеетСтаросту (hasHeadman), содержитСтудентов (containsStudents) |
Material(abstract) | NULL |
Article | былаНаписанаАвторами (wasWrittenByAuthors) содержитСсылки (containsLinks) |
Collection | имеетАдрес (hasAddress), имеетТип (hasType) |
Organization | имеетНачальника (hasBoss), находитсяПоАдресу (located AtAddress), содержитСтруктурныеПодразделения, (contains StructuralSubdivisions), имеетСотрудников (hasStaff) |
Person | имеетКонтакты (hasСontacts), членОрганизации (organizationMember) |
Employee | имеетУченоеЗвание (hasAcademicRank), имеетУченуюСтепень (hasAcademicDegree), занимаетДолжность (holdsPosition) |
Student | состоитВГруппе (isInGroup), относитсяКФакультету (refersToFaculty) |
Preparation_profile | дляГруппы (forGroup), содержитДисциплины (containsDisciplines) имеетНаправлениеПодготовки (hasPreparationDirection) |
Structural_subdivision | имеетСотрудников (hasStaff) |
Department | имеетЗаведующего (hasHeadOfDepartment) имеетПрофилиПодготовки (hasPreparationProfile) |
Faculty | имеетДекана (hasDeanOfFaculty) содержитКафедры (containsDepartments) |
Для проверки корректной работы полученной онтологии сначала выполним несколько запросов SPARQL. Запросы отработали верно (рис.7).
Рис. 7. Запросы SPARQL
Классы, индивиды и свойства определены, и мы можем использовать резонеры для вывода иерархической структуры в Protege. В Protege иерархия вручную построенных классов называется заявленной иерархией, а иерархия классов, которая автоматически вычисляется резонером, называется выводимой иерархией. Запустим на выполнение резонер Hermit 1.4.3.456 (рис. 8).
Рис. 8. Результаты работы резонера
Отметим, что различия в заявленной иерархии и выводимой отсутствуют, ошибки не определяются, следовательно, классы в онтологии корректны, онтологическая модель представлена в согласованном виде.
В результате выполнения работы была спроектирована «базовая» онтология, которая представляет собой некоторую разновидность семантической сети, имеющей вид ориентированного графа, вершинами которого являются классы, дугами – свойства, представляющие направленные отношения или связи между ними.
Онтологическая модель будет использована при решении разных задач системы при обработке данных научных и научно-образовательных организаций [2, 7]. По мере рассмотрения тем предметной области, в процессе извлечения знаний, онтология будет пополняется новыми понятиями. Вопросы автоматического и полуавтоматического формирования нижних уровней онтологии, расширения и оценки качества не представлены в данной работе и являются темами дальнейших исследований.
Поступила в редакцию 22.06.2020 г.
DEVELOPMENT OF APPLIED ONTOLOGY IN DATA PROCESSING SYSTEMS OF SCIENTIFIC AND EDUCATIONAL ORGANIZATIONS
Andrievskaya N.K.
А domain ontology of scientific and methodological activities for scientific and educational organization Donetsk National Technical University developed. A formalized description of ontologies is given and the basic principles of their construction are described. A combined technology for constructing an ontological model is described. The mentioned technology includes suitable ready-made technologies integration for basic top-level ontology formation and using of document bodies and broad cross-domain ontologies for automatic and semi-automatic formation of lower levels subject ontologies. Two top-level ontologies, Dublin Core and FOAF, are reviewed and selected for further use. A "basic" applied ontology designed in the Protege environment. The developed applied ontology is described and the ontograph is visualized. The correctness of the model construction was confirmed by the successful testing of resonators. The issues of automatic and semi-automatic formation of the lower levels of ontology, extension, and quality assessment are not presented in this paper and will be investigated in the future.
Keywords: ontology, Semantic Web, Protege tool, OWL, Reasoning, taxonomy.
Андриевская Наталия Климовна
Старший преподаватель кафедры автоматизированных систем управления ГОУ ВПО «Донецкий национальный технический университет»,
ДНР, г. Донецк.
E-mail: nataandr@yandex.ru
Andrievskaya Natalia Klimovna
Senior lecturer of the automated control systems department of Donetsk National Technical University,
DPR, Donetsk.