Автор: Андриевская Н.К.
Источник: ЖУРНАЛ: ПРОБЛЕМЫ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА Издательство: Государственное учреждение Институт проблем искусственного интеллекта (Донецк) ISSN: 2413-7383 [Ссылка]
УДК 004.048
Н. К. Андриевская
Государственное образовательное учреждение высшего профессионального образования «Донецкий национальный технический университет», г. Донецк 83001, г. Донецк, ул. Артема, 58
ОНТОЛОГИЧЕСКИЙ ПОДХОД В СИСТЕМАХ ОБРАБОТКИ ДАННЫХ НАУЧНЫХ И НАУЧНО-ОБРАЗОВАТЕЛЬНЫХ ОРГАНИЗАЦИЙ
Natalia Andrievskaya
State Educational Institution of Higher Education “Donetsk national technical University”, Donetsk city 83001, Donetsk, Artema str., 58
ONTOLOGICAL APPROACH IN DATA PROCESSING SYSTEMS OF SCIENTIFIC AND EDUCATIONAL ORGANIZATION
Н. К. Андрієвська
Державна освітня установа вищої професійної освіти «Донецький національний технічний університет», м. Донецьк 83001, м. Донецьк, вул. Артема, 58
ОНТОЛОГІЧНИЙ ПІДХІД В СИСТЕМАХ ОБРОБКИ ДАНИХ НАУКОВИХ І НАУКОВО-ОСВІТНІХ ОРГАНІЗАЦІЙ
В статье исследуется применение онтологического подхода для решения различных задач системы обработки данных научных и научно-образовательных организаций. Предложен комбинированный подход к созданию онтологии, когда для верхнего уровня используются уже существующие онтологии «top-level» и экспертные знания, а для других – автоматическое формирование на базе корпусов документов и широких междоменных онтологий, которые хорошо поддерживаются благодаря усилиям открытого сообщества. Проведен анализ основных моделей представления данных в онтологиях, сделан выбор языков описания онтологий и инструментальных средств для создания прикладной онтологии.
Ключевые слова: онтология, онтологический подход, таксономия, OWL.
The article studies the application of the ontological approach to solve various problems of the data processing system of scientific and scientific-educational organizations. A combined approach to creating ontologies is presented, when existing top-level ontologies and expert knowledge are used for the top level, and for others – automatic generation based on document bodies and broad crossdomain ontologies, which are well supported thanks to the efforts of the open community. The main models of data representation in ontologies are analyzed, the choice of ontology description languages and tools for creating an applied ontology is made.
Key words: ontology, ontology approach, taxonomy, OWL.
У статті досліджується застосування онтологічного підходу для вирішення різних завдань системи обробки даних наукових і науково-освітніх організацій. Запропоновано комбінований підхід до створення онтології, коли для верхнього рівня використовуються вже існуючі онтології «top-level» і експертні знання, а для інших – автоматичне формування на базі корпусів документів і широких міждоменних онтологій, які добре підтримуються завдяки зусиллям відкритої спільноти. Проведено аналіз основних моделей представлення даних в онтологіях, зроблено вибір мов опису онтологій та інструментальних засобів для створення прикладної онтології.
Ключові слова: онтологія, онтологічний підхід, таксономія, OWL.
Невозможно представить любую научную или научно-образовательную организацию без развитой комплексной автоматизированной системы управления. Работы в этом направлении активно проводились, начиная с 80-х годов прошлого столетия, и продолжаются до сих пор. Научно-образовательная организация ГОУВПО ДонНТУ не является исключением и также имеет постоянно расширяемую новыми модулями автоматизированную систему. К существующим подсистемам добавляются новые модули, построенные в соответствии с современными ИТ. Среди существующих подсистем в составе АСУ ДонНТУ имеются подсистемы, поддерживающие различные виды организационной и управленческой деятельности.
Однако в последнее время возникла необходимость создания современного интеллектуального инструмента, поддерживающего повседневную профессиональную деятельность сотрудника, как в учебной, так и в научной деятельности. В работе [1] был предложен базирующийся на онтологии подход к построению системы управления профессиональными знаниями вуза, обеспечивающий представление и интерпретацию информации в виде знаний этой научно-образовательной организации. Для решения этой задачи необходим переход на качественно новый уровень представления и обработки информации – семантический уровень, что позволит учитывать смысл (содержание) документов, извлекая из них важные для пользователя знания. Схематически обобщенную структуру системы управления знаниями научно-образовательной организации можно представить следующим образом (рис. 1), отдельно выделены направления, которые имеют отношение к теме работы.
Рисунок 1 – Обобщенная структура системы управления знаниями научно-образовательной организации – вуза
Данная система относится к классу систем управления знаниями (Knowledge Management System, KMS), которые в последние годы активно развиваются как в России, так и за рубежом.
Знание – это полученная определённым способом и упорядоченная некоторым образом информация. Система управления знаниями (СУЗ или Knowledge Management Systems – КMS) является корпоративной информационной системой, предназначенной для выявления, создания, распространения, обработки, хранения, предоставления, генерирования и использования знаний внутри предприятия или организации.
Настоящее время характеризуется резким ростом объемов данных, обусловленных техническим прогрессом и необходимостью единообразного представления данных и знаний. Возникает потребность извлечения структурированной информации из неструктурированной и слабоструктурированной и организации эффективного способа хранения данных и поиска. Разработка подобных систем в сфере высших профессиональных образовательных и научных организаций на данный момент является актуальной задачей. В последние десятилетия для структурирования, формализации и унификации представления знаний с целью их многократного и гибкого использования в информационных системах применяются онтологии. В работе [1] приведены основные принципы и подходы при разработке системы управления профессиональными знаниями научных и научно-образовательных организаций, в основу проектирования которой был предложен онтологический подход.
В ходе изучения материала оказалось, что исследования проблемы формирования онтологий достаточно широко распространены и отражены в работах известных российских и зарубежных ученых, например, Т. Грубера [2], [3], Н. Гуарино [4-6], Jos de Bruijn [7], D. Fensel [7], S. Staab [6], Т. А. Гавриловой [8], В. Ш. Рубашкина [9], А. В. Смирнова [10], Г. С. Осипова [11].
Онтология, по общепринятому определению, есть спецификация концептуальной модели, формализованное представление основных понятий и связей между ними [12]. Существует и множество других определений. Общим для всех существующих определений является понимание онтологии как модели представления знаний какой- либо предметной области в виде набора понятий этой предметной области и существующих между ними отношений. В конце 90-х годов это понятие стало широко использоваться при поиске информации в среде Интернет и в системах управления знаниями. Позже онтологии стали использоваться в проектах семантического веба – нового этапа развития сети WWW (Word Wide Web). Семантическая сеть должна была иметь средства, чтобы добавлять онтологии и метаописания знаний, содержащихся в документах Web-сети [13].
Таким образом, цель данной работы – исследовать использование онтологий при проектировании ИС научно-образовательных организаций, обосновать целесообразность онтологического подхода к разработке системы обработки данных научных и научно-образовательных организаций и изучить подходы к созданию онтологий предметной области.
Применение онтологий в различных информационных системах (ИС) достаточно широко исследовано. Рассмотрим типовые задачи, наиболее распространенные при проектировании ИС на основе онтологий.
В работе [14] описываются различные особенности и теоретические преимущества фреймворка knowledge-based framework, основанного на знаниях, введенных экспертом в систему, в интеллектуальном производстве для линии химической автоматизации с целью минимизации затрат и максимизации эффективности производственной линии за счет предотвращения сбоев, опасных ситуаций и оптимизации планов производства.
В сфере здравоохранения существует множество ИС, основанных на онтологии. Так, например, контекстно-ориентированная структура управления доступом, которая позволяет представлять и реализовывать SitBAC как модель знаний наряду с соответствующим методом вывода, используя OWL и SWRL [15].
В статье [16] представлено проектирование, разработка и валидация iosC3- онтологической системы для интеллектуального наблюдения и лечения критических пациентов с острыми сердечными расстройствами в отделе интенсивной терапии (ОИТ). Система анализирует состояние пациента и дает рекомендации по лечению, которое необходимо назначить для достижения максимально быстрого выздоровления.
Механизм интерпретации высказываний для интеллектуальных разговорных интерфейсов, основанный на онтологии, был описан в источнике [17]. Основная цель такого подхода – предложить систему, способную выполнять задачи через интуитивно понятный интерфейс, позволяющий опытным и менее опытным пользователям взаимодействовать с ней легко и комфортно. В этом механизме онтологии используются для синтаксической и семантической интерпретации.
Сегодня в каждой организации финансовый анализ служит основой для понимания и оценки результатов хозяйственной деятельности и определения того, насколько хорошо идет бизнес. В работе [18] на основе анализа семантики финансовой отчетности предприятия разрабатывается онтологическая модель финансовой информации организации. Путем объединения онтологической модели финансовой области с алгоритмом интеллектуального анализа правил ассоциации и моделью Zscore разработана новая модель бизнес – аналитики для прогнозирования банкротства.
В сфере образования и электронного обучения также используются онтологии. В последние годы, с широким использованием метаданных и появлением семантической сети, это видение постепенно превращается в реальность. Эти системы основаны на прочных связях, определенных в метаданных объектов обучения, которые позволяют комбинировать их с другими объектами обучения, чтобы сформировать целостную образовательную программу [19]. В адаптивных образовательных системах, доступных студентам, интеграция этих систем превращается из интересной исследовательской задачи в важную практическую задачу, решение которой базируется на основе онтологий и метаданных.
В статье [20] представлена онтологическая модель TSH, которая разработана в модульном подходе и реализована в OWL с использованием Protege2000 с целью использования всего потенциала онтологий для описания предметной области, чтобы обеспечить эффективную базу для разработки, настройки и выполнения программных приложений.
В работе С. Ниренбурга, В. Раскина [21] утверждается о возможности использования онтологий как в системах извлечения знаний, так и при информационном поиске знаний, при аннотировании текстов и классификации знаний и др. В онтологической семантике Сергей Ниренбург и Виктор Раскин вводят комплексный подход к обработке смысла текста с помощью компьютера.
Для поддержки деятельности инженеров по знаниям и архитекторов при управлении знаниями в прошлом было предложено несколько подходов, основанных на онтологии [22], [23]. Akerman and Tyree [22] предлагают основанный на онтологии подход для поддержки разработки программного обеспечения. Однако авторы не предоставляют детальной информации о количестве людей и их отношениях в онтологии, и эта онтология не является общедоступной для повторного использования.
Ameller и Franch [23] представляют онтологию с именем Arteon для представления знаний. Эта онтология призвана обеспечить строительные блоки архитектурных представлений, фреймворков и элементов для построения структурных аспектов архитектуры программного обеспечения. Следует отметить, что Ameller и Franch описывают только понятия в рамках онтологии Arteon и рассматривают популяцию индивидов (экземпляров) как часть своей будущей работы, что не позволяет нам использовать данную онтологию в своей работе.
В своей основополагающей работе г-жа Крухтен [24] предлагает онтологию, чтобы добавить в качестве первого класса концепции по управлению архитектурными знаниями, а также вводит таксономию архитектурных решений, ее атрибуты и ее связь с такими понятиями, как требования, дефекты, элементы проектирования и реализации. Преимущество такой онтологии заключается в том, что она сохраняет сложные графики взаимосвязанных проектных решений и поддерживает примеры использования, такие, как, рекомендации для поддержки архитекторов программного обеспечения в процессе принятия решений.
Основным преимуществом онтологического подхода, отмеченным в работах Т. Гавриловой, является целостный системный подход к автоматизации. При этом достигается:
Обобщив опыт различных ученых, можно выделить задачи, при которых использование онтологий и онтологического подхода в системах обработки данных является необходимым. Использование онтологий при решении основных задач проектируемой системы управления знаниями ВУЗа приведены на рис. 2.
Рисунок 2 – Онтологии при решении основных задач системы
При анализе системы можно выделить основные факторы, определяющие целесообразность применения онтологического подхода: в различных задачах разработки, эксплуатации и сопровождения системы используется одна и та же онтология; построенная онтология является, по сути дела, каркасом, представлением и моделью некоторой предметной области; наполнение онтологии индивидами позволит сформировать хранилище данных системы.
Тем не менее, на текущий момент, процесс создания онтологий имеет ряд недостатков. Некоторые авторы указывали на ряд проблем, возникающих при подборе существующих онтологий, тяжело, а иногда, и невозможно найти подходящую онтологию из числа существующих под конкретные задачи. С другой стороны, создание новой онтологии является сложным и достаточно дорогостоящим процессом. Еще одним моментом является сложность оценки качества созданной онтологии. Поэтому перед нами стоит задача предложить такой способ формирования онтологий, который бы нивелировал бы в значительной степени озвученные недостатки и проблемы.
Онтология – точная (выраженная формальными средствами) спецификация концептуализации [2]. Онтология в наше время не имеет четкого определения и как показал анализ трудов, в разных источниках трактуется по-разному. Но вместе с тем, практически всегда под определение онтологии попадают и многие другие понятия, в том числе и иерархия классов в ООП, концептуальные карты (concept maps), семантические сети, словари с определениями, таксономия, тезаурусы (таксономия в терминах) и т.п.
В системах управления знаниями онтологии обеспечивают в первую очередь базовый глоссарий (тезаурус), в терминах которого могут быть описаны понятия и объекты предметной области для представления и обмена данными. Затем часто используется таксономия, построенная на одном типе отношений, а затем уже и другие онтологии.
Языки представления знаний (Knowledge Representation Language), или языки описания онтологий (Ontology Landuage), имеют весьма важное значение в управлении знаниями. На сегодняшний момент выделяют три основных класса языков описания онтологии, что показано на рис. 3. [27].
Рисунок 3 – Классификация языков описания онтологии
Мы считаем, что предпочтительнее использовать языки, стандартизированные в процессе работы над проектом организацией W3C. Для разработки прикладной онтологии сделаем выбор в пользу OWL (Ontology Web Language). На это решение повлияли следующие факторы:
Выбор инструментального средства для создания онтологических моделей – это следующий этап. Редактор онтологий должен поддерживать работу с OWL-моделями и поддерживать наилучшим образом импорт-экспорт различных форматов. Построим график частоты использования различных форматов представления данных (рис. 4) [28]. Можно сделать вывод, что лидером по частоте использования является RDF(S).
Рисунок 4 – График частоты применения различных форматов описания онтологий при импорте и экспорте данных
Для создания прикладной онтологической модели рассматриваемой предметной области выбираем редактор Protege, так как это свободно распространяемый редактор, позволяющий создавать и редактировать онтологии, а также экспортировать их во множество форматов таких, как RDF, OWL, XML и другие [28], [29].
В литературе часто приводится деление всех онтологий на онтологии верхнего уровня(Generic or Top-level ontologies), среднего уровня(Task-oriented) и онтологии нижних уровней(Domain-oriented).
В необходимости создания онтологий верхнего уровня (базовой) убеждены почти все авторы [21-24], [30-32]. Онтология верхнего уровня решит проблему сравнения различных онтологий между собой и проблему интеграции нескольких систем, использующих собственные онтологии приложений, которые должны расширять онтологию верхнего уровня, уточнять ее в рамках конкретной предметной области.
В качестве онтологии верхнего уровня для системы обработки данных научных и образовательных организаций может выступать, например, онтология научной и учебной деятельности сотрудника, которая включает такие классы понятий, как «Организация», «Сотрудник», «Документ», «Информационный ресурс» и др. Эти классы используются для описания участников, их научной и производственной деятельности, научных программ и проектов, различного типа публикаций и документов. При построении прикладной онтологии верхнего уровня необходимо использовать готовые онтологии после подробного анализа, однако эти исследования и разработка прикладной онтологии не являются предметом обсуждения данной работы.
Онтология предметного знания (среднего уровня) содержит такие понятия, как
Дисциплина
, Выпускная квалификационная работа
, Публикация
, Тема
и т.п.
Используя эти понятия, можно выделить и описать значимые для области знаний
разделы и подразделы. Что касается процесса создания онтологий среднего и нижнего
уровня, то предлагается использовать идею извлечения и повторного использования
знаний, полученных из широких междоменных онтологий, поскольку ни один из
существующих подходов не фокусируется на их использовании для поддержки профессиональной деятельности работников научной и научно-педагогической сферы.
За последние несколько лет широкие универсальные междоменные онтологии развивались быстрыми темпами благодаря открытым усилиям сообщества. Например, онтология DBpedia [30] – междоменная онтология, основанная на наиболее часто используемых терминах в статьях Википедии. Она содержит более 685 классов, 2 795 различных свойств и более 4,2 миллиона экземпляров.
Общим недостатком использования онтологий, предложенных выше, можно считать то, что они полагаются только на заполнение и поддержание онтологий [31], то есть создание экземпляров понятий и их взаимосвязей. Вышеупомянутые работы сосредоточены исключительно на захвате понятий и их отношений в онтологии. Они не фокусируются на населяющих индивидах в пределах онтологии. Однако очень важно, если онтология захватывает понятия предметной области, то она также должна содержать значительное число индивидов вместе с их отношениями. Кроме того, если онтология не будет развиваться путем внедрения новых знаний, применимость осно- ванных на онтологии инструментов, в том числе и проектируемой системы управления знаниями, будет ограничена. В этой связи Рамайя и др. [32] предлагают новый полуавтоматический подход для заполнения онтологии. Понятия, связанные с предметной областью, автоматически идентифицируются и извлекаются путем разбора статей Википедии в онтологии. Такая технология подтверждает и расширяет подход, предложенный в данной статье, и она может быть использована в качестве альтернативы онтологии DBpedia, которая также является производной от Википедии.
Комбинированный способ создания прикладной онтологии изображен на рис. 5.
Рисунок 5 – Комбинированный способ создания прикладной онтологии
Таким образом, при разработке онтологической модели системы обработки данных научных и образовательных организаций, построенной на основе использования онтологического подхода, был впервые предложен комбинированный способ создания прикладной онтологии.
При этом для создания базовой онтологии будут использоваться ранее созданные top-level онтологии. После экспертного построения первоначального варианта базовой онтологии, представляющей собой относительно неизменную часть и являющуюся каркасом, происходит оценка ее адекватности. В случае необходимости, возможен переход к модификации онтологии и к ее расширению. При создании онтологий среднего и нижних уровней будут использоваться знания, полученные в процессе извлечения из корпусов документов, а также знания, полученные из уже существующих междоменных онтологий. Процесс итерационный, повторяется и для других уровней онтологии до тех пор, пока не будет достигнута определенная точность представления конкретной предметной области.
Данная работа имела целью изучение, обобщение и описание основных принципов и подходов при разработке системы обработки данных научных и научно-образовательных организаций.
В процессе исследования были изучены аспекты применения онтологий при проектировании ИС научных и научно-образовательных организаций и обоснована целесообразность онтологического подхода к разработке системы обработки данных научных и научно-образовательных организаций.
Изучены подходы к созданию онтологий предметной области и впервые был предложен и описан комбинированный способ формирования онтологии, основанный на повторном использовании уже существующих онтологий, которые хорошо поддерживается благодаря усилиям открытого сообщества. Несмотря на то, что эти онтологии не были созданы с акцентом на использование в сфере образования и научной деятельности, тем не менее, они охватывают широкий спектр как общих, так и междисциплинарных знаний.
RESUME
Natalia Andrievskaya
Ontological Approach in Data Processing Systems of Scientific and Educational Organization
Recently, there has been a need to create a modern intellectual tool that supports the daily professional activities of employees of scientific and educational organizations. To solve this problem, it is necessary to move to a qualitatively new level of information representation and processing – the semantic level. The aim of this work is to study the use of ontologies in the design of ICS scientific and educational institutions and justify the ontological approach to the development of such systems, and to develop a modern approach to the creation of a domain ontology system.
Course of the research, the typical tasks that are most common in the design of is based on ontologies were considered and the aspects of using ontologies were studied. The main factors determining the feasibility of using the ontological approach were identified. Approaches to creating ontologies of the subject area are studied and a combined method of ontology formation is proposed. It is based on reusing existing ontologies both when creating the top level of the hierarchy, and when expanding them semi-automatically at the lower levels. Although such ontologies were not created with an emphasis on use in education and research, they nevertheless cover a wide range of both General and interdisciplinary knowledge and are well supported through the efforts of the open community.
In this paper, it is proposed to use the maximum possible ontological approach in the development of data processing systems for scientific and educational organizations. When developing an ontological model of the data processing system of scientific and educational organizations, a combined method of forming an ontology will be used, which consists of an upper-level, middle-level and lower-level ontology.
Currently, the scientific and innovative activity is characterized by more than 20 parameters. The Development of systems for accounting data on scientific and methodological work for higher professional educational organizations is currently an actual task. At the same time, the need to create such a system has been constantly identified at all levels of the national infrastructure for education and science management. Thus, in the future, it is planned to present the implementation of applied ontology and continue the development of this system.
РЕЗЮМЕ
Н. К. Андриевская
Онтологический подход в системах обработки данных научных и научно-образовательных организаций
В последнее время возникла необходимость создания современного интеллектуального инструмента, поддерживающего повседневную профессиональную деятельность сотрудников научных и научно-образовательных организаций. Для решения этой задачи необходим переход на качественно новый уровень представления и обработки информации – семантический уровень. Цель данной работы – изучить использование онтологий при проектировании ИС научно-образовательных организаций и обосновать целесообразность онтологического подхода к разработке подобных систем, а также разработать современный подход к созданию онтологии предметной области системы.
В процессе исследования были рассмотрены типовые задачи, наиболее распространенные при проектировании ИС на основе онтологий и изучены аспекты применения онтологий при проектировании. Были выделены основные факторы, определяющие целесообразность применения онтологического подхода. Изучены подходы к созданию онтологий предметной области и предложен комбинированный способ формирования онтологии. Он основан на повторном использовании уже существующих онтологий, как при создании верхнего уровня иерархии, так и при полуавтоматическом их расширении на нижних уровнях. Несмотря на то, что такие онтологии не были созданы с акцентом на использование в сфере образования и научной деятельности, тем не менее, они охватывают широкий спектр как общих, так и междисциплинарных знаний и хорошо поддерживаются благодаря усилиям открытого сообщества.
В данной работе предлагается широко использовать онтологический подход при разработке системы обработки данных научных и научно-образовательных организаций. При разработке онтологической модели системы обработки данных научных и образовательных организаций будет использоваться комбинированный способ формирования онтологии, которая состоит из онтологии верхнего уровня, среднего и нижнего уровней.
В настоящее время научно-инновационная и педагогическая деятельность ученых характеризуется более чем 20 параметрами. Разработка систем учета данных для высших профессиональных образовательных организаций на данный момент является актуальной задачей. В то же время в последнее время потребность в создании подобной системы постоянно обозначается на всех уровнях национальной инфраструктуры управления образованием и наукой. Таким образом, в перспективе планируется представить реализацию прикладной онтологии и продолжить исследования по разработке данной системы.
Статья поступила в редакцию 23.01.2020