Источник: http://works.tarefer.ru/69/100462/index.html
Одна из основных задач KM заключается в необходимости получения из массива исходной информации сведений, которые нужны для решения конкретной проблемы. Задача эта только в самом простейшем случае может быть сведена к прямому поиску нужных документов по ключевым словам или реквизитам. К сожалению, основным методом извлечения знаний сегодня по-прежнему является тот самый поиск, довольно редко с использованием учета морфологии и почти никогда – семантики. Происходит это в первую очередь из-за высокой сложности такой обработки, которая не может быть преодолена только за счет повышения вычислительной мощности компьютеров. Решение подобных задач возможно путем разработки новых математических и лингвистических подходов.
Современные модели представления и интеграции информационных ресурсов активно развиваются и внедряются в практику. Важнейшим элементом современных информационных технологий являются онтологии, которые позволяют производить автоматизированную обработку семантики информации, предоставленной через Интернет, с целью её эффективного использования (представления, преобразования, поиска). Соответствующий принцип обработки данных Интернета базируется на представлении Интернета как глобальной базы знаний и ориентирован не на осмысление информации человеком, а на обеспечение семантической интероперабельности информационных ресурсов, т.е. автоматизированную интерпретацию и обработку информации.
Онтологии являются новыми интеллектуальными средствами для поиска ресурсов в сети Интернет, новыми методами представления и обработки знаний и запросов. Они способны точно и эффективно описывать семантику данных для некоторой предметной области и решать проблему несовместимости и противоречивости понятий. Онтологии обладают собственными средствами обработки (логического вывода), соответствующими задачам семантической обработки информации. Так, благодаря онтологиям, при обращении к поисковой системе пользователь будет иметь возможность получать в ответ ресурсы, семантически релевантные запросу (рис. 1).
Поэтому онтологии получили широкое распространение в решении проблем представления знаний и инженерии знаний, семантической интеграции информационных ресурсов, информационного поиска и т.д.
Известны несколько подходов к определению понятия онтологии, но общепринятого определения до сих пор нет, поскольку в зависимости от каждой конкретной задачи удобно интерпретировать этот термин по-разному: от неформальных определений до описаний онтологий в понятиях и конструкциях логики и математики. Мы будем понимать этот термин следующим образом:
Онтология – формальная спецификация разделяемой концептуализации, которая имеет место в некотором контексте предметной области. При этом под концептуализацией будем иметь в виду, кроме сбора понятий, также всю информацию, касающуюся понятий – свойства, отношения, ограничения, аксиомы и утверждения о понятиях, необходимые для описания и решения задач в избранной предметной области.
Неформально онтология состоит из терминов и правил использования этих терминов, ограничивающих их значения в рамках конкретной области. На формальном же уровне, онтология это система, состоящая из набора понятий и набора утверждений об этих понятиях, на основе которых можно строить классы, объекты, отношения, функции и теории.
Поскольку в каждой области могут существовать различные понимания одних и тех же терминов, онтология определяет соглашение о значении терминов и является посредником между человеко- и машинно-ориентированным уровнем представления информации. Онтология существует в рамках договоренностей между членами сообщества, например, между пользователями некоторой информационной системы.
Концептуальное (или онтологическое) моделирование имеет дело с вопросом о том, как декларативным образом, допускающим повторное использование, описать предметную область, соответствующие словари типов, как ограничить использование этих данных, в предположении понимания того, что может быть выведено из этого описания.
Из данного определения также следует, что частными случаями онтологий являются простой словарь (например, Dublin Core), тезаурус (в котором ограничено число отношений между терминами) и т.д.
Онтологию можно применять в качестве компоненты баз знаний, схемы объектов в объектно-ориентированных системах, концептуальной схемы базы данных, структурированного глоссария взаимодействующих сообществ, словаря для связи между агентами, определения классов для программных систем.
Онтологии в том числе позволяют соответствующим программным средствам (интеллектуальным агентам) автоматически (без участия человека) определять смысл терминов использованных при описании ресурсов и сопоставлять его со смыслом поставленной задачи.
Для онтологий характерны две особенности: они могут быть множественными (составными), в которых различаются представления контекста одного и того же домена, а могут идентифицировать абстрактные уровни онтологий (быть уровнем выше других онтологий). Что касается второго случая, то возможно идентифицировать несколько уровней абстракции, на каждом из которых могут быть определены онтологии. Например, в области каждой научной дисциплины можно определить онтологии, еще уровнем выше можно описать онтологии научных областей, находящихся на стыке отдельных научных дисциплин. Еще выше поставим онтологию научной дисциплины вообще. Следующим уровнем абстракции мы поставим общие категории структур знаний. Такого рода обобщение приводит нас к необходимости различать виды онтологий, чтобы организовывать их в библиотеки онтологий.
1. Предметно-ориентированные (Domain-oriented);
2. Ориентированные на прикладную задачу (Task-oriented)
3. Базовая техническая онтология. (Basic technical ontology)
4. Общие онтологии (Generic ontologies).
Ключевым моментом в проектировании онтологий является выбор соответствующего языка спецификации онтологий (Ontology specification language). Цель таких языков - предоставить возможность указывать дополнительную машинно-интерпретируемую семантику ресурсов, сделать машинное представление данных более похожим на положение вещей в реальном мире, существенно повысить выразительные возможности концептуального моделирования слабоструктурованных Web-данных.
Существуют традиционные языки спецификации онтологий (Ontolingua, CycL, языки, основанные на дескриптивных логиках, такие как LOOM, и языки, основанные на фреймах - OKBC, OCML, Flogic). Более поздние языки основанные на Web-стандартах, такие как XOL, SHOE или UPML, RDF(S), DAML, OIL, OWL созданы специально для обмена онтологиями через Web.
В целом, различие между традиционными и Web-языками спецификации онтологий заключается в выразительных возможностях описания предметной области и некоторых возможностях механизма логического вывода для этих языков. Типичные примитивы языков дополнительно включают:
• Конструкции для агрегирования, множественных иерархий классов, правил вывода и аксиом;
• Различные формы модуляризации для записи онтологий и взаимоотношений между ними;
• Возможность метаописания онтологий. Это полезно при установлении отношений между различными видами онтологий.
Первыми предложениями по описанию онтологий на базе RDFS были DARPA DAML-ONT (DARPA Agent Markup Language) и European Commission OIL (Ontology Inference Layer). Эти стандарты спецификации и обмена онтологиями были разработаны для достижения наилучших результатов в поддержке процесса обмена знаниями и интеграции знаний. DAML обеспечивает примитивы для объявления пересечений, объединений, дополнений классов и т.д. OIL основан на description logics. Другое расширение RDFS – DRDFS. Также как OIL, он дает возможность для выражения классов и определения свойств, однако выразительная мощность языков DRDFS и OIL такова, что ни один из них не может быть рассмотрен как фрагмент другого.
На базе этих предложений DAML и OIL возникло совместное решение – DAML+OIL, которое послужило толчком для создания в рамках инициативы Semantic Web отдельной группы по пересмотру этого решения и стандартизации языка описания Web-онтологий (OWL - Web Ontology Language). Адаптация к Web систем логики и искусственного интеллекта составляет вершину «пирамиды Semantic Web», обеспечивая адекватный семантически поиск информации и машинную интерпретацию семантики.
OIL также можно рассматривать в сравнении с Ontolingua, разработанной в рамках инициативы On-To-Knowledge. По сравнению с Ontolingua, OIL менее выразителен, но все же позволяет делать логические выводы: поддержка вывода обеспечивается системой FaCT – классификатором, который работает на основе description logic.
Однако в целом можно сказать, что ориентированность языков описания онтологий на системы математической логики делает их слишком тяжеловесными для огромного количества приложений, которым достаточно простого языка описания словарей – RDFS. И это правильно, каждая ступень в пирамиде – это ступень, на которой многие приложения могут остановиться, согласно своим собственным требованиям к данным и их использованию.
На сегодняшний день уже имеется много средств семантического описания данных, многие из которых считаются достаточно выразительными для задач семантического моделирования данных. В качестве примера можно привести модель описания ресурсов (Resource Definition Framework), диаграммы Сущность-Связь (Entity-Relationship model). Мы опишем, в чем заключаются преимущества онтологий перед другими механизмами описания семантики предметной области, например, RDFS, ER-диаграммами.
1. Ограничения традиционных моделей данных
Для начала примем некоторые договоренности об использовании терминологии. Согласно М.Р. Когаловскому, под термином «модель данных» мы понимаем инструмент моделирования, т.е. является совокупностью понятий для описания данных, для описания структуры данных. «Модель предметной области» представляет собой визуальное представление сущностей предметной области и отношений между ними, т.е. спецификацию модели предметной области, и является результатом моделирования.
Первые модели данных предметной области описывались конструкторами типов таких языков программирования, как Алгол, а также в схемах баз данных. Позднее появились сложные модели данных, историю развития которых описал в своей работе Петер Чен, вместе с тем предложив новую модель данных, называемая моделью «сущность-связь» (Entity-Relationship model), основанную на некоторой важной семантической информации о реальном мире.
2. Модель Entity Relationship
ER-модель явилась основой, из которой могут быть порождены три существующие модели данных: сетевой модели, реляционной модели и модели набора сущностей, представляя данные более строго и естественно и одновременно обеспечивая независимость данных от приложений (ER- модель основывается на теории множеств и реляционной теории). С тех пор было предложено множество расширений ER-схем, чтобы обеспечить более мощные средства выражения семантики данных: механизмы задания иерархии подклассов классов сущностей, некоторых семантических ограничений типа «часть-целое», реификаций как классов сущностей, благодаря которым можно было распознавать общие характеристики сущностей различных классов. Примеры таких моделей - "semantic data modeling", "extended ER modeling", "hyper-semantic data modeling", "OMT approach" и др.
Ограничения ER-модели и её расширений в том, что они, описывая семантику «сущностей», позволяют интерпретировать данные одним единственным способом.
Например, допустим, что модель данных Интегрированной Системы Информационных Ресурсов (ИСИР) РАН будет содержать тип ресурса «Научная организация» вместе с некоторыми атрибутами и соотношениями. Сущностями этого типа будут служить конкретные научные организации. С помощью механизма иерархии классов можно понять, к какому типу относится данный ресурс (к типу «Организация»), однако самому типу "Научная организация" в процессе моделирования данных обычно можно дать только одну интерпретацию. Поэтому, повторно использовать данное понятие «Научная организация» не удастся, т.к. этот термин в разных контекстах (т.е. при различных точках зрения видения предметной области) имеет разное значение. Например, с научной точки зрения нас будут интересовать такие аспекты, как направление научных исследований, список ведущих научных сотрудников и т.д. В административной структуре интересен управленческий состав, организационные вопросы. В плане внешних связей данной организации полезна информация о рейтинге и научном сотрудничестве, филиалах и т.д.
3. Архитектура ANSI/SPARC
Можно с уверенностью сказать, что повторное использование знаний в различных контекстах не возможно без наличия механизмов, позволяющих фиксировать различное понимание этих знаний. Идея разработки такого механизма была представлена частично в ANSI/SPARC-архитектуре баз данных.
Эта архитектура включает три уровня:
1. Логический уровень (называемый «концептуальной схемой*»), который является промежуточным уровнем и основой данной архитектуры.
2. Внутреннее представление базы данных описывает способ, по которому концептуальная схема может быть реализована в терминах объектов физического уровня: файлов, индексов, хэш-таблиц и т.д.
3. На верхнем уровне концептуальной модели можно определить множественное «внешнее представление». Оно будет состоять из выборок и комбинаций элементов концептуальной схемы и представлять видение схемы для каждого конкретного пользователя этого приложения. Например, база данных, содержащая административную информацию о сотрудниках организации, должна содержать два различных представления данных: для финансового отдела и для самих научных сотрудников.
Главное ограничение внешнего представления ANSI/SPARC заключается в том, что в логической модели архитектуры ANSI/SPARC должна содержаться вся имеющаяся в базе данных информация, однако новые данные, добавленные в представления верхнего уровня, нельзя перенести на логический (основной) уровень этой архитектуры. Другими словами, нет единого, унифицированного представления для всех представлений контекстов, которое было бы достаточным для любой возможной ситуации, поскольку число различных представлений контекстов практически неограниченно. Не существует также способа понять, применима ли какая-то конкретная часть знаний для другого контекста, и если неприменима, то почему.
RDF Schema – это стандарт инициативы W3C для преставления онтологических знаний. RDF Schema специфицирует множество всевозможных допустимых схем данных. RDF модели предметных областей описываются посредством ресурсов, свойств и их значений. Ограничения RDFS в невозможности с его помощью выразить аксиоматические знания, т.е. задать аксиомы и правила вывода, построенные на аксиомах.
RDFS предоставляет хорошие базовые возможности для описания словарей типов предметных областей.
Однако расширение выразительных способностей инструмента RDFS возможно и чрезвычайно полезно. Механизм расширения внутренне присущ RDFS путем «уточнения» или дополнения базовых типов. Поэтому RDFS стал фундаментом для более богатых языков описания концепций предметных областей, называемых языками описания онтологий предметных областей, о которых пойдет речь позже.
METHONTOLOGY, как подход к построению и сопровождению онтологий, разработан Асунсьон Гомез-Перез (А. Gomez-Perez) с коллегами В рамках этой методологии реализуются принципы Грубера, а также разработано программное окружение спецификации онтологии ODE (Ontology Design Environment). Данный подход выделяет следующие процедуры в «жизненном цикле» создания онтологии: управление проектом, собственно разработка и поддержка разработки. Процедуры управления проектом включают планирование, контроль и гарантии качества. Планирование определяет, какие задачи должны быть выполнены, как они организуются, как много времени и какие ресурсы нужны для их выполнения. Контроль гарантирует, что запланированные задачи выполнены и именно так, как это предполагалось. Гарантии качества нужны для того, чтобы быть уверенным в том, что компоненты и продукт в целом находятся на заданном уровне.
Собственно разработка включает спецификацию, концептуализацию, формализацию и реализацию.
Согласно обсуждаемой методологии сначала здесь строится глоссарий терминов, включающий все термины (концепты и их экземпляры, атрибуты, действия и т. п.), важные для предметной области, и их естественно-языковые описания. Когда глоссарий терминов достигает «существенного» объема, строятся деревья классификации концептов. Таким образом, идентифицируются основные таксономии предметной области, а каждая таксономия, согласно рассматриваемой методологии, дает в конечном счете онтологию. В рамках инициативы (КА)2 идентифицировано несколько таксономий. Следующим шагом является построение Диаграмм бинарных отношений, целью создания которых является фиксация отношений между концептами одной или разных онтологий. Заметим, что в дальнейшем эти Диаграммы могут послужить исходным материалом для интеграции разных онтологий.
После построения представлений, фиксированных выше, для каждого дерева классификации концептов строятся:
1. Словарь концептов (Concept Dictionary), содержащий все концепты предметной области, экземпляры таких концептов, атрибуты экземпляров концептов, отношения, источником которых является концепт, а также (опционально) синонимы и акронимы концепта.
2. Таблица бинарных отношений (Table of Binary Relations) для каждого отношения, исходный концепт которого содержится в классификационном дереве. Для каждого отношения фиксируется его имя, имена концепта-источника и целевого концепта, инверсное отношение и т. п. характеристики.
3. Таблица атрибутов экземпляра (Instance Attribute Table) для каждого экземпляра из словаря концептов. Основные характеристики здесь следующие: имя атрибута, тип значения, единица измерения, точность, диапазон изменения, значение «по умолчанию», атрибуты, которые могут быть выведены с использованием данного, формула или правило для вывода атрибута и др.
4. Таблица атрибутов класса (Class Attribute Table) для каждого класса из словаря концептов с аналогичными характеристиками.
5. Таблица логических аксиом (Logical Axioms Table), в которой даются определения концептов через всегда истинные логические выражения. Определение каждой аксиомы включает ее имя, естественно-языковое описание, концепт, к которому аксиома относится, атрибуты, используемые в аксиоме, логическое выражение, формально описывающее аксиому, и др.
6. Таблица констант (Constants Table), где для каждой константы указывается ее имя, естественно-языковое описание, тип значения, само значение, единица измерения, атрибуты, которые могут быть выведены с использованием данной константы, и т. п.
7. Таблица формулы (Formula Table) для каждой формулы, включенной в таблицу атрибутов экземпляра. Каждая таблица этого типа, помимо собственно формулы, должна специфицировать ее имя, атрибут, выводимый с помощью этой формулы, естественно-языковое описание, точность, ограничения, при которых возможно использовать формулу, и др.
8. Деревья классификации атрибутов (Attribute Classification Trees), которые графически показывают соответствующие атрибуты и константы, используемые для вывода значения корневого атрибута и формулы, применяемые для этого. По сути дела, эти деревья используются для проверки того, что все атрибуты, представленные в формуле, имеют описания и ни один из атрибутов не пропущен.
9. Таблица экземпляров (Instance Table) для каждого входа в словарь концептов. Здесь специфицируется имя экземпляра, его атрибуты и их значения.
1. Концепция создания Единой информационной системы РАН (ЕИС РАН). Вторая редакция
2. Christopher Welty. Towards a Semantics for the Web. Padova, Italy
3. Когаловский М.Р. Абстракции и модели в системах баз данных // Журнал «СУБ», Издательский дом «Открытые системы», 4-5/1998.
4. Смирнов А.В., Пашкин М.П., Шилов Н.Г., Т.В. Левашова. Онтологии в системах искусственного интеллекта: способы построения и организации (часть 1) // «Новости искусственного интеллекта» № 1 (49) 2002 г
5. Клещев А.С., Артемьева И.Л.. Математические модели онтологий предметных областей. Часть 1. Существующие подходы к определению понятия «онтология»