Онтология базирующаяся на семантических метаданных для геофизических исследований

Авторы: Viral Parekh, Jin-Ping Gwo, Tim Finin

Перевод: Бажанова А. И.


Источник: http://aisl.umbc.edu/resources/95.pdf

В домене Геофизических исследований большие объемы данных доступный, однако они изменяются по форматам и сохраненный в различных организациях, приводящих к проблемам из открытия данных, функциональной совместимости данных и удобства пользования. В этой газете мы предлагаем новые семантические метаданные парадигма, основанная на онтологиях и использовании Языки Семантической паутины. Наша предложенная модель данных онтология используется, чтобы вести генерацию метаданных для отдельных наборов данных. Эта онтология модели данных определяет элементы, чтобы включить информацию о идентификация данных, пространственная степень, временная степень, форма представления данных, контент данных и данные распределение относительно набора данных. Объединение зависящие от домена онтологии с этой моделью данных онтология предлагает новый подход к генерации семантические метаданные для наборов данных. Система позволяет провайдер данных, чтобы выбрать понятия из домена онтологии, которые лучше всего описывают контент в пределах набор данных. Этот выбор наряду со ссылками к домену онтологии сохранены в пределах файла метаданных, таким образом генерирование семантических метаданных для набора данных. Это метаданные способны к облегчению конечных пользователей данные с контентом базировали открытие наборов данных независимо от их расположений и форматов.

1. Введение

Огромные объемы данных Геофизических исследований доступны и доступный для исследователей во всем мире. Есть несколько провайдеров данных, таких как US Правительственные учреждения как Экологический Агентство по защите (EPA), Соединенные Штаты Геологическая служба (USGS), Национальный Океанский и Атмосферное Администрирование (NOAA), Национальный Администрирование аэронавтики и космоса (NASA), и т.д. и другие некоммерческие организации как Национальный Центр Атмосферного Исследования (NCAR). Они производят различные виды данных который заархивирован в различных расположениях и распределенный во многих различных форматах. Это разнообразие форматов приводит к функциональной совместимости данных и проблемы используемости данных, к которым обращенным исследователи и другие пользователи. Кроме того, наборы данных распределены и сохранены различным организации, делающие задачу из определения местоположения и получение соответствующих очень сложных наборов данных. Есть насущная потребность эффективного механизма для открытия необходимых наборов данных. Конечные пользователи из этих наборы данных геофизических исследований могли быть исследователями поиск соответствующих данных, чтобы выполнить бесспорный эксперименты или задачи моделирования, люди от отрасли ища правильные данные, чтобы к облегчите принятие решений или даже студентов в поиск данных для их проектов класса.

В этой газете мы предлагаем семантические метаданные система управления, основанная на онтологиях и использовании из языков Семантической паутины. Это сделало предложение система рассмотрит проблему открытия данных и обеспечьте основание для функциональной совместимости данных и удобство пользования. Цель этой системы к обеспечьте парадигму метаданных, которая является семантически богатый и способный к облегчению контента базировался открытие наборов данных до конца пользователи, независимо от форматов и расположений наборы данных. Наше окончательное видение должно создать интеллектуальный и мощный экологический информационные системы, разрабатывая информационные инфраструктуры, которые могут включить развертыванию из эффективного совместного использования данных и интеграции механизмы. Мы видим нашу текущую работу в создание онтологии базировало семантические метаданные система управления как первый шаг к нашему заключительная цель семантической функциональной совместимости. FGDC (федеральный Географический Комитет по Данным) Стандарт контента для Цифрового Geospatial Метаданные [9] были разработаны в 1994, чтобы описать все возможные картографические данные. Однако, стандарт очень сложен с 334 отличающийся элементы, 119 из которых существуют только, чтобы содержать другие элементы, делающие этот стандарт, трудный к использовать. Кроме того стандарт обеспечивает базируемый текст синтаксические метаданные с фактически никакой семантикой и машина, когда сравнено к предложенной онтологии, базируемой семантический метаданные. Онтологии разработаны, чтобы обеспечить краткий обзор осмысление информации и a словарь сроков, которые будут использоваться в этом представление. Они обеспечивают семантику для домен и определяет набор доменных понятий и отношения среди этих понятий. Это бумага говорит о нашем подходе в использовании ряда нтологии, чтобы обеспечить семантические метаданные для наборы данных по сравнению с традиционным подходом использование текста базировало синтаксические метаданные. мотивирующие факторы для того, чтобы использовать онтологию базировались подход для того, чтобы генерировать семантические метаданные схемы:
• Онтологии могут быть созданы, чтобы обеспечить a совместно используемый, общий словарь, включенный в описание набора данных, таким образом при определении a стандарт метаданных, которые могут использоваться все • Онтологии могут обеспечить концептуальную схему для любого набора данных независимо от его формата, структура или раз мер
• Онтологии могут быть разработаны к семантически поймите контент и структуру данных существующий в наборе данных.
Онтологии могут использоваться, чтобы помочь данным провайдеры, чтобы ввести метаданные в a семантически допустимая форма.
• Функциональная совместимость среди неоднородного наборы данных могут быть достигнуты при использовании совместно используемого онтологии.
Мы закодировали онтологии в сети Язык онтологии (СОВА) [2], W3C рекомендация, которая разработана, чтобы понять Семантическая паутина. Семантическая паутина - будущее видение, в котором информация дана хорошо определенное значение, используя онтологии, таким образом включение машинам понять и обработать доступная информация [1]. Семантическая паутина и СОВА разработана для того, чтобы расшириться синтаксический функциональная совместимость к семантической функциональной совместимости. СОВА обеспечивает обширный словарь наряду с формальная семантика и облегчает машину interpretability. Выразительное питание СОВЫ добавляет больше семантики к нашим онтологиям. семантические метаданные сгенерированы при использовании их Онтологии СОВЫ закодированы как файлы СОВЫ и следовательно понятная машина и также доступный будущей Семантической паутине. В разделе 2 мы обсуждаем нашу методологию регистрация наборов данных по условию провайдеры и генерация семантических метаданных. Раздел 3 описывает подробно онтологию модели данных и его различные компоненты. Эта модель данных онтология определяет словарь, требуемый для генерирование семантических метаданных. Мы кратко обсудим и сравним часть связанной работы в Раздел 4. Раздел 5 завершает нашу статью.

2. Регистрация набора данных

Рисунок 1 изображает полный набор данных процесс регистрации. Роль провайдеров данных зарегистрировать их наборы данных, используя семантически допустимая форма, которая поочередно использует ряд онтологий. Этот процесс регистрации генерирует семантический метаданные для набора данных, который сохранен в база знаний. Как может быть замечен, репозитарий онтологии состоит из нескольких онтологий у СОВЫ – модель данных онтология и другие доменные онтологии такой как геофизические исследования, пространственные и временные онтологии. онтология модели данных содержит определенные классы и свойства, чтобы облегчить создание метаданные для набора данных. Это также включает условия, чтобы соединиться семантический понимание контента набора данных в пределах метаданные. Это семантическое понимание достигнутый при помощи геофизических исследований, пространственных и временные онтологии, которые определяют весь необходимые доменные понятия и отношения среди них. Семантические элементы от них доменные онтологии встроены в пределах файлы метаданных наряду со ссылками к онтологиям где они определены. Включением их семантические элементы, соответствующие данным поля в пределах набора данных, семантических метаданных для набор данных сгенерирован. База знаний хранит семантические метаданные человека наборы данных зарегистрировались в системе. Это семантические метаданные - файл экземпляра СОВЫ онтология СОВЫ модели данных. Знание основа - следовательно набор файлов СОВЫ, один для каждый набор данных. Конечный пользователь, кто нуждается в данных такой, поскольку исследователь мог тогда запросить это база знаний семантических метаданных, чтобы к выберите соответствующие наборы данных.

Рисунок 1 - Процесс регистрации

3. Онтология Модели данных

Онтология модели данных облегчает регистрация наборов данных по условию провайдеры. Это обеспечивает стандартный словарь сроков, чтобы быть б/У. Это также обеспечивает конечных пользователей данных с a механизм, чтобы запросить для соответствующих наборов данных. В этом бумага, мы сосредоточимся на использовании модели данных онтология, чтобы облегчить регистрацию набора данных. Цель этой онтологии состоит в том, чтобы обеспечить метаданные для набора данных так же как обеспечить a семантическое понимание контента данныхв пределах набора данных. Онтология определяет ряд элементы, которые будут использоваться с целью документация набора данных. Это отвечает кто, что, почему, где, когда и как из каждого фасета из набора данных. Конечная цель должна обеспечить a основание для эффективного механизма контента основанное извлечение наборов данных. Семантическое понимание достигнуто, отображаясь набор данных к понятиям определен в геофизических исследованияхдоменная онтология. Это отображение обеспечивает онтология базировала концептуальную схему для набор данных. Онтология модели данных разработана к обеспечьте это соединение набора данных к Онтология геофизических исследований и в этом процессе, a семантическое представление набора даннях сгенерированный.

Рисунок 2 - Модель данных онтологии

4. Обсуждение

Когда по сравнению с традиционными метаданными стандарт FGDC, мы верим нашим метаданным стандарт прост все же находчивый, семантически богатый и машина, понятная, как это базируется на доменных богатых онтологиях, которые закодированы в СОВА. Это облегчает базируемые запросы онтологии для наборы данных по сравнению с поисками по ключевым словам Файлы метаданных FGDC. Мы верим тому требованию провайдеры данных, чтобы зарегистрироваться в нашей системе и опубликуйте файлы метаданных, не будет бремя для их, когда по сравнению с относительно большим и сложные файлы метаданных FGDC они требуют к создайте для их наборов данных. Кроме того, усиления богатый. Ислам A. и др. [5] разрабатывает a онтология метаданных, основанная на метаданных FGDC стандарт, делающий это очень сложный и трудный к используйте по сравнению с нашей онтологией. В использовании есть другие продолжающиеся проекты Технологии Семантической паутины, чтобы улучшить данные открытие, удобство пользования и функциональная совместимость. Как a часть Семантической паутины для Земли и Экологическая Терминология (СЛАДКАЯ) [4] проект в NASA, они разработали несколько доменные онтологии, чтобы описать данные науки о Земле и знание. Их побуждение должно улучшиться открытие информации о NASA и данных продукция. В научном сообществе землетрясения, [6] предлагает разработать базируемую семантику данных система, чтобы улучшить функциональную совместимость среди неоднородные данные землетрясения. Кроме того, Земля Системная Сетка (ESG) проект [3] стремится обеспечивать открытие больших наборов данных, основанных на сетке технологии и использование схем метаданных и прототипная онтология. Однако, ни один из них стремитесь разработать к семантическим метаданным стандарт, который может использоваться всеми. Кроме того, наше использование веб-Языка Онтологии (СОВА) обеспечивает больше семантического питания для метаданные и также делают семантические метаданные файлы, доступные Семантическому следующему поколению Сеть.

5. Заключение

В этой газете мы обсуждали нашу модель данных онтология и механизм генерирования онтология базировала семантические метаданные для наборов данных. Каждый набор данных, который зарегистрирован в нашей СОВЕ у онтологий есть контент, базируемый семантический описание связалось с этим кроме информация о метаданных об идентификации, пространственный, степень, распределение и представление форма. Это семантическое описание независимо из формата набора данных и сгенерирован, используя геофизические исследования зависящие от домена онтологии. Это подход позволяет конечным пользователям данных искать для соответствующих наборов данных, основанных на их семантическом контент и метаданные, а не только простой ключевые слова. Мы утверждаем что подобный подход стандарт метаданных был бы выгоден для другого домены, такие как геофизика, химия, и т.д. если принятый ими, поскольку эти домены обращаются подобный проблемы неоднородности данных, используемости данных и соответствующее открытие данных как бывший обращенным домен геофизических исследований.

Список литературы

1.Berners-Lee T., Hendler J., Lassila O., The Semantic Web, Scientific American, May 2001
2.W3C: OWL Web Ontology Language Semantics and Abstract Syntax, 2004.
3.Pouchard L. et al, The Earth System Grid Discovery and Semantic Web Technologies, Workshop on Semantic Web Technologies for Searching and Retrieving Scientific Data, Florida, USA, 2003
4. Raskin R., Pan M., Semantic Web for Earth and Environmental Terminology (SWEET), Workshop on Semantic Web Technologies for Searching and Retrieving Scientific Data, Florida, USA, 2003
5. Islam A. et al, Ontology for Geographic Information - Metadata ( ISO 19115 ),
6. Chen A. et al, Interoperability and Semantics for Heterogeneous Earthquake Science Data, Workshop on Semantic Web Technologies for Searching and Retrieving Scientific Data, Florida, USA, 2003
7. The Dublin Core Metadata Initiative
8. The Ebiquity Research Group
9. FGDC Metadata