Назад в библиотеку

На пути к обработке знаний в онтологических системах извлечения информации

Автор: Agnieszka Konys

Источник (англ): https://www.sciencedirect.com/science/article/pii/S1877050918312031

Аннотация

Онтологии оказались эффективными и мощными инструментами для сбора знаний и обмена ими, предоставляя четкие спецификации концепций. Вместе с тем надлежащие процессы создания онтологий и обновление ими различных источников данных требуют огромных усилий и хорошо отлаженных механизмов для их извлечения, позиционирования и совместного использования. В этом контексте применение надлежащей системы извлечения информации на основе онтологии (OBIE) может помочь в решении этих проблем. Статья представляет собой успешную попытку определить современное состояние отдельных систем OBIE с последующим процессом построения таксономии и систематизации знаний о конкретных подходах OBIE.

Введение

Огромное количество неоднородности документов и их различных типов как структурированных, так и полуструктурированных и неструктурированных создает новые проблемы и требует адаптации новых технологий. Процесс извлечения информации, особенно из неструктурированных и полуструктурированных источников, является очень сложной задачей [1]. Большая роль отводится эффективному сбору, анализу и обработке данных. В настоящее время постоянно растущие данные становятся довольно бесполезными, если из них невозможно извлечь значимую, актуальную и применимую информацию [2]. Кроме того, проблема связана с извлечением структурированной информации из необработанных данных. Во многих областях неструктурированные данные являются наиболее частыми типами собираемых документов, где во многих случаях они набирают более 80%. Процесс сбора и обработки этих ресурсов может предоставить интересные знания из больших коллекций неструктурированных документов [3] и оказывать непосредственное влияние на надлежащее управление информацией [4].

В прошлом десятилетии термины, относящиеся к семантической сети (например, извлечение информации (IE), извлечение знаний, онтологии и т.д.), становятся важными элементами эффективного способа извлечения информации, обработки и поддержки доступности машиночитаемых данных. Этот успех, широкое использование и коммерциализация подчеркивают их роль сообщества WWW [5]. Более того, заметна тесная связь между извлечением информации на основе онтологии (OBIE) и семантической сетью [1]. OBIE - процесс идентификации в тексте или других источниках соответствующих понятий, свойств и отношений, выраженных в онтологии. Системы OBIE генерируют семантическое содержимое, известное как семантическая аннотация для веб-страниц [3].

Преимущество OBIE перед традиционным IE заключается в том, что выход (семантические метаданные о тексте) связан с онтологией. Таким образом, семантические агенты могут непосредственно обрабатывать семантическое содержимое для поиска информации. Следовательно, системы OBIE извлекают гораздо более значимую информацию о тексте [6], особенно используя реляционную информацию или выполняя рассуждения. Растущее распространение управления знаниями (УЗ) в различных областях знаменует собой важный новый водораздел [7]. Кроме того, появление инструментов и ресурсов для семантической сети ставит новые задачи в области извлечения информации (IE), и в частности в отношении IE на основе онтологии (OBIE) [3]. Динамическое развитие этой области исследований обеспечивает множество решений OBIE [8]. Хотя идентификация общей архитектуры систем OBIE возможна, множество деталей отдельных систем OBIE вызывает их отличия друг от друга. В данной статье представлены ключевые характеристики систем OBIE, выявленные в литературе, при этом основное внимание уделяется факторам, которые делают системы OBIE различными. Во многих случаях системы OBIE могут быть частью более крупной системы, которая отвечает на запросы пользователей на основе информации, извлеченной системой OBIE. Другое отличие может касаться выхода систем OBIE. Всесторонний анализ имеющихся систем OBIE дает представление о области систем OBIE, обеспечивая как категоризацию системы, так и управление знаниями.

Доступ к соответствующим знаниям имеет решающее значение для успешного выбора и внедрения системы OBIE. Подход, основанный на онтологии (предлагаемый в настоящем документе), помогает классифицировать существующие системы OBIE по различным измерениям. Цель этого исследования заключается в попытке концептуализации знаний в области систем ОВИЭ, что позволяет получить актуальный и всеобъемлющий набор имеющихся подходов к ОВИЭ.

В разделе 2 содержится краткий обзор отдельных систем OBIE. В разделе 3 представлены методологические аспекты моделирования знаний OBIE. Это основа для разработки таксономии авторов, а после систематизации знаний в форме онтологии. В заключительном разделе излагаются основные итоги работы над статьей и предлагаются некоторые моменты для дальнейшего обсуждения.

Литературный обзор

Извлечение информации

Огромный объем информации, доступной бизнес-аналитикам, делает извлечение информации и другие средства обработки естественного языка ключевыми средствами получения и использования этой семантической информации [3]. Без системы извлечения информации (IE) она обязана считывать сотни текстовых документов, веб-сайтов и других данных, чтобы вручную извлекать необходимую информацию. В целом извлечение информации заключается в идентификации всех упоминаний понятий, экземпляров и свойств в тексте или других источниках. IE является ключевой технологией обработки естественного языка (NLP) для внедрения дополнительной информации и знаний в документ [2, 8].

Она также может быть определена как задача идентификации, сбора и нормализации соответствующей информации из текста NL и пропуска неактуальных текстовых отрывков. В целом IE стремится извлечь определенные типы информации из текста на естественном языке путем их автоматической обработки [1]. Общая цель этого заключается в обработке текста на естественном языке и извлечении экземпляров определенного класса объектов или событий и появления взаимосвязей между ними [4] с использованием различных алгоритмов и методов поиска информации [9].

Функциональные возможности системы IE описаны на рис. 1. Возможные значения для модели ввода IE содержат спецификацию лексических знаний, правила извлечения и онтологию, в то время как набор текстов NL охватывает пресс-релизы технических отчетов, онлайн-документы или электронную почту [1]. Ожидаемое выходное значение определяет целевую структуру знаний, т.е. набор созданных экземпляров и связанных понятий и атрибутов [10].

Системная функциональность IE
Системная функциональность IE

Детальный процесс IE состоит из конкретных элементов, упорядоченных следующим образом: сегментация предложений, маркирование, часть маркирования речи (POS), обнаружение объекта, обнаружение отношения [1, 3, 8]. В начале требуются выбранные входные данные, предоставляемые, в частности, в текстовой форме. Затем происходит процесс сегментации предложения. Предложения маркированы и после, они помечены POS. В результате процесс маркирования POS предоставляет список списков кортежей [3]. Создание списков деревьев является результатом чередования предложений [1]. После процесса обнаружения соотношения доставляется окончательный список кортежей (рис. 2).

Онтологическое извлечение информации
Онтологическое извлечение информации

Применение онтологий на последних этапах (обнаружение объекта и обнаружение отношения) выполняет IE процесс в процесс извлечения информации на основе онтологии [11]. Представленная комбинация онтологии с системой IE заполняет процесс извлечения информации, который руководствуется онтологией для извлечения таких вещей, как классы, свойства и экземпляры.

Основанное на онтологии извлечение информации

Термин "извлечение информации на основе онтологии" (OBIE) недавно появился в качестве подполя извлечения информации [1, 5]. OBIE отличается от традиционного IE тем, что находит тип извлеченного объекта, связывая его с его семантическим описанием в формальной онтологии [6]. Кроме того, онтология используется в процессе извлечения информации, и выходные данные обычно представляются через онтологию [12, 13]. Определение, представленное [1], описывает OBIE как систему, которая обрабатывает неструктурированный или полуструктурированный текст на естественном языке посредством механизма, управляемого онтологиями для извлечения определенных типов информации, и представляет вывод с использованием онтологий.

Хотя отдельные системы OBIE отличаются друг от друга, общая архитектура таких систем может быть идентифицирована с более высокого уровня (фигура 3). Во многих случаях системы OBIE не включают и не используют все эти компоненты [6]. В представленной процедуре идентифицируются наиболее распространенные компоненты, особенно сосредоточенные на обработке текстовых входных данных. Архитектура разделена на три основные части: вход, модули и выход. На входе имеются следующие модули: экспертные знания домена, относящиеся к знаниям специалиста или эксперта в конкретной области [14], различные типы источников данных могут содержать различные типы данных: структурированные и полуструктурированные, неструктурированные данные, обычно рассматриваемые как основной ввод, и неструктурированный пользовательский запрос [15].

Архитектура также содержит следующие модули: редактор знаний, генерация знаний, текстовый предпроцессор, экстрактор информации и поисковая система и ответ на запрос [8]. Модуль редактора знаний включает в себя основные инструменты для ведения базы знаний (например, редакторы онтологии, поисковые системы словарей и т.д.), в то время как модуль генерации знаний заполняет репозиторий КБ. Целью модуля извлечения информации является использование аннотированного текста и правил извлечения для обнаружения концептуальных экземпляров, свойств и отношений между ними [1,3].

Независимо от того, какая техника извлечения информации используется, она руководствуется онтологией. Хранение результатов анализа неструктурированных данных происходит в извлеченном информационном модуле. Наконец, результат извлечения информации на основе текста должен быть представлен в структурированной форме. Третья часть дает базу знаний, инкапсулируя репозиторий онтологии, репозиторий тезауруса, репозиторий лексических словарей, правила извлечения. Цель базы знаний состоит в том, чтобы содержать информацию в форме репозитория, передающего средство для информации [9]. В заключение следует отметить, что вывод системы OBIE состоит из информации, извлеченной из текста. Кроме того, выходные данные могут также включать ссылки на текстовые документы, из которых была извлечена информация [10].

Общая архитектура системы OBIE
Общая архитектура системы OBIE

Часто система OBIE может быть частью более крупной системы ответов на запросы, где выходные данные процесса OBIE часто хранятся в базе данных или базе знаний [2]. Поисковая система и механизмы ответа на запросы исследуют и используют извлеченную информацию, а последующие пути предоставляют ответы на пользовательские запросы [10]. Эта часть может содержать компонент рассуждений [11]. Эта архитектура типична для систем OBIE с небольшими вариациями, но стоит помнить, что отдельные системы OBIE отличаются друг от друга.

Анализ литературы дает описание различных систем, методов, подходов и проектов OBIE, поддерживающих их. Исследуемые решения являются различными с точки зрения процессов извлечения информации, доступных типов источников, извлечения онтологических компонентов, процессов обновления, предлагаемой базы поддержки и знаний, текстового предпроцессора и формата данных [15]. Следует подчеркнуть, что метод OBIE позволяет системе извлекать эффективную и релевантную информацию только с помощью методов извлечения информации, в то время как инструмент предоставляет широкий спектр возможностей [8]. Большинство из них являются публичными по творческой общей лицензии с полной поддержкой. В следующем разделе представлен подробный анализ выбранных систем и инструментов OBIE.

Онтологическое моделирование знаний по извлечению информации

Методология концептуализации знаний

Основой для процесса построения онтологий является адаптация методологии, предложенной Noy и McGuiness [16]. Этот процесс делится на следующие этапы: (1) определение набора критериев; (2) построение таксономии; (3) конструирование онтологий; (4) формальное описание; (5) создание определенных классов; (6) процесс рассуждения; (7) проверка согласованности; и (8) набор результатов (рисунок 4).

Первоначально происходит выбор онтологического домена и диапазона. Выполнение глубокого анализа предметной области - первый шаг процесса построения онтологии. Он проводится путем выбора набора подходов OBIE. Затем на основе анализа определяется окончательный набор свойств и под-свойств, после чего формируется иерархия классов. Это общая основа для построения таксономии для существующих систем и инструментов OBIE. Основываясь на этом, набор критериев и подкритериев разграничивается, выделяя следующие элементы: понятия, отношения и свойства из разрозненных источников в форму таксономии [4].

Общая процедура построения онтологии
Общая процедура построения онтологии

После этого таксономия является основой для построения онтологии. Для реализации онтологии используется веб-язык онтологий (OWL). Помимо предоставления формального и структурированного метода для сбора, организации и обмена данными, он предлагает множество возможностей и плагинов для эффективного управления онтологией. Проверяя согласованность авторской онтологии, конструируется набор определенных классов [4]. Применение механизма рассуждений позволяет проверить правильность как построенных определенных классов, так и всей онтологии. Точность полученных результатов после рассуждений подтверждает последовательность и правильность онтологии [2]. Стоит подчеркнуть, что этот процесс был исследован с использованием некоторых проверочных запросов.

Выводы

Системы OBIE являются важными инструментами обработки данных и информации. Глубокий анализ, представленный в этой статье, подтверждает как своевременность проблемы, так и сложность правильного выбора и использования этого инструмента. Анализ литературы подтвердил отсутствие систематизации знаний в этой области. Статья представляет собой попытку систематизации знаний в области OBIE. Подводя итог, эта попытка должна рассматриваться как эффективная. Автором разработана база знаний, ориентированная на системы OBIE в форме онтологии. Для разработки онтологии были исследованы справочные литературные источники, и впоследствии они были глубоко проанализированы, обеспечивая надежный источник экспертных знаний. Валидация, согласованность и правильность авторской онтологии была проведена на основе методологии Noy и McGuiness [6] и с использованием вопросов компетенции.

Представленная онтология позволяет фиксировать и формализовать область знаний OBIE. Авторская онтология разработана таким образом, чтобы быть полезной для исследователей, то есть позволить им быстро и интуитивно находить любые подходы OBIE в любом из основных или второстепенных свойств модели. Технически онтология предоставляет знания, которые могут быть включены в любую базу данных, базу знаний или информационную систему, содержащую знания, связанные с OBI. Формализованная структура онтологии предлагает машиночитаемый доступ, и обработка семантических данных является интересным шагом для улучшения возможностей поиска и обмена знаниями по предлагаемой онтологии. Эта форма решения проблем обеспечивает семантическую совместимость знаний и собранных данных.

В ходе исследования были выявлены некоторые возможные области улучшения представленной модели знаний и направлений будущей работы. Представляется интересным расширить представленную базу знаний, используя методологическое обоснование конкретных подходов OBIE. Кроме того, представленная модель знаний может быть соединена с другими онтологиями.

Литература

  1. Wimalasuriya DC, Dejing Dou. Ontology-based information extraction: An introduction and a survey of current approaches. Journal of Information Science 2010;36:306–23.
  2. Konys A. Knowledge-Based Approach to Question Answering System Selection. In: Nunez M, Nguyen NT, Camacho D, Trawinski B,editors. Computational Collective Intelligence, vol. 9329, Cham: Springer International Publishing; 2015, p. 361–70.
  3. Maynard D, Peters W, Li Y. Metrics for Evaluation of Ontology-based Information. WWW 2006 Workshop, Scotland: 2006.
  4. Konys A. An Ontology-Based Knowledge Modelling for a Sustainability Assessment Domain. Sustainability 2018;10:300.
  5. Shah R, Jain S. Ontology-based Information Extraction: An Overview and a Study of different Approaches. International Journal of Computer Applications 2014;87:6–8.
  6. Ali F, Kim EK, Kim Y-G. Type-2 fuzzy ontology-based opinion mining and information extraction: A proposal to automate the hotel reservation system. Applied Intelligence 2015;42:481–500.
  7. Faizi S, Rashid T, Salabun W, Zafar S, Watrobski J. Decision Making with Uncertainty Using Hesitant Fuzzy Sets. International Journal of Fuzzy Systems 2018;20:93–103.
  8. Bontcheva K, Tablan V, Maynard D, Cunningham H. Evolving GATE to meet new challenges in language engineering. Natural Language Engineering 2004;10:349–73.
  9. Riloff E. Information extraction as a stepping stone toward story understanding. In: Ram A, Moorman K, editors. Understanding language understanding: computational models of reading, Cambridge, Mass.: MIT Press; 1999.
  10. Wimalasuriya DC, Dou D. Components for information extraction: ontology-based information extractors and generic platforms, ACM Press; 2010, p. 9.
  11. Gutierrez F, Dou D, Fickas S, Wimalasuriya D, Zong H. A hybrid ontology-based information extraction system. Journal of Information Science 2016;42:798–820.
  12. Konys A, Watrobski J, Rozewski P. Approach to Practical Ontology Design for Supporting COTS Component Selection Processes. In: Selamat A, Nguyen NT, Haron H, editors. Intelligent Information and Database Systems, vol. 7803, Berlin, Heidelberg: Springer Berlin Heidelberg; 2013, p. 245–55.
  13. Flouris G, Manakanatas D, Kondylakis H, Plexousakis D, Antoniou G. Ontology change: classification and survey. The Knowledge Engineering Review 2008;23.
  14. Watrobski J, Ziemba P, Jankowski J, Ziolo M. Green Energy for a Green City—A Multi-Perspective Model Approach. Sustainability 2016;8:702.
  15. Konys A. A Framework for Analysis of Ontology-Based Data Access. In: Nguyen NT, Iliadis L, Manolopoulos Y, Trawinski B, editors. Computational Collective Intelligence, vol. 9876, Cham: Springer International Publishing; 2016, p. 397–408.