Автореферат


Автореферат к магистерской работе на тему "Автоматизация извлечения знаний из Internet в форме онтологии для построения прикладных баз знаний"

Введение

Всемирная паутина Интернет стремительно "расползается" и "вплетается" буквально во все сферы жизни. Web становится все более мощным и важным источником информации. Средствам обработки данных в сети все труднее и труднее справляться с лавиной информации, уже существующей и добавляемой в сеть ежедневно. Кроме того, данные в Интернет организованы крайне стихийно и не систематично. Кроме серверов, поддерживаемых компаниями, фирмами, университетами и другими официальными организациями, на которых, в основном, представлена тематическая информация, более или менее структурированная, Web "населяют" домашние страницы, соединяющие в себе все что угодно. Так, на одном и том же сайте можно узнать о результатах наблюдений за спутниками Юпитера и о рецепте пирожков с капустой. Такая дезорганизованность крайне затрудняет и запутывает процесс поиска нужной информации. Для выхода на новый уровень в использовании Интернет, в первую очередь, необходим переход к семантически значимому представлению информации в сети. Работы, представленные на международных конференциях за последние два года, показывают, что мировое сообщество не только уже осознало необходимость, но и активно включилось в процесс реконструирования Web-пространства в пространство знаний.

Три способа превращения данных в знания в Интернет

Машины поиска и извлечения информации, такие как "Yahoo!", "Lycos", "Infoseek", используют механизм поиска по ключевым словам и не учитывают контекст, в котором существует информация. Вот почему результатом работы таких систем могут быть сотни тысяч ссылок. Современные версии поисковых систем ("Metacrawler", "WebSeek" и.т.п.) адресуют запрос пользователя сразу к множеству машин поиска, и составляют индексные мета-каталоги и базы данных. Но так как они остаются в рамках поиска, основанного на ключевых словах, то полученные индексы связывают информацию с терминами, учитывая только актуальный для данного запроса лексический или синтаксический контекст [Luke, et. all, 1996]. Аналогичные претензии можно адресовать и к тематическим каталогам, составленным вручную. Кроме того, что для их создания и сопровождения необходимо слишком много времени, существует диссонанс между критериями классификации понятий автора и пользователей [Luke.,et. all, 1996].

Другой подход к решению проблемы интеллектуализации Интернет заключается в дополнении специальными семантическими тагами стандартного HTML для того, чтобы "внести знания" прямо в страницы. Такие модифицированные HTML-документы несут информацию о взаимосвязях понятий и их семантических атрибутах в HTML-подобном формате, то есть не требуют внутреннего языка представления знаний.

Идея создания расширенного HTML нашла воплощение в таком стандарте, как разработанный в W3С (интернациональный всемирный Web консорциум) язык XML (Extensible Markup Language) [URL1]. XML - язык для разметки синтаксической структуры документов, позволяющий благодаря спецификации синтаксиса, использовать такие документы множеству агентов, для которых данный формат является общим. Для того, чтобы аннотировать документы с помощью XML, разработан формат описания ресурсов RDF (Resource Description Framework) [URL2]. Мета-информация, определяемая форматом RDF, размещается как дополнительная страница или блок внутри каждой web-страницы (элементы web страницы не могут быть аннотированы прямо в тексте исходного документа, а должны быть повторены с дополнительной мета-информацией). Такой способ влечет за собой много трудностей из-за дублирования информации. В работах [Dobson S.A., Burrill V.A., 1995] и [Loke S.W, Davison A., Sterling L., 1996] также предлагается расширить HTML с целью получения семантических индексов к информации, организованной в виде так называемых Lightweight Deductive Databases, где связи между отдельными страницами определяются гипертекстовыми ссылками с атрибутами. Дедуктивные базы данных являются расширением реляционных за счет применения правил логического программирования для более сложного представления данных [K. Ramamohanarao, J. Harland, 1994].

Sandewall [Sandwall, 1996] предлагает создать Всемирную базу данных (WorldWide Data Base), состоящую из файлов, которые содержат полученные из Интернет небольшие фрагменты документов с описанием содержащихся в них понятий в виде объектов. Объекты представляются на специальном языке и могут включать ссылки на другие объекты, HTML-документы в Интернет или файлы из самой базы данных.

В последнее время серьезное развитие получила другая парадигма, с точки зрения которой Web рассматривается как потенциальная база знаний. Для работы со знаниями в сети нужны специальные методы представления и обработки знаний, интерпретации запросов и т.д. Задача здесь прежде всего в том, чтобы адаптировать методы и средства, разработанные в ИИ для систем, основанных на знаниях, в новую проблемную область. В рамках такого подхода сейчас внимание различных исследователей привлекают онтологии [Guarino, Poli, 1995] как средство построения распределенных и неоднородных систем баз знаний в Интернет. Адекватным средством реализации таких систем являются агентные технологии и мультиагентные системы. По определению [Gruber T. R, 1991] онтология - это спецификация концептуализации, которая состоит из словаря и теории. Онтологии включают абстрактное описание как очень общих, так и специфичных для конкретной предметной области терминов. Вопрос о корректном способе анализа знаний с целью определения терминов остается пока открытым и его обсуждению посвящено множество работ [Chandrasekaran B.,. Josephson J. R,. Benjamins V. R, 1998]. Одной из сильных сторон онтологий являются их потенциальные свойства для решения таких важных задач как разделение знаний и их повторное использование. Это заключение основывается на предположении о том, что если общая схема (представления и использования знаний), - то есть онтология, -явно определена для работающих с ней агентов как общий ресурс, то этот ресурс возможно разделять между агентами и многократно использовать [Fridman Noy, Hafner, 1997].

Онтология как способ представления знаний

Ранее онтология - философский термин означал учение о бытии, затем он переместился в область точных наук. Под определение онтологии подпадают многие понятийные структуры: иерархия классов в объектно-ориентированном программировании, концептуальные карты (concept maps), семантические сети, и т. п. Можно еще шире трактовать онтологию - например, как сценарий или процесс, как нечто структурирующее хаос. Онтология - это структурная спецификация некоторой предметной области, ее формализованное представление, которое включает словарь (или имена) указателей на термины предметной области и логические выражения, которые описывают, как они соотносятся друг с другом. Таким образом, онтологии обеспечивают словарь для представления и обмена знаниями о некоторой предметной области и множество связей, установленных между терминами в этом словаре. Для описания онтологий можно использовать различные языки и системы, однако, наиболее перспективным представляется визуальный подход, позволяющий специалистам непосредственно <рисовать> онтологии, что помогает наглядно сформулировать и объяснить природу и структуру явлений. Визуальные модели, например, графы обладают особенной когнитивной (т.е. познавательной) силой. Любой программный графический пакет от PaintBrush до Visio можно использовать как первичный инструмент описания онтологий.Однако, проектирование и разработка онтологий, т.е онтологический инжиниринг, не является тривиальной задачей. Он требует от разработчиков профессионального владения технологиями инженерии знаний - от методов извлечения знаний до структурирования и формализации [Гаврилова, Хорошевский, 2000].Онтологический инжиниринг должен и может стать "путеводной нитью" для всего процесса структурирования комплексных систем автоматизации, так как он объединяет две основные технологии проектирования больших систем - объектно-ориентированный и структурный анализ. Недаром онтологический анализ вошел в стандарт IDEF5, который является основным средством спецификации КИC и моделирования бизнес-процессов сегодня.

Теория семантических сетей

На международной конференции XML-2000, прошедшей четыре года назад в Вашингтоне, Тим Бернерс-Ли, автор идеи Интернета и председатель WWW-консорциума (в апреле 2004 г. финский Комитет технологических наград тысячелетия присудил Тиму Бернерсу-Ли премию в размере 1 млн. евро, своеобразный аналог Нобелевской премии, только для технических специалистов), выдвинул новую концепцию Семантической сети. Она не предназначена для замены нынешнего Интернета, а представляет собой набор новых технологий, структурирующих и классифицирующих хранимые в Сети данные на основе их смысла. Все элементы Семантической сети дополнены формальным описанием своего содержания и могут иметь произвольное число осмысленных связей с другими элементами. Это дает возможность быстро и точно, без какого-либо мусора, находить нужные сведения.

Самый нижний уровень - язык HTML как базовая форма разметки и HTML-схемы, предназначенные для определения и описания классов HTML-документов. На базе HTML будут развертываться средства описания ресурсов Document Object Model, объясняющие, как состыковывать HTML-данные в сети и строить каталоги и словари понятий. Спецификация DOM - эта форма представления HTML в памяти компьютера в виде дерева. HTML - парсер анализирует файл . html и делает из него DOM, после этого с HTML можно работать. DOM представляет XML-документ в виде дерева, состоящего из узлов. В DOM определяются различные типы узлов, соответствующие разным конструкциям HTML. Например, HTML -элемент - это узел элемента, пара атрибут HTML и его значение - это узел атрибута, содержание элемента - это текстовый узел и т.д.

Следующий уровень - построение семантической сети. Например, в HTML может быть такое:

Так как тут есть список можно предположить, что его элементы имеют отношение с элементами , тогда строится семантическая сеть:

Причем эту семантическую сеть проще всего строить, если есть DOM:

Программа берет HTML- файл и делает его семантический разбор (Persing). Результатом этого разбораи есть DOM - представление HTML в виде дерева. Следующий уровень - онтологический: он формализует накопленные знания, определяя и объединяя терминологию различных предметных областей. В принципе онтологию можно поддерживать и средствами RDF, но программам сложно работать с RDF-описаниями. Поэтому мне больше нравится язык Web Ontology Language (OWL). Он задает способ формального описания смысла документа и терминологии произвольной предметной области, позволяет формировать осмысленные иерархические взаимосвязи между объектами, обобщать и совместно использовать глобальные сведения и т.д. OWL реализует системы нечеткого поиска в Сети, способные находить нужные ресурсы, в которых не будет ни одного слова из оригинального запроса. Например, вместо атрибута "читатель" у некоторого объекта может присутствовать атрибут "человек, любящий книги". Сформировать смысловую взаимосвязь между такими атрибутами на уровне RDF вряд ли возможно. А вот с помощью OWL программе будет вполне по силам учесть весьма сложные взаимоотношения между человеком и книгой, добраться до иерархии смысловых описаний, найти в ней нужные элементы и самостоятельно подобрать такому атрибуту синонимы. Кроме того, на уровне OWL реализованы средства защиты от индексирования: не все хотят, чтобы выложенные ими в Сеть ресурсы были доступны поисковым машинам. Первые четыре уровня Семантической сети (HTML, DOM, семантическая сеть и OWL) ориентированы преимущественно на описание структур данных. С этой целью в OWL встроен ряд возможностей, уже существовавших в языках схожего предназначения, - Ontology Inference Layer (OIL, первоначально создававшийся для онтологического расширения RDF-схем). Уровни логики и обмена доказательствами реализуются с помощью OWL довольно легко.

Заключение

Попытки структурировать Web предпринимаются постоянно. Онтологии это еще одна попытка решить проблему информационного переполнения в сети. Основные задачи, которые могут успешно решаться (и решаются) на базе онтологий, включают предоставление знаний для вывода информации, которая релевантна запросу пользователя; фильтрация и классификация информации; индексирование собранной информации; организация общей терминологии, которой могут пользоваться для коммуникации программные агенты и пользователи. До сих пор возможности логического вывода в Интернет практически не применялись. С "приходом" баз знаний и систем, основанных на знаниях, в Web появляются новые перспективы в освоении сетевого пространства.

Список литературы

  1. А.В. Смирнов и др. Научные обзоры - Москва, 2000 - 454с.
  2. Гаврилова Т.А. и др. Базы знаний интеллектуальных систем - СПБ: Питер, 2000 - 384с.
  3. Rasmus D.W. Knowledge Management Treends :The Role of Knowledge in E-Business//PC AI Magazine, 2000.V.14.№4.Pp.16-20
  4. Попов Э.В. Корпоративные управления знаниями // Новости искусственного интеллекта, 2001. Июль.С.14-25
  5. Guarino N.Formal Ontology, Conceptual Analysis and Computational Foundation. Boston: PWS Publishing Comp.,1998.
  6. http://www.topsystems.ru/
  7. http://ivb.unact.ru/glossary/