Компьютерные банки знаний. Многоцелевой банк знаний

Авторы: В. А. Орлов, канд. техн. наук, А.С. Клещев, д-р физ.-мат. наук,

Источник: http://www.iacp.dvo.ru/is/publications/Kl_Orl.doc

Разработаны концепция и политика информацион­ного ресурса, предназначенного для поддержки полного цикла обработки информации в профессиональной, на­учной и образовательной деятельности. На основе ана­лиза основных задач обработки информации определена структура информационного и программного наполне­ния Многоцелевого банка знаний, описаны классы его пользователей и принцип функционирования.

Введение

В настоящее время компьютерная обработка информации является одним из критических ви­дов деятельности в большинстве прикладных и теоретических областей. Этот вид деятельности включает задачи по получению, инженерии, хра­нению, управлению и использованию различных видов данных и знаний. Многие из этих задач еще находятся на стадии исследования, различные ис­следовательские группы разрабатывают методы их решения различной эффективности. Ввиду слож­ности эти задачи в основном рассматриваются как самостоятельные, а методы их решения разрабаты­ваются независимо друг от друга. На стадии иссле­дований в целях проверки этих методов создаются макеты программных систем. Поскольку при соз­дании макетов проблема их совместимости не рас­сматривается, разработчики, концентрируя свое внимание на методах решения, часто выбирают специфическое представление используемой ин­формации. Получаемые в результате компьютер­ные системы обработки информации (СОИ) часто оказываются несовместимыми между собой и не могут быть использованы для обеспечения полно­го цикла обработки информации.

Существенные усилия по координации иссле­дований в области компьютерной обработки ин­формации на основе онтологии и знаний предмет-

ных областей (ПО) и разработки соответствую­щих СОИ предпринял Консорциум OntoWeb [1]. В Интернете функционировал портал OntoWeb (www.ontoweb.org), содержавший набор докумен­тов с тщательным анализом проблемы. Однако в рамках работы Консорциума OntoWeb не было разработано ни СОИ, способных обеспечить пол­ный цикл обработки информации, ни систем, спо­собных поддержать координированные исследова­ния в данной области. Чтобы поддержать процесс разработки совместимых СОИ, создаются специа­лизированные инструментальные системы, клас­сическими примерами которых являются KEATS [2], SHELLY [3], KEW [4]. Такие системы поддер­живают выполнение основных этапов жизненного цикла (ЖЦ) СОИ, обычно фиксируют представле­ние используемой информации, язык представле­ния знаний, интерпретатор знаний (машину выво­да) и набор программных инструментов, предна­значенных для решения ряда задач ЖЦ СОИ, предполагаемых используемой методологией. Од­нако эти системы ориентированы на поддержку пользователя из класса инженеров знаний [2—4], а не носителей информации. Таким образом, они не учитывают современный подход к созданию СОИ, который состоит в исключении, где это возможно, из этого процесса инженера знаний, как лишнего посредника.

Существуют информационные системы, пред­назначенные для поддержки процесса согласован­ного решения комплекса задач некоторой предмет­ной области, например БТЗ [5], CFK [6], NMKB [7]. Такие системы часто называют специализирован­ными банками, или фабриками знаний. Они объ­единяют все необходимые источники информа­ции и содержат набор совместимых программных средств, предназначенных для решения ряда при­кладных задач конкретной предметной области. Однако эти системы замыкаются на своих пред­метных областях. В результате они оказываются не способными взаимодействовать друг с другом для решения задач, возникающих на стыке предмет­ных областей.

При необходимости сформировать банк знаний для новой предметной области приходится разра­батывать новое программное обеспечение. Интег­рированные информационные системы, такие как KA2 [8], InfoSleuth [9], OBSERVER [10], UIAS [11], объединяют распределенные и разнородные ин­формационные ресурсы различных предметных областей. Однако целью их создания является выпол­нение лишь прикладных запросов пользователей к этим информационным ресурсам, а задача поддерж­ки полного цикла обработки информации не рас­сматривается. Поэтому их программные средства не учитывают специфики работы инженеров знаний, экспертов и специалистов предметных областей.

Таким образом, ни одна из инструментальных, информационных и интегрированных систем не может быть использована для поддержки полного цикла обработки информации. Возникает следую­щая проблема: как организовать такую поддержку.

Целью данной статьи является разработка кон­цепции и политики информационного ресурса, предназначенного для поддержки полного цикла обработки информации в практической, научной и образовательной деятельности. Практический ас­пект данной концепции — обеспечение полного цикла обработки информации во множестве пред­метных областей. Научный аспект — создание еди­ной платформы, предназначенной для поддержки процесса согласованной разработки методов реше­ния задач обработки информации. Образователь­ный аспект — создание платформы, предназначен­ной для решения учебных задач в области обработ­ки информации.

Концепция и политика многоцелевого банка знаний

Компьютерная обработка информации включа­ет в себя задачи по получению, инженерии, хране­нию, управлению и использованию различных ви­дов данных и знаний (рис. 1). Одним из путей обеспечения процесса согласованного решения этого комплекса задач является объединение всей используемой информации в единый ресурс и обеспечение возможности его использования. Та­кой подход направлен на поддержку ЖЦ совмес­тимых СОИ. По мере разработки совместимых СОИ для решения соответствующих задач компь­ютерной обработки информации единый инфор­мационный ресурс в совокупности с совместимы­ми СОИ может быть использован для поддержания полного цикла обработки информации. В рамках такого подхода предлагается концепция Многоце­левого банка знаний, предназначенного для поддерж­ки ЖЦ совместимых СОИ и, по мере развития, пол­ного цикла обработки информации в конкретных на­учных исследованиях, конкретной образовательной или практической деятельности.

Многоцелевой банк знаний (МБкЗ) представля­ет собой совокупность специализированных бан­ков знаний (СБкЗ). СБкЗ для поддержки научных исследований, образовательной и практической деятельности в конкретной предметной области есть информационный ресурс, объединяющий всю информацию, используемую в этих научных ис­следованиях, образовательной или практической деятельности, который обеспечивает доступ к этой информации компьютерным программам и содер­жит средства, предназначенные для выполнения тех задач обработки информации, для решения ко­торых уже разработаны эффективные методы. Ка­ждый член сообщества, использующего СБкЗ, мо­жет положить в банк новую порцию информации, а также получить из банка нужную ему информа­цию либо результаты ее обработки.

Информационное наполнение (ИН) хранит со­ответствующую информацию. Оболочка ИН пре­доставляет доступ к хранимой информации компь­ютерным программам. Чтобы наполнять ИН со­держимым и предоставлять доступ к нему пользо­вателям банка, требуются средства редактирования. Такие средства могут быть включены в программное наполнение (ПН), поскольку на сегодняшний день уже разработаны эффективные методы решения задачи редактирования различных видов знаний и данных [12-18]. Другие средства обработки ин­формации, хранимой в ИН, могут добавляться в ПН по мере того, как будут разработаны эффек­тивные методы решения соответствующих задач.СБкЗ объединяются в единый МБкЗ по следую­щему принципу. СБк31 и СБк32 интегрируются в МБкЗ путем интеграции ИН СБк31 и ИН СБк32, Оболочки ИН СБк31 и Оболочки ИН СБк32, ПН СБк31 и ПН СБк32. Интегрировать ИН СБк31 и ИН СБк32 в общее ИН МБкЗ — значит объеди­нить описания этих источников информации и разрешить возможные конфликты (конфликты

Виды информации, используемые при решении основных задач компьютерной обработки информации

Номер

задачи

Язык спецификаций онтологии

Метаонтологии

Онтологии

Онтологии данных (базы наблюдений)

Базы знаний

Базы примеров ситуаций

Базы контрпримеров ситуаций

(1)



*


*



(2)



*

*

*



(3)



*


*

*

*

(4)



*


*

*

*

(5)

*

*

*





(6)




*


*

*

(7)



*





(8)


*

*

*

*

*

*


Поэтому к принятию решений о ЖЦ теорий в по­лезной области МБкЗ привлекается квалифициро­ванное научное сообщество.

Структура программного наполнения Многоцелевого банка знаний

Программное наполнение МБкЗ также делит­ся на полезную и экспериментальную области (рис. 3, см. вторую сторону обложки).

Полезная область ПН МБкЗ содержит средства для просмотра теорий ИН МБкЗ, а также набор ка­чественных программных средств (удовлетворяю­щих определенным критериям надежности, при­годности и безвредности для МБкЗ), предостав­ляющих прикладным пользователям сервисы для решения задач с использованием теорий из полез­ной области.

Экспериментальная область ПН МБкЗ содержит средства для просмотра и редактирования теорий ИН МБкЗ, а также набор качественных программ­ных средств, предоставляющих студентам сервисы для постановки экспериментов с использованием теорий из экспериментальной области.

Поскольку предусмотреть в ПН МБкЗ полный набор средств, которые могут когда-либо понадо­биться пользователям, не представляется возмож­ным, то по мере развития МБкЗ будут разрабаты­ваться новые программные средства. Целью созда­ния таких средств является предоставление их сер­висов конечным пользователям для решения задач над полезной областью ИН МБкЗ. Однако, прежде чем эти средства можно будет допустить к обработ­ке информации в полезной области ИН МБкЗ, они должны пройти тестовую эксплуатацию (испыта­ния на удовлетворение критериям надежности, пригодности и безвредности для МБкЗ). Для про­ведения тестовой эксплуатации эти средства раз­мещаются в экспериментальной области ПН МБкЗ и имеют доступ только к экспериментальной облас­ти ИН МБкЗ.

Классы пользователей Многоцелевого банка знаний

Согласно концепции, в экспериментальную об­ласть ПН МБкЗ включаются средства редактиро­вания спецификаций искусственных языков (в ча­стности ЯСО), онтологии различных уровней общ­ности, знаний и данных предметных областей. Современный подход к разработке средств редак­тирования состоит в ориентации их на носителях соответствующих видов информации. Носителями информации об искусственных языках являются Языковеды, носителями онтологии высокого уров­ня общности — Инженеры знаний, носителями онтологии ПО и знаний ПО — Эксперты соответ-

ствующих ПО, а носителями данных ПО — Спе­циалисты соответствующих ПО. Кроме носителей информации существуют также Прикладные поль­зователи, решающие прикладные задачи с исполь­зованием знаний из полезной области ИН, а также Студенты (пользователи, решающие учебные зада­чи в экспериментальной области ИН) и Гости (пользователи, имеющие право лишь просматри­вать содержимое ИН). Блок администрирования МБкЗ предназначен для администрирования поль­зователей и контроля жизненного цикла МБкЗ. Функции по управлению пользователями и инфор­мационными ресурсами каждого отдельного СБкЗ выполняет специальный пользователь этого СБкЗ, называемый Администратором СБкЗ. Функции по управлению МБкЗ в целом (СБкЗ и их Админист­раторами) выполняет Администратор МБкЗ. Спе­циалисты, разрабатывающие новые СОИ для ПН МБкЗ, называются Разработчиками. Функции по встраиванию новых программных средств в ПН МБкЗ выполняет пользователь СБкЗ, называемый Сопровождающим.

Неформальное описание процесса функционирования многоцелевого банка знаний

Администратор МБкЗ создает специализиро­ванные банки знаний в полезной области ИН МБкЗ и назначает соответствующих администра­торов.

Заинтересованные люди изучают информацион­ное описание МБкЗ на Web-сайте МБкЗ.

Приняв решение об участии в жизнедеятельно­сти определенного экспериментального СБкЗ, но­ситель информации подает заявку на регистрацию Администратору этого СБкЗ. В заявке он указыва­ет, к какому классу носителей информации он хо­чет относиться и какие задачи хочет решать. Заявка подается средствами Web-сайта МБкЗ. Рассмотрев заявку, Администратор СБкЗ принимает решение о регистрации заявителя в качестве пользователя СБкЗ и извещает его по электронной почте. В слу­чае положительного решения Администратор СБкЗ создает учетную запись пользователя, в ко­торой указывает права этого пользователя по ис­пользованию сервисов СБкЗ: какие системы из ПН и для обработки каких теорий из ИН СБкЗ этот пользователь может использовать.

Первыми пользователями любого полезного СБкЗ, наполняющими его ИН содержимым, явля­ются носители метаинформации самого высокого уровня общности — Языковеды. Администратор СБкЗ предоставляет им соответствующее средство редактирования. Они описывают искусственные языки, которые будут использоваться для форми­рования остального содержимого ИН СБкЗ. Далее в работу вступают Инженеры знаний. Администра­тор предоставляет им Редактора онтологии (осно­ванного на одном из ранее описанных ЯСО) и соз­дает в экспериментальной области ИН пустую тео­рию для использования в качестве целевой онто­логии. Они описывают онтологии различных уровней общности на ЯСО или в терминах онто­логии более высокого уровня общности. Аналогич­ным образом Эксперты редактируют знания с по­мощью предоставляемых им специализированных редакторов баз знаний, а Специалисты редактиру­ют данные с помощью предоставляемых им спе­циализированных Редакторов баз данных.

Администратор СБкЗ отвечает за то, что инфор­мация, находящаяся под редактированием, была недоступна остальным пользователям для редакти­рования и использования. По окончании описания конкретной теории Администратору может быть подана заявка на открытие этой теории для общего доступа в полезной области ИН МБкЗ. Вместе с за­явкой на открытие теории соответствующий носи­тель информации может присылать набор статей (например, документов в формате PDF), описы­вающих теоретические основы своей теории, кото­рые помогут Администратору СБкЗ и другим заин­тересованным членам научного сообщества про­анализировать эту теорию. Получив от носителя информации заявку на выставление теории в по­лезную область, Администратор анализирует эту теорию, возможно привлекая квалифицированное научное сообщество, и принимает решение о ее от­крытии для общего доступа. Частью процесса ана­лиза может быть проведение ряда экспериментов по тестовому использованию этой теории. По ре­зультатам анализа теория может быть выставлена для общего доступа в полезную область либо от­правлена на доработку. Носитель информации из­вещается о решении Администратора. Перед от­крытием принятой теории для общего доступа Ад­министратор СБкЗ принимает решение о том, за­мещать старую теорию (если таковая существует) отредактированной или сохранить последнюю в качестве конкурирующей версии.

По мере того, как полезная область ИН МБкЗ наполняется содержимым — специализированны­ми банками знаний — прикладные пользователи могут использовать в соответствии со своими пол­номочиями программные системы из ПН МБкЗ для решения прикладных задач.

Для Студентов предназначен специальный банк знаний в экспериментальной области. Студенты могут решать задачи любого класса в рамках соз­даваемых для них теорий.

Разработчики создают новые программные сис­темы для ПН МБкЗ. Системы, находящиеся в про­цессе разработки, располагаются в экспериментальной области ПН и имеют доступ лишь к экспери­ментальной области ИН. По окончании разработки конкретной системы разработчики подают Сопро­вождающему заявку на встраивание этой системы в полезную область ПН МБкЗ. Сопровождающий анализирует представленную систему и принимает решение о ее встраивании в полезную область ПН. Частью процесса анализа является тестовая экс­плуатация представленной системы над экспери­ментальными банками знаний. По результатам анализа система может быть встроена в полезную область либо отправлена на доработку. Системные пользователи извещаются о решении Сопровож­дающего.

Гости имеют возможность просмотра любых теорий ИН МБкЗ, но не имеют возможностей по внесению изменений в них.

Заключение

В статье проведен анализ проблемы поддержки полного цикла компьютерной обработки инфор­мации. В качестве подхода к решению данной про­блемы предложена концепция информационного ресурса, основанная на современной парадигме компьютерной обработки информации. Введен­ный ресурс назван Многоцелевым банком знаний (МБкЗ). Описаны классы пользователей МБкЗ, структура его информационного и программного наполнений. Определена политика его функцио­нирования.

Работа выполнена при финансовом содействии программы № 16 Президиума РАН, проект "Теоре­тические основы интеллектуальных систем, осно­ванных на онтологиях, для интеллектуальной под­держки научных исследований" и программы № 16 ОЭММПУ РАН проект "Синтез интеллектуальных систем управления базами знаний и базами данных".

Список литературы:

  1. Sterling W. The National Medical Knowledge Bank // Proc. of the 24th VLDB Conference. New York City. 1998.

  2. Staab S. and Maedche A. Knowledge portals — ontologies at work // AI Magazine. Summer 2001. Vol. 21 (2). P. 63-75.

  3. Bayardo R.H. et al. InfoSleuth: agent-based semantic inte­gration of information in open and dynamic environments // Proc. of the ACM SIGMOD. 1997.

  4. Mena E., Illarramendi A., Kashyap V., Sheth A. P. OBSERVER: An approach for query processing in global information systems based on interoperation across pre-existing ontologies // Distributed and Parallel Databases. 2000. Vol. 8.

  5. Smiths G. Unified Information Access System // Status re­ port. April 2001. http://uias.calstate.edu/uiasproject.htm.

  6. Гаврилова Т. А. Спецификация знаний через структури­ рование: введение в САКЕ-технологию // Сб. тр. III конф. по ИИ (Тверь). 1992. Т. 2. С. 113-116.

  7. Грук А. В., Клещев А.С. Инструментальные средства ин­теллектуальной поддержки процесса приобретения различных видов знаний. Модель процесса: препринт 23-2000. Владиво­сток: ИАПУ ДВО РАН. 2000. 32 с.

  8. Eriksson H. Models for knowledge-acquisition tool design // Knowledge Acquisition. 1994. N. 6. P. 47—74.

  9. Eriksson H., Puerta A.R., Musen M.A. Generation of knowledge-acquisition tools from domain ontologies // Int. Journal of Human and Computer Studies. 1994. V. 41. P. 425—453.

  10. Blazquez M., Fernandez M., Garcia-PinarJ. M., Gomez-Pe­rez A. Building ontologies at the knowledge level using the Ontology Design Environment // Knowledge Acquisition Workshop—KAW98. Banff. 1998.

  11. Lenat D. B. CYC: A large-scale investment in knowledge in­frastructure. http://www.cyc.com.

  12. Грук А. В. Обобщенная модель процесса приобретения знаний: препринт 18-98. Владивосток: ИАПУ ДВО РАН. 1998. 46с.

  13. Paton N. W., Goble С. A., Bechhofer S. Knowledge based in­ formation integration systems // Information and Software Techno­ logy. 2000. Vol. 42.

  14. Цаленко М. Ш. Основы теории информационных ресур­ сов: задачи и характеристики // НТИ. Сер 1. 2004. № 11. С. 1—11.

  15. Цаленко М. Ш. Основы теории информационных ресур­ сов: понятия и социальная память // НТИ. Сер. 1 2004. № 12. С. 1-8.

  16. Grosso W. E., Eriksson H., Fergerson R. W., Gennari J. H., Tu S. W., and Musen M. A. Knowledge modeling at the millennium: The design and evolution of Protege—2000. // Proceedings of the Twelfth Knowledge Acquisition for Knowledge-Based Systems Workshop. Banff, Alberta, Canada. 1999.

  17. Kleshchev A. S., Artemjeva I. L. Domain ontologies and knowl­ edge processing: Technical Report. Vladivostok: IACP FEBRAS. 1999. 24 p.