Компьютерные
банки знаний. Многоцелевой
банк знаний
Авторы: В. А. Орлов, канд. техн. наук, А.С. Клещев, д-р физ.-мат. наук,
Разработаны концепция и политика информационного ресурса, предназначенного для поддержки полного цикла обработки информации в профессиональной, научной и образовательной деятельности. На основе анализа основных задач обработки информации определена структура информационного и программного наполнения Многоцелевого банка знаний, описаны классы его пользователей и принцип функционирования.
Введение
В настоящее время компьютерная обработка информации является одним из критических видов деятельности в большинстве прикладных и теоретических областей. Этот вид деятельности включает задачи по получению, инженерии, хранению, управлению и использованию различных видов данных и знаний. Многие из этих задач еще находятся на стадии исследования, различные исследовательские группы разрабатывают методы их решения различной эффективности. Ввиду сложности эти задачи в основном рассматриваются как самостоятельные, а методы их решения разрабатываются независимо друг от друга. На стадии исследований в целях проверки этих методов создаются макеты программных систем. Поскольку при создании макетов проблема их совместимости не рассматривается, разработчики, концентрируя свое внимание на методах решения, часто выбирают специфическое представление используемой информации. Получаемые в результате компьютерные системы обработки информации (СОИ) часто оказываются несовместимыми между собой и не могут быть использованы для обеспечения полного цикла обработки информации.
Существенные усилия по координации исследований в области компьютерной обработки информации на основе онтологии и знаний предмет-
ных областей (ПО) и разработки соответствующих СОИ предпринял Консорциум OntoWeb [1]. В Интернете функционировал портал OntoWeb (www.ontoweb.org), содержавший набор документов с тщательным анализом проблемы. Однако в рамках работы Консорциума OntoWeb не было разработано ни СОИ, способных обеспечить полный цикл обработки информации, ни систем, способных поддержать координированные исследования в данной области. Чтобы поддержать процесс разработки совместимых СОИ, создаются специализированные инструментальные системы, классическими примерами которых являются KEATS [2], SHELLY [3], KEW [4]. Такие системы поддерживают выполнение основных этапов жизненного цикла (ЖЦ) СОИ, обычно фиксируют представление используемой информации, язык представления знаний, интерпретатор знаний (машину вывода) и набор программных инструментов, предназначенных для решения ряда задач ЖЦ СОИ, предполагаемых используемой методологией. Однако эти системы ориентированы на поддержку пользователя из класса инженеров знаний [2—4], а не носителей информации. Таким образом, они не учитывают современный подход к созданию СОИ, который состоит в исключении, где это возможно, из этого процесса инженера знаний, как лишнего посредника.
Существуют информационные системы, предназначенные для поддержки процесса согласованного решения комплекса задач некоторой предметной области, например БТЗ [5], CFK [6], NMKB [7]. Такие системы часто называют специализированными банками, или фабриками знаний. Они объединяют все необходимые источники информации и содержат набор совместимых программных средств, предназначенных для решения ряда прикладных задач конкретной предметной области. Однако эти системы замыкаются на своих предметных областях. В результате они оказываются не способными взаимодействовать друг с другом для решения задач, возникающих на стыке предметных областей.
При необходимости сформировать банк знаний для новой предметной области приходится разрабатывать новое программное обеспечение. Интегрированные информационные системы, такие как KA2 [8], InfoSleuth [9], OBSERVER [10], UIAS [11], объединяют распределенные и разнородные информационные ресурсы различных предметных областей. Однако целью их создания является выполнение лишь прикладных запросов пользователей к этим информационным ресурсам, а задача поддержки полного цикла обработки информации не рассматривается. Поэтому их программные средства не учитывают специфики работы инженеров знаний, экспертов и специалистов предметных областей.
Таким образом, ни одна из инструментальных, информационных и интегрированных систем не может быть использована для поддержки полного цикла обработки информации. Возникает следующая проблема: как организовать такую поддержку.
Целью данной статьи является разработка концепции и политики информационного ресурса, предназначенного для поддержки полного цикла обработки информации в практической, научной и образовательной деятельности. Практический аспект данной концепции — обеспечение полного цикла обработки информации во множестве предметных областей. Научный аспект — создание единой платформы, предназначенной для поддержки процесса согласованной разработки методов решения задач обработки информации. Образовательный аспект — создание платформы, предназначенной для решения учебных задач в области обработки информации.
Концепция и политика многоцелевого банка знаний
Компьютерная обработка информации включает в себя задачи по получению, инженерии, хранению, управлению и использованию различных видов данных и знаний (рис. 1). Одним из путей обеспечения процесса согласованного решения этого комплекса задач является объединение всей используемой информации в единый ресурс и обеспечение возможности его использования. Такой подход направлен на поддержку ЖЦ совместимых СОИ. По мере разработки совместимых СОИ для решения соответствующих задач компьютерной обработки информации единый информационный ресурс в совокупности с совместимыми СОИ может быть использован для поддержания полного цикла обработки информации. В рамках такого подхода предлагается концепция Многоцелевого банка знаний, предназначенного для поддержки ЖЦ совместимых СОИ и, по мере развития, полного цикла обработки информации в конкретных научных исследованиях, конкретной образовательной или практической деятельности.
Многоцелевой банк знаний (МБкЗ) представляет собой совокупность специализированных банков знаний (СБкЗ). СБкЗ для поддержки научных исследований, образовательной и практической деятельности в конкретной предметной области есть информационный ресурс, объединяющий всю информацию, используемую в этих научных исследованиях, образовательной или практической деятельности, который обеспечивает доступ к этой информации компьютерным программам и содержит средства, предназначенные для выполнения тех задач обработки информации, для решения которых уже разработаны эффективные методы. Каждый член сообщества, использующего СБкЗ, может положить в банк новую порцию информации, а также получить из банка нужную ему информацию либо результаты ее обработки.
Информационное наполнение (ИН) хранит соответствующую информацию. Оболочка ИН предоставляет доступ к хранимой информации компьютерным программам. Чтобы наполнять ИН содержимым и предоставлять доступ к нему пользователям банка, требуются средства редактирования. Такие средства могут быть включены в программное наполнение (ПН), поскольку на сегодняшний день уже разработаны эффективные методы решения задачи редактирования различных видов знаний и данных [12-18]. Другие средства обработки информации, хранимой в ИН, могут добавляться в ПН по мере того, как будут разработаны эффективные методы решения соответствующих задач.СБкЗ объединяются в единый МБкЗ по следующему принципу. СБк31 и СБк32 интегрируются в МБкЗ путем интеграции ИН СБк31 и ИН СБк32, Оболочки ИН СБк31 и Оболочки ИН СБк32, ПН СБк31 и ПН СБк32. Интегрировать ИН СБк31 и ИН СБк32 в общее ИН МБкЗ — значит объединить описания этих источников информации и разрешить возможные конфликты (конфликты
Виды информации, используемые при решении основных задач компьютерной обработки информации
Номер задачи |
Язык спецификаций онтологии |
Метаонтологии |
Онтологии |
Онтологии данных (базы наблюдений) |
Базы знаний |
Базы примеров ситуаций |
Базы контрпримеров ситуаций |
(1) |
|
|
* |
|
* |
|
|
(2) |
|
|
* |
* |
* |
|
|
(3) |
|
|
* |
|
* |
* |
* |
(4) |
|
|
* |
|
* |
* |
* |
(5) |
* |
* |
* |
|
|
|
|
(6) |
|
|
|
* |
|
* |
* |
(7) |
|
|
* |
|
|
|
|
(8) |
|
* |
* |
* |
* |
* |
* |
Поэтому к принятию решений о ЖЦ теорий в полезной области МБкЗ привлекается квалифицированное научное сообщество.
Структура программного наполнения Многоцелевого банка знаний
Программное наполнение МБкЗ также делится на полезную и экспериментальную области (рис. 3, см. вторую сторону обложки).
Полезная область ПН МБкЗ содержит средства для просмотра теорий ИН МБкЗ, а также набор качественных программных средств (удовлетворяющих определенным критериям надежности, пригодности и безвредности для МБкЗ), предоставляющих прикладным пользователям сервисы для решения задач с использованием теорий из полезной области.
Экспериментальная область ПН МБкЗ содержит средства для просмотра и редактирования теорий ИН МБкЗ, а также набор качественных программных средств, предоставляющих студентам сервисы для постановки экспериментов с использованием теорий из экспериментальной области.
Поскольку
предусмотреть в ПН МБкЗ полный набор
средств, которые могут когда-либо понадобиться пользователям,
не представляется возможным,
то по мере развития МБкЗ будут разрабатываться
новые программные средства. Целью создания таких средств
является предоставление их сервисов конечным пользователям для
решения задач над полезной областью ИН МБкЗ. Однако, прежде чем
эти средства можно будет допустить к обработке
информации в полезной области ИН МБкЗ, они должны пройти тестовую
эксплуатацию (испытания
на удовлетворение критериям надежности, пригодности
и безвредности для МБкЗ). Для проведения
тестовой эксплуатации эти средства размещаются
в экспериментальной
области
ПН МБкЗ и
имеют доступ только к экспериментальной
области
ИН МБкЗ.
Классы
пользователей Многоцелевого
банка знаний
Согласно концепции, в экспериментальную область ПН МБкЗ включаются средства редактирования спецификаций искусственных языков (в частности ЯСО), онтологии различных уровней общности, знаний и данных предметных областей. Современный подход к разработке средств редактирования состоит в ориентации их на носителях соответствующих видов информации. Носителями информации об искусственных языках являются Языковеды, носителями онтологии высокого уровня общности — Инженеры знаний, носителями онтологии ПО и знаний ПО — Эксперты соответ-
ствующих ПО, а носителями данных ПО — Специалисты соответствующих ПО. Кроме носителей информации существуют также Прикладные пользователи, решающие прикладные задачи с использованием знаний из полезной области ИН, а также Студенты (пользователи, решающие учебные задачи в экспериментальной области ИН) и Гости (пользователи, имеющие право лишь просматривать содержимое ИН). Блок администрирования МБкЗ предназначен для администрирования пользователей и контроля жизненного цикла МБкЗ. Функции по управлению пользователями и информационными ресурсами каждого отдельного СБкЗ выполняет специальный пользователь этого СБкЗ, называемый Администратором СБкЗ. Функции по управлению МБкЗ в целом (СБкЗ и их Администраторами) выполняет Администратор МБкЗ. Специалисты, разрабатывающие новые СОИ для ПН МБкЗ, называются Разработчиками. Функции по встраиванию новых программных средств в ПН МБкЗ выполняет пользователь СБкЗ, называемый Сопровождающим.
Неформальное описание процесса функционирования многоцелевого банка знаний
Администратор МБкЗ создает специализированные банки знаний в полезной области ИН МБкЗ и назначает соответствующих администраторов.
Заинтересованные люди изучают информационное описание МБкЗ на Web-сайте МБкЗ.
Приняв решение об участии в жизнедеятельности определенного экспериментального СБкЗ, носитель информации подает заявку на регистрацию Администратору этого СБкЗ. В заявке он указывает, к какому классу носителей информации он хочет относиться и какие задачи хочет решать. Заявка подается средствами Web-сайта МБкЗ. Рассмотрев заявку, Администратор СБкЗ принимает решение о регистрации заявителя в качестве пользователя СБкЗ и извещает его по электронной почте. В случае положительного решения Администратор СБкЗ создает учетную запись пользователя, в которой указывает права этого пользователя по использованию сервисов СБкЗ: какие системы из ПН и для обработки каких теорий из ИН СБкЗ этот пользователь может использовать.
Первыми пользователями любого полезного СБкЗ, наполняющими его ИН содержимым, являются носители метаинформации самого высокого уровня общности — Языковеды. Администратор СБкЗ предоставляет им соответствующее средство редактирования. Они описывают искусственные языки, которые будут использоваться для формирования остального содержимого ИН СБкЗ. Далее в работу вступают Инженеры знаний. Администратор предоставляет им Редактора онтологии (основанного на одном из ранее описанных ЯСО) и создает в экспериментальной области ИН пустую теорию для использования в качестве целевой онтологии. Они описывают онтологии различных уровней общности на ЯСО или в терминах онтологии более высокого уровня общности. Аналогичным образом Эксперты редактируют знания с помощью предоставляемых им специализированных редакторов баз знаний, а Специалисты редактируют данные с помощью предоставляемых им специализированных Редакторов баз данных.
Администратор СБкЗ отвечает за то, что информация, находящаяся под редактированием, была недоступна остальным пользователям для редактирования и использования. По окончании описания конкретной теории Администратору может быть подана заявка на открытие этой теории для общего доступа в полезной области ИН МБкЗ. Вместе с заявкой на открытие теории соответствующий носитель информации может присылать набор статей (например, документов в формате PDF), описывающих теоретические основы своей теории, которые помогут Администратору СБкЗ и другим заинтересованным членам научного сообщества проанализировать эту теорию. Получив от носителя информации заявку на выставление теории в полезную область, Администратор анализирует эту теорию, возможно привлекая квалифицированное научное сообщество, и принимает решение о ее открытии для общего доступа. Частью процесса анализа может быть проведение ряда экспериментов по тестовому использованию этой теории. По результатам анализа теория может быть выставлена для общего доступа в полезную область либо отправлена на доработку. Носитель информации извещается о решении Администратора. Перед открытием принятой теории для общего доступа Администратор СБкЗ принимает решение о том, замещать старую теорию (если таковая существует) отредактированной или сохранить последнюю в качестве конкурирующей версии.
По мере того, как полезная область ИН МБкЗ наполняется содержимым — специализированными банками знаний — прикладные пользователи могут использовать в соответствии со своими полномочиями программные системы из ПН МБкЗ для решения прикладных задач.
Для Студентов предназначен специальный банк знаний в экспериментальной области. Студенты могут решать задачи любого класса в рамках создаваемых для них теорий.
Разработчики создают новые программные системы для ПН МБкЗ. Системы, находящиеся в процессе разработки, располагаются в экспериментальной области ПН и имеют доступ лишь к экспериментальной области ИН. По окончании разработки конкретной системы разработчики подают Сопровождающему заявку на встраивание этой системы в полезную область ПН МБкЗ. Сопровождающий анализирует представленную систему и принимает решение о ее встраивании в полезную область ПН. Частью процесса анализа является тестовая эксплуатация представленной системы над экспериментальными банками знаний. По результатам анализа система может быть встроена в полезную область либо отправлена на доработку. Системные пользователи извещаются о решении Сопровождающего.
Гости имеют возможность просмотра любых теорий ИН МБкЗ, но не имеют возможностей по внесению изменений в них.
Заключение
В статье проведен анализ проблемы поддержки полного цикла компьютерной обработки информации. В качестве подхода к решению данной проблемы предложена концепция информационного ресурса, основанная на современной парадигме компьютерной обработки информации. Введенный ресурс назван Многоцелевым банком знаний (МБкЗ). Описаны классы пользователей МБкЗ, структура его информационного и программного наполнений. Определена политика его функционирования.
Работа выполнена при финансовом содействии программы № 16 Президиума РАН, проект "Теоретические основы интеллектуальных систем, основанных на онтологиях, для интеллектуальной поддержки научных исследований" и программы № 16 ОЭММПУ РАН проект "Синтез интеллектуальных систем управления базами знаний и базами данных".
Список литературы:
Sterling W. The National Medical Knowledge Bank // Proc. of the 24th VLDB Conference. New York City. 1998.
Staab S. and Maedche A. Knowledge portals — ontologies at work // AI Magazine. Summer 2001. Vol. 21 (2). P. 63-75.
Bayardo R.H. et al. InfoSleuth: agent-based semantic integration of information in open and dynamic environments // Proc. of the ACM SIGMOD. 1997.
Mena E., Illarramendi A., Kashyap V., Sheth A. P. OBSERVER: An approach for query processing in global information systems based on interoperation across pre-existing ontologies // Distributed and Parallel Databases. 2000. Vol. 8.
Smiths G. Unified Information Access System // Status re port. April 2001. http://uias.calstate.edu/uiasproject.htm.
Гаврилова Т. А. Спецификация знаний через структури рование: введение в САКЕ-технологию // Сб. тр. III конф. по ИИ (Тверь). 1992. Т. 2. С. 113-116.
Грук А. В., Клещев А.С. Инструментальные средства интеллектуальной поддержки процесса приобретения различных видов знаний. Модель процесса: препринт 23-2000. Владивосток: ИАПУ ДВО РАН. 2000. 32 с.
Eriksson H. Models for knowledge-acquisition tool design // Knowledge Acquisition. 1994. N. 6. P. 47—74.
Eriksson H., Puerta A.R., Musen M.A. Generation of knowledge-acquisition tools from domain ontologies // Int. Journal of Human and Computer Studies. 1994. V. 41. P. 425—453.
Blazquez M., Fernandez M., Garcia-PinarJ. M., Gomez-Perez A. Building ontologies at the knowledge level using the Ontology Design Environment // Knowledge Acquisition Workshop—KAW98. Banff. 1998.
Lenat D. B. CYC: A large-scale investment in knowledge infrastructure. http://www.cyc.com.
Грук А. В. Обобщенная модель процесса приобретения знаний: препринт 18-98. Владивосток: ИАПУ ДВО РАН. 1998. 46с.
Paton N. W., Goble С. A., Bechhofer S. Knowledge based in formation integration systems // Information and Software Techno logy. 2000. Vol. 42.
Цаленко М. Ш. Основы теории информационных ресур сов: задачи и характеристики // НТИ. Сер 1. 2004. № 11. С. 1—11.
Цаленко М. Ш. Основы теории информационных ресур сов: понятия и социальная память // НТИ. Сер. 1 2004. № 12. С. 1-8.
Grosso W. E., Eriksson H., Fergerson R. W., Gennari J. H., Tu S. W., and Musen M. A. Knowledge modeling at the millennium: The design and evolution of Protege—2000. // Proceedings of the Twelfth Knowledge Acquisition for Knowledge-Based Systems Workshop. Banff, Alberta, Canada. 1999.
Kleshchev A. S., Artemjeva I. L. Domain ontologies and knowl edge processing: Technical Report. Vladivostok: IACP FEBRAS. 1999. 24 p.