От инженерии знаний к онтологическому инжинирингу
Авторы: Татьяна Гаврилова - д.т.н., консультант по информационным технологиям управления знаниями
Источник: http://posp.raai.org
Авторы: Татьяна Гаврилова - д.т.н., консультант по информационным технологиям управления знаниями
Источник: http://posp.raai.org
Онтологический инжиниринг — ядро концепции «управления знаниями» (КМ — Knowledge Management), которое появилось в середине 90–ых годов в крупных корпорациях, где проблемы обработки информация приобрели особую остроту и стали критическими [Wiig, 1996]. При этом стало очевидным, что основным узким местом является обработка знаний, накопленных специалистами компании, так как именно знания обеспечивают преимущество перед конкурентами.
Фактически KM – это модный лозунг в менеджменте и его связь с инженерией знаний (knowledge engineering) в настоящее время практически эфемерна. KM занимается проблемой организации информации в компании, ведь часто информации в компаниях накоплено даже больше, чем они способны оперативно обработать. Различные организации пытаются решать этот вопрос по–своему, но при этом каждая компания стремится увеличить эффективность обработки информации.
Системы управления знаниями.
Управление знаниями — это совокупность процессов, которые управляют созданием, распространением, обработкой и использованием информации внутри предприятия.
«Мостиком» к интеллектуальным технологиям является понятие «знания», которое трактуется в КМ крайне свободно и широко. Так ресурсы знаний различаются в зависимости от отраслей индустрии и приложений, но, как правило, включают руководства, письма, новости, информацию о заказчиках, сведения о конкурентах и технологии, накопившиеся в процессе разработки. Сами эти ресурсы могут находиться в различных местах: в базах данных, базах знаний, в картотечных блоках, у специалистов и могут быть рассредоточены по всему предприятию. При этом часто одна часть предприятия дублирует работу другой просто потому, что невозможно найти и использовать знания, находящиеся в соседних подразделениях.
Таким образом системы КМ должны (но это пока только декларация) интегрировать разнообразные технологии:
— электронная почта и Интернет;
— базы и хранилища данных (Data Warehouse);
— системы групповой работы с информацией;
— системы поддержки принятия решения;
— локальные корпоративные системы автоматизации;
—системы документооборота и workflow;
— контекстный поиск.
При этом, ни одна из этих технологий не включает «знания» в контексте интеллектуальных (экспертных) систем, т.е. баз знаний.
Фактически системы, позиционирующие себя как СУЗ – системы управления знаниями (Fulcrum, Documentum i4, Knowledge Station, etc.)[Попов, 2001]реализуют лишь отдельные элементы вышепреведенного списка. Все они работают либо с неструктурированной информацией, либо с данными (рис.1). Это ситуация as is (как есть).
Поэтому естественным первым инструментарием КМ стали хранилища данных, которые работают по принципу центрального склада. Как правило, хранилища содержат многолетние версии обычной БД, физически размещаемые в той же самой базе. Когда все данные содержатся в едином хранилище, изучение и анализ связей между отдельными элементами может быть более плодотворным. В дальнейшем идея хранилища была развита в понятие корпоративной памяти (corporate memory) [Kuhn, Abecker, 1998], которая по аналогии с человеческой памятью позволяет накапливать информацию из предыдущего опыта и, якобы, избегать повторения ошибок, что является чисто декларативным утверждением.
Корпоративная память хранит информацию из различных источников предприятия и делает эту информацию доступной специалистам для решения производственных задач.
Лишь третий столбец на рис.1 действительно иллюстрирует, что корпоративная память в идеале включает и знания специалистов.
Корпоративная память должна не позволять исчезнуть знаниям выбывающих специалистов (уход на пенсию, увольнение и пр.) и хранить большие объемы данных, информации и знаний из различных источников предприятия. То есть ситуация to be (как надо) должна выходить за рамки данных к знаниям. Тогда можно будет выделить два уровня корпоративной памяти:
Уровень 1. Уровень эксплицитной или явной информации — это данные и знания, которые могут быть найдены в документах организации в форме сообщений, писем, статей, справочников, патентов, чертежей, видео и аудио записей, программного обеспечения и т. д. Это первый и второй столбцы рисунка.
Уровень 2. Уровень имплицитной или скрытой информации — это персональное знание, неотрывно связанное с индивидуальным опытом. Оно может быть передано через прямой контакт — «с глазу на глаз» через процедуры извлечения знаний. Именно скрытое знание — то практическое знание, которое является ключевым при принятии решении и управлении технологическими процессами.
В действительности эти два типа информации, подобные двум сторонам одной и той же медали, одинаково важны в структуре корпоративной памяти.
При разработке систем КМ можно выделить следующие этапы:
1. Накопление. Стихийное и бессистемное накопление информации в организации.
2. Извлечение. Процесс обнаружения источников данных и знаний, их “добыча” и описание. Это один из наиболее сложных и трудоемких
этапов. От его успешности зависит дальнейшая жизнеспособность системы.
3. Структурирование. На этом этапе должна быть выделены основные понятия, выработана структура представления информации, обладающая
максимальной наглядностью, простотой изменения и дополнения.
4. Формализация и программная реализация. Представление структурированной информации в форматах машинной обработки — то есть на языках описания данных и знаний и организация автоматизированной обработки и поиска информации по запросу.
5. Обслуживание. Коррекция формализованных данных и знаний (добавление, обновление): «чистка», то есть удаление устаревшей информации; фильтрация данных и знаний для поиска информации, необходимой пользователям.
Правила проведения первых четырех этапов подразумевают владение инструментами инженерии знаний, довольно молодой науки, родившейся при разработке интеллектуальных систем.
Уже классической ошибкой практически всех (без исключения!) автоматизированных систем является главенство и доминирование этапа 4, т.е. программной реализации над предметной постановкой этапов 1–3. В системах КМ это особенно опасно, так как именно предметные знания являются ядром таких систем.
Существуют различные подходы, модели и языки описания данных и знаний. Однако все большую популярность последнее время приобретают онтологии. Онтология – по определению Грубера [Gruber,1997], есть спецификация концептуализации, формализованное представление основных понятий и связей между ними. Ранее этот философский термин означал учение о бытии, затем он переместился в область точных наук, где полу–формализованные концептуальные модели всегда сопутствовали математически строгим определениям. Под определение онтологии подпадают многие понятийные структуры: иерархия классов в объектно–ориентированном программировании, концептуальные карты (concept maps), семантические сети, и т. п. Нам представляется, что можно еще шире трактовать онтологию – например, как сценарий или процесс, как нечто структурирующее хаос.
Онтология — это структурная спецификация некоторой предметной области, ее формализованное представление, которое включает словарь (или имена) указателей на термины предметной области и логические выражения, которые описывают, как они соотносятся друг с другом. Например, рис.2 показывает схему онтологического инжиниринга.
Таким образом, онтологии обеспечивают словарь для представления и обмена знаниями о некоторой предметной области и множество связей, установленных между терминами в этом словаре.
Для описания онтологий существуют различные языки и системы, однако, наиболее перспективным представляется визуальный подход, позволяющий специалистам непосредственно «рисовать» онтологии, что помогает наглядно сформулировать и объяснить природу и структуру явлений. Визуальные модели, например, графы обладают особенной когнитивной (т.е. познавательной) силой. Любой программный графический пакет от PaintBrush до Visio можно использовать как первичный инструмент описания онтологий.
Однако, проектирование и разработка онотлогий, т.е онтологический инжиниринг, не является тривиальной задачей. Он требует от разработчиков профессионального владения технологиями инженерии знаний – от методов извлечения знаний до структурирования и формализации [Гаврилова, Хорошевский, 2000].
Онтологический инжиниринг должен и может стать “путеводной нитью” для всего процесса структурирования комплексных систем автоматизации, так как он объединяет две основные технологии проектирования больших систем – объектно–ориентированный и структурный анализ. Недаром онтологический анализ вошел в стандарт IDEF5, который является основным средством спецификации КИC и моделирования бизнес–процессов сегодня.
При явном интересе к онтологическому инжинирингу на сегодня не существует промышленных систем проектирования онтологий. Нами разработано несколько программных продуктов CAKE (Сомputer Aided Knowledge Engineering) [Воинов, Гаврилова, Данцин, 1996], ВИКОНТ — ВИзуальный Конструктор ОНТологий [Гаврилова, Лещева, 20000] и VITA (VIsual onTology–based hypertext Authoring tool)[Gavrilova, Geleverya, 2001, позволяющих визуально проектировать онтологии различных предметных областей. Онтология строится как дерево или сеть, состоящая из концептов и связей между ними. Связи могут быть различного типа, например, "является", "имеет свойство" и т. п. Концепты и связи имеют универсальный характер для некоторого класса понятий предметной области. Можно выбрать некоторое понятие из этого класса и для него "заполнить" онтологию, задавая конкретные значения атрибутам.
Рис.4 Онтологии «who is who» из истории ИИ
Само построение онтологии, иначе визуальный онтологический инжиниринг является мощным когнитивным инструментом, позволяющим сделать видимыми структуры корпоративного знания.
Алгоритм онтологического инжиниринга «для чайников»:
— выделение концептов — базовых понятий данной предметной области;
— определение «высоты дерева онтологий» — числа уровней абстракции;
— распределение концептов по уровням;
— построение связей между концептами — определение отношений и взаимодействий базовых понятий;
— консультации с различными специалистами для исключения противоречий и неточностей.
Еще одним преимуществом онтологического инжиниринга в KM является целостный подход к автоматизации предприятия. При этом достигаются:
— системность — онтология представляет целостный взгляд на предметную область;
— единообразие — материал, представленный в единой форме гораздо лучше воспринимается и воспроизводится;
— научность — построение онтологии позволяет восстановить недостающие логические связи во всей их полноте.
Стоит еще раз подчеркнуть, что онтология не только цель, но и средство формирования систем КМ.
Важность онтологического инжиниринга в системах KM обусловлена также тем, что знание, которое не описано, не тиражировано и не возрастает, в конечном счете становится устаревшим и бесполезным. Напротив, знание, которое распространяется, приобретается и обменивается, генерирует новое знание.
Таким образом, любая система автоматизации затрагивает проблемы хранения корпоративных знаний, но только системы КМ ориентированы на это в явном виде, тем самым способствуя сохранению этого ценнейшего ресурса, а не растворяя его в алгоритмах, бизнес –процессах и спецификациях. KM фактически может предоставитьт следующий уровень автоматизации для тех компаний, которые уже справились с автоматизацией данных, и является хорошей стартовой площадкой для тех, кто хочет создать интегрированную систему, а не “мозаику” отдельных функциональных блоков.
1. Вертгеймер М. 1987. Продуктивное мышление. М., Прогресс.
2. Гаврилова Т.А., Хорошевский В.Ф., 2001. Базы знаний интеллектуальных систем. Учебник.- Спб, Изд-во Питер
.
3. Гаврилова Т.А. Онтологический подход к управлению знаниями при разработке корпоративных информационных систем. - Ж. "Новости искусственного интеллекта", N2, 2003. - с.24-30.
4. Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. – СПб.: Питер, 2001. – 384 с.
5. Попов Э.В., 2001. Корпоративные системы управления знаниями. Ж. "Новости ИИ", N1.
6. McComb D., 2004. The CIO's Guide To Semantics © Semantic Arts, Inc. [Электронный ресурс]. — Режим доступа: www.semantic-conference.com
7. Mizogushi, R. and Bourdeau J., 2000. Using Ontological Engineering to Overcome Common AI-ED Problems // International Journal of Artificial Intelligence in Education, volume 11, 1–12.