Автор: Bodil Nistrup Madsen, Hanne Erdman Thomsen, Jakob Halskov, Tine Lassen
Источник: Presenting terminology and knowledge engineering resources online p. 502-533, Nicolson & Bass, 2010
Перевод: Орлова Е.В.
Ключевые слова: онтологии, извлечение знаний, структурирование знаний, объединение данных, распространение знаний, банк терминов.
Необходимым условием для непрерывного использования и развития национальных LSP (Layered Service Provide) в небольших странах, например таких как Дания, является свободный доступ к банку терминов включающему знания о предметных областях на датском и иностранных языках. Домен специальных знаний выходит за рамки традиционного информационного словаря. Для того чтобы уточнить и выделить значение домена конкретных понятий, они должны быть описаны с помощью свойств и отношений с другими понятиями, то есть в виде домена конкретных онтологий (концепция системы). На их основе можно разработать последовательные определения для дальнейшего понимания и правильного использования терминов. Работа в области терминологии, которая включает развитие онтологии, является очень трудоемкой задачей, и, следовательно, большинство компаний не могут позволить себе работы такого рода.
В нашей статье мы представляем проект, целью которого является разработка инновационных и передовых методов для динамического и автоматического извлечения знаний из текстов, концепций и для автоматического построения онтологий. Проект опирается на дальнейшее развитие и результаты проекта CAOS (Computer-Aided Ontology Structuring, англ. автоматизированное структурирование онтологии) – который был проведен в Копенгагенской Школе Бизнеса в период 1998-2007 гг. Проект получил финансирование датским Научным советом Гуманитарных наук в период с 1998 по 2001 год.
В рамках проекта мы также разработаем методы для автоматического объединения терминологических данных из различных существующих источников. В процессе объединения данных из различных источников существует большая проблема – это необходимость избежать двойной записи, составляющей ту же концепцию в нескольких записях с разной формулировкой определения и различным переводом. Нам не известно о каких-либо существующих банках терминов, которые решили эту проблему. Мы будем развивать методы автоматического построения онтологии на основе определений из различных источников данных и методов для автоматического слияния записей, основанных на объединении этих онтологий.
Кроме того, мы разработаем методы распространения знаний ориентированные на целевую группу. Большинство других банков терминов могут предложить лишь ограниченные возможности по настройке пользователем конкретного поиска и представления профилей.
В течение длительного периода, многие ресурсы были выделены в общие словари, лексические базы данных и сети. Однако существует большая потребность специальных знаний в научно-технической, экономической и правовой областях, которые могут быть доступны с помощью датского банка терминов. В 2008 году языковой комитет датского правительства, опубликовал доклад «Sprog til tiden» («Язык по запросу»), в котором подчеркивал важность свободного доступа к Национального банку терминов. В декабре 2009 года датский парламент призвал правительство проанализировать преимущества и привлечение средств в создание датского банка терминов и центра национальной терминологии, который может содействовать развитию LSP и обеспечивать обмен знаниями между научно-исследовательскими учреждениями и обществом.
В качестве введения к описанию текущего проекта мы представляем некоторые основные концепции, связанные с терминологической онтологий. Терминологическая онтологии - проблемно-ориентированная онтология (Гуарино 1998). Терминологические онтологии отличаются от других типов онтологий, включая функциональные характеристики и подразделения критериев.
Термин «терминологической онтология» является синонимом «Концептуальной системы», которая используется в терминологии, например (ISO 704, 2000).
Терминологические онтологии как основа для концептуального уточнения
На рисунке 1 приведен пример онтологии для понятий, связанных с профилактикой заболеваний. Этот пример является частью более полной онтологии сектора здравоохранения, иллюстрирующий только отношения типа, то есть зеленые линии, соединяющие понятия, так называемые ISA-отношения. В терминологических онтологиях мы используем термины «вышестоящего понятия», «подчиненной концепции» и «координаты понятия» вместо «hypernyms», «hyponyms» и «cohyponyms». На рисунке 1 представлена концепция универсальной профилактики.
Из рисунка 1 видно, что универсальная профилактика характеризуется предназначением целевой группы, в то время как первичная профилактика характеризуется фазой клинического течения (даже до заболевания пациента). Без этой информации, можно подумать, что эти два термина являются синонимами, но анализируя понятия их характеристик, которые приведены ниже (например, [ЦЕЛЕВАЯ ГРУППА: население]), становится ясно, что это не так.
Характеристики понятий представлены в виде функций спецификации в виде пары значений атрибутов, например, [ЦЕЛЕВАЯ ГРУППА: население]. На основе этих функций спецификации, вводятся критерии подразделения (белые прямоугольники с текстом заглавными буквами), которые показывают, что три понятия 1.1-1.3 отличаются по отношению к целевой группе, в то время как три понятия 1,4-1,6 отличаются по фазе в клиническом течении. Подразделение критериев помогает пользователю понять смысл понятий, дает хороший обзор и помощь в форме согласованных определений. Определение понятий дано с помощью позиций характеристик в онтологии. Онтология на рисунке 1 была создана с помощью модуля терминологии и системы управления знаниями i-Model ®, разработанного DANTERM Centre (центр терминологии) в Копенгагенской Школе Бизнеса. Концепция моделирования в i-Model основана на вводимых пользователем данных, и не имеет никаких средств автоматической проверки согласованности.
Терминологические онтологии осуществляемые в CAOS
Принципы терминологической онтологии, представленные здесь, были разработаны в CAOS, целью которого было создание компьютерной системы для полуавтоматического построения онтологий (см. Мэдсен и др. 2004; Мэдсен и др. 2005). CAOS проводили Bodil Nistrup Madsen, Hanne Erdman Thomsen and Carl Vikner на CBS (кафедра международного изучения языка и компьютерной лингвистики). Прототип включает интерактивный графический пользовательский интерфейс, который позволяет пользователю создавать терминологические онтологии на основе информации, введенной при считывании предметно-ориентированных текстов. CAOS предупреждает пользователя о противоречиях и ошибках, и информирует всякий раз, когда она вставляет информацию, которая противоречит принципам и ограничения системы.
В прототипе CAOS, было разработано оборудование для полуавтоматической проверки несоответствия. В новом проекте мы будем развивать средства для автоматической проверки согласованности, автоматического изменения онтологии, автоматического позиционирования понятий и динамического обновления онтологии на основе обогащенной информации, которую они содержат. Насколько нам известно, никакие другие системы не имеют такие возможности.
На рисунке 2 приведена часть онтологии из рисунка 1, которая строится с прототипом CAOS.
Диаграммы в CAOS представляются в виде UML нотации. Типы отношений (ISA-отношения) представлены в виде стрелок соединяющих понятия. Все типы отношений могут быть использованы в CAOS. Система предлагает ряд отношений понятий, организованных в таксономии (Madsen и соавт., 2002). Это также дает возможность пользователю ввести определяемые пользователем отношения.
Основу терминологической модели концепции CAOS составляют характеристики моделирующих формальных спецификаций функций, т.е. пар «атрибут-значение», таких как, например, [ЦЕЛЕВАЯ ГРУППА: население]. Такой подход к моделированию характеристик был предложен в (Madsen 1998), (Thomsen 1998) и (Thomsen 1999, ср. Также (Carpenter, 1992). Использование функциональных спецификаций подвергается принципам и ограничениям, подробно описанным в (Madsen и соавт. .. 2004; Мэдсен и др. 2005). Зависимые понятия наследуют характеристики вышестоящей понятий, например, программы по сохранению здоровья наследует характеристики: [ЦЕЛЕВАЯ ГРУППА: население] от понятия универсальной профилактики.
Может быть введена полииерархия вышестоящего понятия (т.е. одно понятие может быть связано с двумя или более). Примером является представленная на рисунке 1 концепция универсальной первичной профилактики. Очень важный принцип в таких случаях это то, что вышестоящие понятия наследующее характеристику из двух (или более) понятий должны всегда принадлежать к двум (или более) различным критериям подразделения, в противном случае онтология должна быть изменена.
Мы формализовали критерии подразделения, которые использовались в течение многих лет в работе терминологии, введя размерность и измерение характеристик, которые формируют основу для возможности полуавтоматического построения онтологий и для проверки их согласованности. Измерение концепции является атрибутом, происходящим в (не наследуется) функции спецификации одного или нескольких своих подчиненных понятий, т.е. атрибут, позволяет различать несколько субпонятий концепции. На рисунке 2 спецификация измерения состоит из измерения и значения, связанных с соответствующим атрибутом в функции спецификации подчиненных понятий: РАЗМЕР: [value1 | value2 | ...], например: «ЦЕЛЕВАЯ ГРУППА: [группах повышенного риска | высокого риска ]».
Принципы построения онтологии, упомянутые здесь, уникальны. Никакие другие проекты или системы онтологий не используют эти принципы, которые приводят к очень точным описаниям понятий зависящих от предметной области. В следующих двух разделах мы более подробно описываем наш новый проект.
Лексические онтологии для общего языка, так называемый wordnets, позволяют пользователю перемещаться в сети понятий, разрабатываются во многих странах. Хорошо известный пример - электронные сети Принстонского WordNet (http://wordnet.princeton.edu/), для которых были разработаны несколько графических браузеров. В Дании датская WordNet, DanNet (http://www.wordnet.dk/), была в разработке с 2005 года. DanNet основана на датском словаре, Den Danske Ordbog (http://ordnet.dk/ddo).
Онтологии, охватывающие конкретные области, также развиты, но они обычно отличаются от терминологических онтологий, как это показано в нашей работе. Примеры: UMLS - унифицированный язык Medical System (http://www.nlm.nih.gov/research/umls/) и SNOMED CT (http://www.ihtsdo.org/snomed-ct/) – систематизированная номенклатура медицинских клинических терминов, которая также была переведена на датский язык. В период 2003-2006 Школа бизнеса Орхуса, университет Орхуса, работала над двумя проектами: MEDVID и MEDTERM. MEDVID (http://www.asb.dk/article.aspx? pid=568#medvid), направленные на обмен знаниями, распространение и взаимодействие в рамках медико-технической и медицинской научной области. Проект был сотрудничеством между компаниями, исследовательскими центрами и бюро переводов, обменивающимися знаниями и опытом использования языка, перевода и общения в медицинской области. Целью проекта было MEDTERM развитие мульти лингвистического интернет-словаря поддержки обмена знаниями в области медицины (http://www.asb.dk/article.aspx?pid=568#medterm).
Эти коллекции данных создавались вручную, что является очень трудоемкой задачей, и наши знания о методах для динамического обновления не получили развития.