
Orlova Evgenia
Faculty of Institute of informatics and Artificial Intelligence
Department of artificial intelligence systems
Speciality «Artificial intelligence systems»
The analysis of methods and models of automatic ontologies' construction
Scientific adviser: Egoshina Anna
1. Relevance of the topic
2. The purpose and tasks of the research
3. Prospective scientific novelty
4. The concept of ontology
The Internet represents an extensive information field, the huge knowledge base containing detailed data of scientific, historical, political, daily character. The Internet can be compared to the huge dictionary describing our planet and all processes, accompanying development of a human civilization which occurred, occur and can occur in the future.
Today practically all information available in a world wide web doesn't contain semantics and consequently its search, relevant to inquiries of the user, and also integration within concrete subject domain are complicated. For ensuring effective search, the Web application should understand accurately semantics of the documents presented in a network. In this regard, it is possible to observe rapid growth and development of the Semantic Web technologies, occurring now. The consortium W3C developed the concept which is based on active use of metadata, language of a marking of XML, the RDF language (by Resource Definition Framework – the Environment of the Description of the Resource) and an ontologic approach. All offered means allow carrying out data exchange and their repeated use.
1. Relevance of the topic
The major problem in development the Internet is its intellectualization, and connected with it integration of data, high-quality search, integration the Web of services and many other things. Effective remedies for the specified tasks are offered within Semantic Web approach.
Ontologies were widely adopted in the solution of problems of representation of knowledge and engineering of knowledge, semantic integration of information resources, information search etc. Intellectual systems on the basis of ontologies showed the efficiency, however creation of ontology in practice demands expert knowledge in studied subject domain and occupies essential volume of time therefore an actual task is automation of process of creation of ontology.
2. The purpose and tasks of the research
The purpose of this master's work is increase of efficiency of a method of automatic ontologies' construction for the collection of text documents.
For achievement of a goal it is necessary to solve the following problems:
- to consider appointments and classifications of ontologies;
- analyze the application of ontologies;
- to consider languages of the description of ontologies;
- to carry out the analysis of existing methods of automatic creation of ontologies;
- to realize automatic creation of ontology on the basis of results of a preliminary clustering of a collection of text documents.
3. Prospective scientific novelty
A new modification of the method of automatic ontologies' construction for the collection of text documents with a preliminary clustering of a collection of text documents is offered. As algorithm of a clustering the algorithm of LSA/LSI is offered.
4. The concept of ontology
Ontologies are new intellectual means for search of resources on the Internet, new methods of representation and processing of knowledge and inquiries. They are capable precisely and to describe effectively semantics of data for some subject domain and to solve a problem of incompatibility and discrepancy of concepts. Ontologies possess own means of processing (a logic conclusion), corresponding to problems of semantic processing of information. So, thanks to ontologies, at the appeal to a search engine the user will have possibility to receive in reply resources, semantic relevant to inquiry (pict. 1 [4]).

Picture 1 – Scheme search based on ontologies
Some approaches to definition of concept of ontology are known, but the standard definition still isn't present, as depending on each specific objective it is convenient to interpret this term differently: from informal definitions to descriptions of ontologies in concepts and designs of logic and mathematics [4]. Lower most often used will be given.
The ontology is an attempt of comprehensive and detailed formalization of some field of knowledge by means of the conceptual scheme. Usually such scheme consists of the structure of data containing all relevant classes of objects, their communication and a rule (theorems, restrictions), accepted in this area.
As a result of researches it was established that the wide circulation was received by the approaches based on the statistical analysis of the text on a natural language. In such approaches the ontology is under construction on a collection of text documents.
Quality of creation of ontology is influenced by preliminary preparation of the text, in particular, features of a collection of documents. The clustering of documents on the general subject can reduce time spent for creation of ontology.
As algorithm of a clustering the algorithm of LSA/LSI is offered. The algorithm of LSA/LSI is a realization of the basic principles of the factorial analysis applicable to a set of documents. This method of a clustering allows to overcome successfully the sinonimiya and homonymy problems inherent in the text case being based only on statistical information on a set of documents/terms.
1. Бажанова А. И. Исследование применения онтологических моделей для семантического поиска / А.И. Бажанова, Т.В. Мартыненко // Інформаційні управляючі системи та комп'ютерний моніторинг (ІУС та КМ – 2011) / Матеріали II науково-технічної конференції студентів, аспірантів та молодих вчених. – Донецьк, ДонНТУ – 2011, с. 244-248.
2. Болотова В.А. Инструментальные средства создания баз знаний на основе системы онтологий / автореферат к магистерской работе // http://masters.donntu.ru/2010/fknt/bolotova/diss/index.htm
3. Анохина В.С. в Автоматизацию извлечения знаний из Internet в форме онтологии для построения прикладных баз знаний / автореферат к магистерской работе // http://www.masters.donntu.ru/2005/fvti/anohina/diss/work.htm
4. Клещев А. С. Математические модели онтологий предметных областей. Часть 1. Существующие подходы к определению понятия «онтология» / А.С. Клещев, И.Л. Артемьева // Информационные процессы и системы. – 2001. – № 2 – С. 20 – 27.
5. Соловьев В.Д. Онтологии и тезаурусы: учеб. пособие / В.Д. Соловьев, Б.В. Добров, В.В. Иванов, Н.В. Лукашевич; Казанский гос. ун-т, МГУ им. М.В. Ломоносова Казань. – М.: Казань, 2006. – 157 с.
6. Агеев М.С. Извлечение значимой информации из web-страниц для индексирования / М.С. Агеев, И.В. Вершинников, Б.В. Добров // «Интернет-Математика-2005»: семинар в рамках Всеросс. науч. конф. RCDL'2005. – 2005. – С. 283 – 301.
7. Боровикова О.И. Организация порталов знаний на основе онтологий / О.И. Боровикова, Ю.А. Загорулько // Компьютерная лингвистика и интеллектуальные технологии: тр. междунар. конф. «Диалог 2002», Протвино, 6–11 июня 2002 г. – Т.2. – С. 76 – 82.
8. Сайт института информатики и процессов управления [электронный ресурс]: http://www.iacp.dvo.ru.
9. Булгаков С.В. Использование онтологий для построения инновационных цепочек в системе поддержки инновационной деятельности в регионе / С.В. Булгаков, Ю.А. Загорулько // Труды VI-й Междунар. конференции «Проблемы управления и моделирования в сложных системах». – Самара: Самарский Научный Центр РАН, 2004 – С. 328 – 333.
10. Голиков Н.В. Применение онтологий / Н.В. Голиков // VII Всерос. конф. молодых ученых по мате мат. моделированию и информационным технологиям, Красноярск, 1 – 3 ноября 2006 г. – С. 82.
11. Овдей О.М. Обзор инструментов инженерии онтологий / О.М. Овдей, Г.Ю. Проскудина // Журнал ЭБ. – 2004 – №4.
12. Бениаминов Е.М. Алгебраические методы в теории баз данных и представлении знаний / Е.М. Бениаминов. – М.: Научный мир, 2003 – 184 с.
13. Сайт Щербака С. С., кандидата технических наук по специальности «Системы и средства искусственного интеллекта»// URL:http://shcherbak.net.
14. Сообщество Semantic Web // http://www.w3.org/2001/sw.
15. Бевзов А.Н. Разработка методов автоматического индексирования текстов на естественном языке для информационно-поисковых систем / А.Н. Бевзов // Труды X Всеросс. науч. конф. Электронные библиотеки: перспективные методы и технологии, электронные коллекции – RCDL'2008 – С. 401 – 404.
16. Рабчевский Е. А. Автоматическое построение онтологий на основе лексико-синтаксических шаблонов для информационного поиска / Е.А. Рабчевский // Труды XI Всеросс. науч. конф. «Электронные библиотеки: перспективные методы и технологии, электронные коллекции». – Петрозаводск, 2009.
17 Королев А.Н. Лингвистическое обеспечение информационно-поисковой системы Excalibur RetrievalWare: Аналитический аспект / А.Н. Королев // материалы конференции «Корпоративные Информационные Системы», 1999.
18. Анисимов А.В. Система обработки текстов на естественном языке / А.В. Анисимов, А.А. Марченко // Искусственный интеллект. – 2002. – № 4. – С. 157 – 163.
19. Мозжерина Е. С. Автоматическое построение онтологии по коллекции текстовых документов // Электронные библиотеки: Перспективные Методы и Технологии, Электронные коллекции – RCDL 2011 – Воронеж, 2011 – С. 293 – 298.
Important note
This master's work is not completed yet. Final completion: December 2012. The full text of the work and materials on the topic can be obtained from the author or his head after this date.