|
||||||||||||||||||||||||||||||||||||||||||||||||||
Реферат на тему магістерської роботи
|
||||||||||||||||||||||||||||||||||||||||||||||||||
Зміст
Актуальність теми
Сучасні засоби пошуку, каталогізації, опису текстів не задовольняють наростаючим потребам користувачів. Потрібен їх розвиток у напрямку підвищення ефективності пошуку інформації і спрощення взаємодії з користувачем. Можливим шляхом вирішення проблеми є створення техніко-информаційних засобів опису сенсу наявних текстів з можливістю подальшого осмисленого пошуку в масиві текстової інформації. Причому великі і постійно зростаючі об'єми текстової інформації вимагають, щоб такі засоби працювали в автоматичному режимі. Сенс традиційно є суб'єктивною характеристикою тексту. Важко виявити які-небудь математичні методи опису значення текста і окремих його понять. Тому виділення смислових характеристик з реального тексту на природній мові є складним завданням. Проте дослідження в цьому напрямі активно ведуться. Над рішенням названих проблем працюють численні колективи вчених і фахівців у всьому світі, зокрема, консорціум W3C, де реалізується концепція Семантичного Web. Створюється безліч інтелектуальних пошукових систем таких як RetrievalWare, Nigma, Exactus, Sirius та ін. Не дивлячись на велику кількість пошукових інтелектуальних систем багато проблем, пов'язаних з пошуком інформації, залишаються не вирішеними. Цілі роботи
Метою цієї роботи є підвищення ефективності пошуку неструктурованої текстової інформації за запитом користувача на природній мові. Для досягнення поставленої мети необхідно вирішити наступні завдання:
Передбачувана наукова новизна
Плановані практичні результати
Розроблен алгоритм для автоматизованого розширення онтологий семантичними образами текстів, що дозволяє отримувати дані релевантні запиту користувача. Результати роботи будуть використані в електронній науковій бібліотеці кафедри АСУ. Дослідження застосування онтологічних моделей для семантичного пошуку
Завдання семантичного пошуку в електронній бібліотеці є спрощеним аналогом пошуку інформації в Інтернет, у зв'язку з тим що передбачається, що пошук буде здійснюватися за запитом користувача на природній мові в аналогічному рядку пошуку. На рис. 1 показана схема семантичного пошуку інформації. Користувач вводить запит, який підлягає лінгвістичному аналізу, розширюється за рахунок використання синонімів, потім перетворюється в ключові слова і вирушає пошуковій машині. Пошукова машина повертає знайдені документи, вони також підлягають лінгвістичній обробці і формуються семантичні образи документів. Образи документів порівнюються з образом запиту, робиться висновок що до релевантності кожного з документів і результати аналізу (документи, які були визнані релевантними) надаються користувачеві [12]. Рис. 1 - Діаграма потоків даних при пошуку Як бачимо з рисунка, центральне місце у такій моделі пошуку інформації займають онтології. Однак, процес створення онтологій складний прцес. Інформаційні онтології складаються з екземплярів, понять, атрибутів і відношень між ними. Для створення онтології необхідно створити словарь термінів - глассарій, об`єднати терміни спільними зв`язками та потім накласти обмеження на ці зв`язки, що проілюстровано на рисунку 2. Рис. 2 – Процес створення онтології (анімація: об'єм – 47 КБ, розмір – 534x321, кількість кадрів – 4, затримка між кадрами – 50 мс; затримка між останнім і першим кадрами – 100 мс; кількість циклів повторення – 7) Для побудови онтологий, необхідно розробити мови їх представлення. При цьому можуть бути використані такі спеціалізовані мови як Resource Description Framework (RDF), Web Ontology Language (OWL) і т. д. Онтології можуть використати різні моделі представлення знань, такі як логіка предикатів (First order logics - FOL), дескриптивна логіка, фреймові моделі (Frames), концептуальні графи і тому подібне. Для створення онтологій можуть використовуватися різні редактори (Protégé, Ontolingua, WebOnto та ін.), які у свою чергу можуть підтримувати різні формати представлення даних (мови), засновані на різних формалізмах (логіках, моделях представлення даних). Ключовим моментом в проектуванні онтології є вибір відповідної мови специфікації онтологій (Ontology specification language) і редактора для роботи з нею. Онтологічні моделі за час досліджень в цій області зазнали значний розвиток. Нині для створення і підтримки онтологій існує цілий ряд інструментів, які окрім загальних функцій редагування і перегляду виконують підтримку документування онтологій, імпорт і експорт онтологій різних форматів і мов, підтримку графічного редагування, управління бібліотеками онтологий і т. д. [4]. Найбільш відомі інструменти інженерії онтологій, їх основні характеристики представлені в таблиці 1 [3]. Таблиця 1 - Інструменти інженерії онтологий
Як вже було сказано вище, інструменти інженерії онтологий використовують спеціалізовані мови. Сьогодні виділяють три основні класи мов опису онтології, що показано на рис. 3:
Рис. 3 - Класифікація форматів представлення даних На сьогодні редактори онтологий, окрім своєї мови, підтримують імпорт і експорт різних форматів данних, виходячи з аналізу їх застосування, витікає, що найчастіше використовуваним форматом представлення даних є RDF(S). Мова RDF має ряд переваг: представляє дані у вигляді rdf -триплетів (суть-об'єкт-предикат), а rdf -схема представляється у вигляді орієнтованого графа, що є зручною для сприйняття формою представлення даних [1]. Виходячи з аналізу основних параметрів різних редакторів онтологій, найбільш прийнятним є редактор Protégé, саме він буде взятий за основу в подальшій роботі. Серед форматів представлення даних, перші позиції зайняв RDF(S), який буде використаний для побудови онтології предметної області електронної бібліотеки кафедри АСУ [1]. Аналіз методів семантичної обробки текстів
Семантична обробка тексту виконується в три етапи: морфологічний, синтаксичний і власне семантичний аналіз (рис. 4). Кожен етап виконує окремий аналізатор зі своїми вхідними і вихідними даними і власними налаштуваннями. Рис. 4 - Схема лінгвістичного аналізу. Зважаючи на складність виконання усіх етапів в роботі розглядатися буде тільки блок морфологічного аналізу. Серед методів морфологічного аналізу, що використовуються в лінгвістичних процесорах, можна виділити методи з декларативною і з процедурною орієнтацією. Основним недоліком декларативних методів є надмірно великий об'єм словника. Достоїнствами методу є простота (і, як наслідок, висока швидкість) аналізу, а також універсальність по відношенню до безлічі усіх можливих словоформ російської мови. Для процедурних методів час аналізу одного слова може бути істотно вищий, але об'єм використовуваних словників в невеликих системах дозволяє завантажувати словники цілком в оперативну пам'ять. Істотним недоліком процедурних методів є відсутність універсальності. Кожен з цих підходів має свої переваги і недоліки, тому в подальшій роботі використовуватиметься комбінація цих методів для поєднання переваг кожного з них. У загальному вигляді схема морфологічної обробки тексту представлена на рисунку 5. Заздалегідь необхідно провести лексичний аналіз, тобто перевірити на допустимі символи. На вхід лексичного аналізу подаються речення з тексту по черзі, а на виході перевірений набір слів і розділових знаків. Рис. 5 - Морфологічний розбір тексту. Опис алгоритму роботи морфологічного аналізатора:
1. На вхід надходить масив "слів", розділових знаків і чисел, виділених з вхідного тексту на етапі лексичного аналізу. Висновок
Потреба в онтологиях пов'язана з неможливістю адекватної автоматичної обробки природно-мовних текстів існуючими засобами. Тому, для якісної обробки текстів і пошуку релевантної інформації, необхідно мати детальний опис проблемної області, з множиною логічних зв'язків, які показують співвідношення між термінами області. Використання онтологій дозволяє представити природно-язиковий текст у такому вигляді, що він стає придатним для автоматичної обробки. У роботі був проведений аналіз існуючих засобів і методів побудови онтологий. В ході аналізу було встановлено, що існує безліч інструментальних засобів, для побудови онтологий, проте не одне з них не дозволяє автоматизувати цей процес. Для побудови онтологий існують різні спеціалізовані мови, які у свою чергу використовують різні моделі представлення знань і засновані на різних логіках. В результаті проведеного аналізу були сформульовані завдання для подальшої роботи, вибрані методи і алгоритми для їх реалізації, сформульована математична постановка завдання побудови онтологій Список використаної літератури
Зауваження
При написанні даного автореферату магістерська робота ще не завершена. Дата остаточного завершення роботи: грудень 2011 Повний текст роботи та матеріали по темі можуть бути отримані у автора або його наукового керівника після зазначеної дати.
|
||||||||||||||||||||||||||||||||||||||||||||||||||
Автобіографія |
Резюме
ДонНТУ - Портал магістрів |