Iнститут iнформатики i штучного iнтелекту

Кафедра систем штучного iнтелекту

Спеціальність «Системи штучного інтелекту»

Моделі та алгоритмічне забезпечення для побудови семантичних мереж текстів природною мовою

Науковий керівник: к.т.н., доц. Вороной Сергiй Михайлович

Реферат

Содержание

  1. Цілі та завдання

  2. Актуальність теми роботи

  3. Запропонована наукова новизна

  4. Заплановані практичні результати

  5. Глобальний рівень досліджень і розробок за темою

    5.1 Семантичні мережі

    5.2 Аналіз текстової інформації Text-mining

  6. Національный рівень досліджень і розробок за темою

  7. Локальний рівень досліджень і розробок за темою

  8. Короткий виклад власних результатів

  9. Висновок

  10. Література



1 Цілі та завдання

Метою дослідницької роботи є створення нового більш ефективного методу побудови семантичної мережі текстів природною мовою. Для досягнення даної мети необхідно вирішити наступні завдання:

- провести детальний аналіз існуючих раніше методів побудови семантичних мереж;

- виявити основні недоліки та проблеми реалізації існуючих алгоритмів побудови семантичних мереж;

- з'ясувати ступінь вивченості даних проблем;

- визначити область застосування існуючих технологій;

- визначити, яке коло проблем дозволяють вирішити семантичні мережі;

- на основі аналізу пунктів, що наводилися вище зробити висновки і запропонувати новий метод побудови семантичних мереж, здатний максимально повно вирішувати існуючі проблеми даної предметної області.

2 Актуальність теми роботи

З кожним днем обсяги інформації зростають з великою швидкістю. Але, як відомо, інформація вимагає систематизації та обробки. Тому з'являється необхідність у створенні засобів для зберігання даних і механізмів для їх швидкої та ефективної обробки. Семантичні мережі є саме тим механізмом, який дозволяє ефективно і повною мірою обробляти інформацію та накопичені знання.

Спосіб подання знань в мережевих моделях найбільш близький до того, як вони представлені в текстах природною мовою. В його основі лежить ідея про те, що вся необхідна інформація може бути описана як сукупність трійок (arb), де a і b - об'єкти, а r - бінарне відношення між ними [1].

Семантична мережа - інформаційна модель предметної області, що має вигляд орієнтованого графа, вершини якого відповідають об'єктам предметної області, а дуги (ребра) задають відносини між ними. Об'єктами можуть бути поняття, події, властивості, процеси.

Виходячи з вище сказаного, можна зробити висновок, що тема даної дослідницької роботи досить актуальна. Бо дозволяє вирішити одну з найважливіших проблем інформаційного суспільства - проблему обробки накопиченої інформації та подання її в більш зручному для подальшого зберігання вигляді.

3 Запропонована наукова новизна

Наукова новизна дослідницької роботи полягає в розробці нового методу побудови семантичних мереж текстів природною мовою, що ґрунтується на результатах детального аналізу раніше існуючих методів, визначенні недоліків і проблем вже існуючих методів та алгоритмів.

4 Заплановані практичні результати

В результаті проведення роботи планується створення алгоритмічного забезпечення за розробленим методом. Даний алгоритм повинен відповідати наступним вимогам:

- швидкість реалізації;

- відсутність недоліків, які мали місце в попередніх алгоритмах;

- ефективність результатів роботи;

- можливість оптимізації для вирішення нестандартних завдань.

5 Глобальний рівень досліджень і розробок за темою



5.1 Семантичні мережі

Семантична мережа (СМ) - математична модель, що відображає безліч понять, що відносяться до певних класів об'єктів. У загальному випадку СМ може бути представлена у вигляді гіперграфа, в якому вершини відповідають поняттям, а дуги - відносинам. Графова форма подання в СМ дає більшу простоту реалізації відносин багатьох об'єктів до багатьох, ніж в ієрархічній моделі.

Основна перевага цієї моделі - відповідно до сучасних уявлень про організацію довготривалої пам'яті людини. Недолік моделі - складність пошуку виведення на семантичній мережі. Починаючи з кінця 50-их років були створені і застосовані на практиці десятки варіантів семантичних мереж. Незважаючи на те, що термінологія і їх структура розрізняються, існують подібності, притаманні практично всім семантичним мережам:

- вузли семантичних мереж являють собою концепти предметів, подій, станів;

- дуги семантичних мереж створюють відносини між вузлами-концептами (позначки над дугами вказують на тип відношення);

- деякі відносини між концептами являють собою лінгвістичні відмінки, такі як агент, об'єкт, реципієнт та інструмент (інші означають тимчасові, просторові, логічні відносини і відносини між окремими реченнями);

- концепти організовані за рівнями у відповідності зі ступенем узагальненості так як, наприклад, сутність, жива істота, тварина, м'ясоїдна. Однак існують і відмінності:

- тлумачення значення з точки зору філософії;

- методи представлення кванторів спільності та існування і логічних операторів;

- засоби маніпулювання мережами та правила виводу, термінологія.

Все це змінюється від автора до автора. Незважаючи не деякі відмінності, мережі зручні для зчитування й обробки комп'ютером, а також досить потужні, щоб представити семантику природної мови [2].

Найважливішими типізованими відносинами об'єктів є: «Рід» - «Вид», «Ціле» - «Частина», «Причина» - «Слідство», «Засіб» - «Мета», «Аргумент» - «Функція», «Ситуація» - «Дія». Типізація відносин дозволяє однозначно інтерпретувати сенс ситуацій, що відображаються в базі знань і налаштовувати механізм виведення особливості цих відносин. Так, відображення відносин «Рід» - «Вид» дає можливість здійснювати спадкування атрибутів класів об'єктів і, таким чином, автоматизувати процес виведення висновків від загального до конкретного. Засіб представлення семантичної мережі у вигляді графа представлений на рисунку 5.1 [3].

Рис. 5.1 Графічне представлення семантичної мережі (анімація: 7 кадрів, 7 секунд, 5 повторів, об’єм 9.05 КБ)

У загальному випадку під семантичною мережею розуміється вираз, наведений у формулі 5.1

S=(O,R1,R2,…,Rk), (5.1)

де O – сукупнисть об'єктів конкретної предметної області;

Ri сукупність відносин між об'єктами;

i – тип відношення.

З безлічі існуючих методів побудови семантичної мережі був обраний метод створення семантичної мережі з колекції текстових документів певної предметної області. Суть методу полягає в покроковому аналізі тексту, який наведено на рисунку 5.2.

Рис. 5.2 Процес створення семантичної мережі

На етапі вилучення концептів відбувається виділення ключових слів, виділення ключових словосполучень і групування словосполучень. У свою чергу групування ключових слів розбивається на кілька етапів, наведених нижче.

1.Нормалізація, токенізація, лематизації.

2.Фільтрація на основі лінгвістичної інформації: видалення стоп-слів, назв, чисел, дат, всього іншого крім іменників і прикметників.

3.Ранжування слів-кандидатів з використанням статистичної інформації.

Виділення ключових словосполучень також ділиться на окремі кроки.

1.Витяг вільних словосполучень.

2.Групування словосполучень-кандидатів, шляхом пошуку найбільших спільних підрядків.

3.Ранжування словосполучень [4].

5.2 Аналіз текстової інформації Text-mining

Аналіз структурованої інформації, що зберігається в базах даних, вимагає попередньої обробки: проектування БД, введення інформації за певними правилами, розміщення її в спеціальних структурах (наприклад, реляційних таблицях) і т.і. Таким чином, безпосередньо для аналізу цієї інформації і отримання зі старих знань необхідно затратити додаткові зусилля. При цьому вони не завжди пов'язані з аналізом і не обов'язково призводять до бажаного результату. Через це ККД аналізу структурованої інформації знижується. Крім того, не всі види даних можна структурувати без втрати корисної інформації. Наприклад, текстові документи практично неможливо перетворити в табличне подання без втрати семантики тексту і відносин між сутностями. З цієї причини такі документи зберігаються в БД без перетворень, як текстові поля (BLOB-поля). У той же час в тесті приховано величезну кількість інформації, але її неструктурованість не дозволяє використовувати алгоритми Data Mining. Рішенням цієї проблеми займаються методи аналізу неструктурованого тексту. У західній літературі такий аналіз називають Text Mining.

Методи аналізу в неструктурованих текстах знаходяться на стику декількох областей: Data Mining, обробка природних мов, пошук інформації, вилучення інформації та управління знаннями.

Виявлення знань в тексті - це нетривіальний процес виявлення дійсно нових, потенційно корисних і зрозумілих шаблонів в неструктурованих текстових даних. Як видно, з визначення Data Mining це визначення відрізняється тільки новим поняттям «неструктуровані текстові дані». Під такими знаннями розуміється набір документів, що представляють собою логічно об'єднаний текст без будь-яких обмежень на його структуру. Прикладами таких документів є: web-сторінки, електронна пошта, нормативні документи і т.і. В загальному випадку такі документи можуть бути складними і великими і включати в себе не тільки текст, але і графічну інформацію. Документи, які використовують мову розширюваної розмітки XML (eXtensible Markup Language), стандартна мова узагальненої розмітки SGML (Standart Generalised Markup Language) та інші подібні угоди за структурою формування тексту, прийнято називати напівструктурованими документами. Вони також можуть бути оброблені методами Text Mining.

Процес аналізу тестових документів можна представити як послідовність кількох кроків, наведених на рисунку 5.3.

Рис. 5.3 Етапи Text Mining [5]

Пошук інформації. На першому кроці необхідно ідентифікувати, які документи повинні бути піддані аналізу, та забезпечити їх доступність. Як правило, користувачі можуть визначити набір аналізованого документа самостійно – власноруч, але при великій кількості документів необхідно використовувати варіанти автоматизованого відбору за заданими критеріями.

Попередня обробка документів. На цьому кроці виконується найпростіші, але необхідні перетворення з документами для подання їх у вигляді, з яким працюють методи Text Mining. Метою таких перетворень є видалення зайвих слів і надання тексту більш суворої форми.

Витяг інформації. Витяг інформації з обраних документів передбачає виділення в них ключових понять, над якими надалі буде виконуватися аналіз. Даний етап є дуже важливим.

Застосування методів Text Mining. На цьому кроці витягуються шаблони і відносини, наявні в текстах. Даний крок є основним у процесі аналізу текстів, і практичні завдання, які вирішуються на цьому кроці.

Інтерпретація результатів. Останній крок у процесі виявлення знань передбачає інтерпретацію отриманих результатів. Як правило, інтерпретація полягає або в поданні результатів природною мовою, або в їх візуалізації в графічному вигляді.

Візуалізація також може бути використана як засіб аналізу тексту. Для цього беруться ключові поняття, які і представляються в графічному вигляді. Такий підхід допомагає користувачу швидко ідентифікувати головні теми і поняття, а також визначити їх важливість.

Попередня обробка тексту

Однією з головних проблем аналізу текстів є велика кількість слів у документі. Якщо кожне з цих слів піддавати аналізу, то час пошуку нових знань різко зростає, і навряд чи буде задовольняти вимогам користувачів. В той же час зрозуміло, що не всі слова в тексті несуть корисну інформацію. Крім того, в силу гнучкості природних мов формально різні слова (синоніми тощо) насправді означають однакові поняття. Таким чином, видалення неінформативних слів, а також приведення близьких за змістом слів до єдиної форми значно скорочує час аналізу текстів. Усунення описаних проблем виконується на етапі попередньої обробки тексту.

Зазвичай використовують такі прийоми видалення неінформативних слів та підвищення суворості текстів.

1. Видалення стоп-слів. Стоп-словами називаються слова, які є допоміжними і несуть мало інформації про зміст документа. Зазвичай заздалегідь складаються списки таких слів, і в процесі попередньої обробки вони видаляються з тексту. Типовим прикладом таких слів є допоміжні слова і артиклі, наприклад «тому що», «крім того» і т.і.

2. Стеммінг – морфологічний пошук. Він полягає в преведенні кожного слова до його нормальної форми. Нормальна форма виключає відмінювання слова, множинні форми, особливості мови і т.і. Наприклад, слова «стиснення» і «стислий» повинні бути перетворені в нормальну форму слова «стискати». Алгоритми морфологічного розбору враховують особливості і внаслідок цього є мовно-залежними алгоритмами.

3. N-грами – це альтернатива морфологічного розбору і видалення стоп-слів. N-грами – це частина рядка, що складається з N символів. Наприклад слово «дата» може бути представлено 3-грамою «_да», «дат», «ата», «та_» або 4-грамою «_дат», «дата», «ата_», де символ підкреслення замінює попередній чи замикає слово пробіл. У порівнянні зі стеммінгом або видаленням стоп-слів, N-грами менш чутливі до граматичних помилок. Крім того, N-грами не вимагають лінгвістичного представлення слів, що робить даний прийом більш незалежним від мови. Проте N-грами, дозволяючи зробити текст більш суворим, не вирішують проблему зменшення кількості неінформативних слів.

4. Приведення регістру. Цей прийом полягає в приведені всіх символів до верхнього або нижнього регістру. Наприклад, усі слова «текст», «Текст», «ТЕКСТ» наводяться до нижнього регістру «текст».

Витяг ключових понять з тексту

Витяг ключових понять з тексту може розглядатися і як окремий етап аналізу тексту, і як певна прикладна задача. У першому випадку витягнуті з тексту факти використовуються для вирішення різних завдань аналізу: класифікації, кластеризації та ін. Більшість методів Data Mining, адаптовані для аналізу текстів, працюють саме з такими окремими поняттями, розглядаючи їх як атрибути даних.

У задачі вилучення ключових понять з тексту цікавість представляють деякі суті, події та відносини. При цьому добуті поняття аналізуються і використовуються для введення нових. У даному розділі і буде описано вирішення такого завдання. При цьому частина процесу рішення може бути використана для ключових понять при вирішенні інших завдань аналізу тексту.

Витяг ключових понять з текстових документів можна розглядати як фільтрацію великих обсягів тексту. Цей процес включає в себе відбір документів з колекції і позначку певних термів в тексті. Існують різні підходи до вилучення інформації з тексту. Прикладом може служити визначення приватних наборів слів і об'єднання їх в ключові поняття.

Іншим підходом є ідентифікація фактів в текстах вилучення їх характеристик. Фактами є деякі події або відношення. Ідентифікація проводиться за допомогою наборів зразків. Зразки являють собою можливі лінгвістичні варіанти фактів.

Такий підхід дозволяє представити знайдені ключові поняття, представлені подіями і відносинами, у вигляді структур, які в тому числі можна зберігати в базах даних.

Процес вилучення ключових понять за допомогою шаблонів розбивається на дві стадії: локальний аналіз та аналіз понять. На першій стадії їх тестових документів витягуються окремі факти за допомогою лексичного аналізу. Друга стадія полягає в інтеграції витягнутих фактів та/або у висновку нових фактів. Наприкінці найбільш характерні факти перетворюються в потрібну вихідну форму. Даний процес представлений нижче на рисунку 5.4.

Рис. 5.4 – Процесс вилучення ключових понять [5]

Складність вилучення фактів за допомогою зразків пов'язана з тим, що на практиці їх не можна представити у вигляді простої послідовності слів. У більшості систем обробки природних мов спочатку ідентифікуються різні рівні компонентів і відносин, а потім на їх основі будуються зразки. Цей процес зазвичай починається з лексичного аналізу (визначення частин мови і характеристик слів і фраз за допомогою морфологічного аналізу і пошуку за словником) та розпізнавання імен (ідентифікації імен та інших лексичних структур, таких як дати, грошові вираження і т.і.). За цим йде синтаксичний розбір, метою якого є виявлення груп іменників, дієслів і, якщо можливо, додаткових структур. Потім застосовуються предметно-орієнтовані зразки для ідентифікації цікавих фактів.

На стадії інтеграції знайдені в документах факти досліджуються і комбінуються. Це виконується з урахуванням відносин, які визначаються займенниками або описом однакових подій. Також на цій стадії робляться висновки з раніше встановлених фактів.

Як вже зазначалося раніше, вилучення фактів виконується за допомогою зіставлення тексту з набором регулярних виразів (зразків). Якщо вираз зіставляється з текстовими сегментами, то такі сегменти позначаються мітками. При необхідності цим сегментам приписуються додаткові властивості. Зразки організовуються в набори. Мітки, асоційовані з одним набором, можуть посилатися на інші набори. Кожен зразок має пов'язаний з ним набір дій. Як правило, головна дія – це позначити тестовий сегмент новою міткою, але можуть бути й інші дії. У кожен момент часу текстовому сегменту зіставляється з першого слова речення. Якщо зразок може бути підтверджено більш ніж одному сегменту, то вибирається найбільш довгий зіставлений сегмент. Якщо таких сегментів декілька, то обирається перший. При зіставленні виконуються дії, асоційовані з цим зразком. Якщо не вдалося зіставити жоден зразок, то зіставлення повторюється, починаючи з наступного слова в реченні. Якщо сегмент зіставлений із зразком, то зіставлення повторюється, починаючи з наступного слова після сегмента. Процес триває до кінця речення.

Основною метою зіставлення із зразками є виділення в тексті сутностей, зв'язків і подій. Всі вони можуть бути перетворені в деякі структури, які можуть аналізуватися стандартними методами Data Mining [5].

6 Національний рівень досліджень і розробок за темою

Семантичні мережі - модель подання знань, яка найбільш близька до природної мови [6]. Семантична мережа являє собою орієнтований граф з вершинами, яким відповідають об'єкти, поняття чи ситуації, і дугами, які можуть бути визначені різними методами, що характеризують відносини між об'єктами. До переваг семантичних мереж можна віднести великі виразні можливості; наочність системи знань, представленої графічно; близькість до природної мови, відповідність сучасним уявленням про організацію довготривалої пам'яті людини; легке настроювання. Негативними моментами використання мережевої моделі є такі факти: ця модель не дає чіткого уявлення про структуру предметної області, яка їй відповідає, тому формування і модифікація такої моделі скрутні; мережеві моделі являють собою пасивні структури, для обробки яких необхідний спеціальний апарат формального виводу і планування; складність пошуку і виведення на семантичних мережах; наявність множинних відносин між елементами мережі. [7]

Семантичні мережі забезпечують подання предметної області у вигляді орієнтованого графа, вершинами якого виступають об'єкти, а ребрами - зв'язки між ними. Зв'язок між об'єктами мережевої моделі висловлює мінімальний обсяг знань, найпростіший факт, що відноситься до двох понять. Основа семантичної мережі - це екземпляри або об'єкти, поняття або класи, атрибути, відносшення або зв'язку [8].

Об'єкти - це основні елементи семантичної мережі, які можуть являти собою як фізичні об'єкти, так і абстрактні. Онтологія може обійтися і без конкретних об'єктів. Однак, однією з головних цілей онтології є класифікація таких об'єктів, тому вони також включаються. Класи - це абстрактні групи, колекції або набори об'єктів. Вони можуть включати в себе екземпляри, інші класи, або ж поєднання і того, й іншого.

Атрибути характеризують об'єкти в онтології. Кожен атрибут має, принаймні, ім'я і значення, і використовується для зберігання інформації, яка є специфічною для об'єкта і прив'язана до нього. Зв'язки - це специфічний компонент мережі, який визначає залежність або відношення об'єктів між собою.

Побудова семантичної моделі починається з виділення складових елементів, що виступають у вигляді об'єктів опису. Виходячи зі змісту технічного завдання (предметної області) типового науково-технічного проекту. Слід зазначити, що кожен елемент опису може бути одиничним чи представляти групу елементів.

На основі аналізу елементів мережі та їх взаємозв'язків формується структура елементів семантичної моделі змісту проекту. Структура, використана при розробці семантичної моделі опису основних об'єктів, включає опис атрибутів вузлів мережі і видів зв'язків.

Далі проводиться ряд процедур, наведених нижче.

1.Визначення набору атрибутів вузлів та зв'язків семантичної мережі.

2.Виділення класів і об'єктів.

3.При описі елементів виділяються певні типи об'єктів.

4.Виділення семантичних типів.

5.Визначення типів зв'язків, що використовуються для побудови семантичної мережі [9].

Метод семантичного аналізу тексту докладно описується в роботі [10]. В даній роботі міститься опис системи асоціативно-семантичного контекстного аналізу текстів природною мовою, на базі якої реалізована прикладна система моніторингу текстових потоків і корпусів з блоком якісного оцінювання лінгвістичних фокусних об'єктів, призначена для обчислення різних якісних характеристик і параметрів заданих об'єктів і процесів.

Процес асоціативно-семантичного аналізу в системі можна умовно розділити на три етапи:

-перехід від слів і словосполучень речень до відповідних семантичних значень - концептів онтології;

-складання семантичних фреймів речень тексту;

-об'єднання семантичних структур речень тексту в єдину семантичну мережу тексту.

На першому етапі система визначає в семантичній мережі онтологічної бази знань концепт, відповідний коректному значенню слова чи словосполучення в тексті. Це завдання вирішується пошуком того значення слова з безлічі можливих альтернатив концептів, яке семантично є найбільш близьким до значень слів-сусідів з локального оточення даного слова.

Другий етап - побудова семантичного фрейму поточного речення вхідного тексту. Він полягає в заповненні слотів фреймової структури речення.

Третя фаза смислового аналізу - об'єднання ізольованих семантичних фреймів речень у зв'язну семантичну мережу тексту. Об'єднання двох структур в одну мережу виконується за принципом об'єднання семантично тотожних вершин.

На виході системи генерується семантична мережа вхідного тексту, яка містить у вершинах концепти тексту, пов'язані дугами семантичних відносин. Подальша смислова обробка отриманої семантичної мережі тексту дозволяє вирішувати широкий клас задач комп'ютерної лінгвістики.

7 Локальний рівень досліджень і розробок за темою

В роботі студента Донецького національного технічного університету Шатохіна Н.А. «Семантичний аналіз природних мов і його застосування» розглядається аналіз текстів природною мовою. У своїй роботі автор наводить алгоритм методу, що зобрежений нижче.

Крок 1. Морфологічний аналіз. На цьому етапі в тексті розпізнаються слова і роздільники. При цьому складні речення розбиваються на кілька простих. Тип зв'язку між ними запам'ятовується.

Крок 2. Синтаксичний аналіз. На етапі синтаксичного аналізу речення розбирається за складом - в ньому виділяються підмет, присудок і другорядні члени. Також визначається до якої частини мови належить кожен із членів. Для цього використовується словник – структура виду:

Таблиця 1 [11]

Тут:позиція - де розташовується слово, відносно пов'язаного з ним (спереду, ззаду, де-завгодно); додатково - додаткові властивості слова, наприклад, рід, множина або однина і т.і.

Крок 3. Семантичний аналіз. На цьому етапі визначається значення кожного з простих речень. Знаючи, як вони були пов'язані в складному, можна визначити семантику вихідного тексту. Для цього можна використовувати обчислення висловлювань.

Етап семантичного аналізу ділиться на ще три етапи.

Крок 3.1.Реляційний аналіз. За допомогою словника визначаються відносини між членами речення. Для цього береться найлівіше слово і за словником визначається що це за частина мови і з якими членами вона може складатися у відносинах. Якщо можливе відношення всього одне, або його можна визначити за допомогою поля «Позиція», то дане відношення зберігається і здійснюється перехід до наступного слова. Інакше використовуються додаткові властивості.

Крок 3.2. Побудова семантичної мережі. Знаючи відносини між усіма членами речення, будуємо граф, в якому в якості вершин будуть записані слова, а кожне ребро буде відповідати певному відношенню.

Крок 3.3. Визначення семантики речення. Маючи семантичну мережу, можна перевести вхідне речення до запиту, що буде зрозумілим машині [11].

8 Короткий виклад власних результатів

В результаті проведення аналізу раніше існуючих методів побудови семантичних мереж були виділені основні недоліки та проблеми реалізації існуючих алгоритмів. Також була визначена ступінь вивченості проблеми та актуальність використання семантичних мереж. На основі аналізу, вище сказаного, були зроблені висновки. В даний момент ведеться робота над створенням нового методу побудови семантичних мереж, що буде здатний максимально повно вирішувати проблеми даної предметної області.

9 Висновок

Завдання обробки текстів виникли практично відразу після появи обчислювальної техніки. Незважаючи на півстолітню історію досліджень в галузі штучного інтелекту, накопичений досвід обчислювальної лінгвістики, величезний стрибок у розвитку інтернет технологій та суміжних дисциплін, задовільного вирішення більшості практичних задач обробки тексту поки не знайдено. Проте ІТ-індустрія зажадала задовільного рішення деяких задач обробки текстів. Так, розвиток сховищ даних робить актуальними завдання отримання інформації та формування коректно побудованих текстових документів. Бурхливий розвиток інтернету спричинило за собою створення і накопичення величезних обсягів текстової інформації, що потребує створення засобів повнотекстового пошуку і автоматичної класифікації текстів (зокрема, програмні засоби для боротьби зі спамом), і якщо перше завдання більш-менш задовільно вирішено, то до рішення другої поки ще далеко. Моє дослідження буде присвячене вирішенню саме цих проблем.

Останнім часом, завдяки розвитку систем документообігу, наявності безлічі юридичних довідників, що постійно оновлюються, ряду інших факторів, спостерігається накопичення масивів спеціалізованих (але не формалізованих) текстових документів. За аналогією зі структурованою інформацією, коли удосконалення засобів аналізу вилилося в появу сховищ даних, розвиток систем документообігу з часом може зажадати створення повнотекстових сховищ, що дають можливість всебічного аналізу та дослідження неформалізованих текстів природною мовою.

При написанні даного реферату магістерська робота ще не завершена. Остаточне завершення: січень 2012. Повний текст роботи та матеріали за темою можуть бути отримані у автора або його керівника після зазначеної дати.

Література

  1. Аверкин А.Н., Гаазе-Рапопорт М.Г., Поспелов Д.А. Толковый словарь по искусственному интеллекту. – М: Радио и связь, 1992.
  2. Искусственный интеллект в домашних условиях. Семантические сети. [Электронный ресурс] – Режим доступа: http://www.aimatrix.nm.ru/aimatrix/SemanticNetworks.htm.
  3. Электронная библиотека «Википедия». Семантическая сеть. [Электронный ресурс] – Режим доступа: http://ru.wikipedia.org/wiki/Семантическая_сеть.
  4. Панченко А. Построение семантической сети из разнородных данных. [Электронный ресурс] – Режим доступа: http://it-claim.ru/Persons/Panchenko/presentation2010_sept_final.pdf.
  5. Барсегян А.А. Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP / А.А. Барсегян, М.С. Куприянов, В.В. Степаненко, И.И. Холод. – СПб.: БХВ – Петербург, 2007. – С. 194 – 204.
  6. Уотермен Д. Руководство по экспертным системам: пер. с англ. / Д. Уотермен. – М.: Мир, 1989. – 388 с.
  7. Круглов В.В. Искусственные нейронные сети. Теория и практика / В.В. Круглов, В.В. Борисов. – 2-е изд., стереотип. – М.: Горячая линия – Телеком, 2002. – 382 с.
  8. Мельник К.В., Ершова С.И. Проблемы и основные подходы к решению задачи медицинской диагностики. [Электронный ресурс] – Режим доступа: http://www.nbuv.gov.ua/portal/natural/soi/2011_2/melnik.pdf.
  9. Носова Н.Ю. Семантическая модель содержания инновационного технического проекта. [Электронный ресурс] – Режим доступа: http://www.nbuv.gov.ua/portal/natural/soi/2011_4/nosov.pdf.
  10. Марченко А.А., Никоненко А.А. Контекстный семантический анализ текста. Система текстового мониторинга и качественного оценивания фокусного объекта. [Электронный ресурс] – Режим доступа: http://www.nbuv.gov.ua/portal/natural/ii/2008_3/JournalAI_2008_3/Razdel9/02_Marchenko_Nikonenko.pdf.
  11. Шатохин Н.А. Семантический анализ естественных языков и его приложения. [Электронный ресурс] – Режим доступа: http://masters.donntu.ru/2011/fknt/shatokhin/library/article4.htm.