Русский   English
ДонНТУ   Портал магістрів

Реферат за темою випускної роботи

Зміст

Вступ

Використання комп'ютерів і поява мережі Internet дають можливість швидко отримувати і публікувати будь-яку інформацію, що, з одного боку, прискорює пошук необхідних даних і підвищує ефективність роботи людини з різними видами інформації, але, з іншого боку, такий розвиток інформаційних технологій зумовив перехід суспільства до нового типу - інформаційного. У таких умовах обсяги інформації виросли в десятки разів і продовжують рости далі, перевищуючи людські можливості сприймати і обробляти таку кількість інформації.

Основну частину знань людина отримує шляхом аналізу, порівняння та синтезу інформації з різних джерел, найчастіше представлених текстом. Обсяг нових знань, що отримує людина в процесі вивчення текстів, доходить до 85 %. Науково-технічний прогрес призвів до появи великої кількості публікацій (книг, статей тощо, що стосуються різних проблем науки, техніки, освіти, і фахівці не встигають стежити за новітньою літературою зі своєї області знання. Відкриті джерела інформації дозволяють отримати доступ до великої кількості різних публікацій, що призводить до появи проблеми ефективної роботи з величезними обсягами даних.

Реферування тексту є складним видом інтелектуальної діяльності. Складання людиною рефератів займає багато часу. Процес автоматичного реферування текстової інформації дозволяє замінити трудомісткий процес вилучення важливої інформації людиною. Формування важливого змісту оригінальних текстів у вигляді рефератів в кілька разів підвищує швидкість аналізу текстових документів.

1. Актуальність теми

На сучасному етапі розвитку суспільства час є найкритичнішим ресурсом для людини. Людині постійно доводиться мати справу з великою кількістю різноманітної інформації, яку необхідно своєчасно обробляти. Значна частина такої інформації знаходиться у вигляді текстів. У разі, коли документів виявляється занадто багато і людина не здатна уважно прочитати їх у відведений для цього час, на допомогу приходять системи автоматичного реферування текстових документів.

Реферування текстів є однією з найважливіших галузей сучасних інформаційних технологій, оскільки кількість інформації, з якою доводиться мати справу людині, постійно зростає і настає час, коли опрацювати весь необхідний матеріал стає просто неможливим. Таким чином, розробка алгоритмів автоматичного реферування текстів не тільки не втрачає своєї актуальності, а навпаки, стає все більш необхідною у зв'язку з постійно зростаючим обсягом текстових даних.

2. Мета і задачі дослідження та заплановані результати

Метою цієї роботи є дослідження задачі автоматичного реферування тексту та пошук нових підходів до рішення цієї задачі з застосуванням технологій на основі нечіткої логіки. Система автоматичного реферування тексту, що проектується, дозволить поліпшити смислову якість реферату та підвищити ефективність процесів обробки даних і знань в комп'ютерних системах, а також дозволить краще працювати з текстами різного жанру, різної складності термінології та об'єму.

Основні завдання дослідження:

В результаті виконання роботи має бути розроблена структура системи автоматичного реферування тексту, обрані методи і розроблені алгоритми, які необхідно реалізувати в її модулях, а також намічені шляхи поліпшення якості роботи розробленої системи.

3. Огляд існуючих методів автоматичного реферування

3.1 Методи автоматичного реферування


Історія застосування обчислювальної техніки для реферування налічує вже більше сорока років і пов'язана з іменами таких дослідників, як Г.П. Лун [1], В.Є. Берзон [2], І.П. Севбо [3], Е.Ф. Скороходько [4], В.П. Леонов [5], Р.Г. Піотровський [4] і багато інших. За ці роки були вироблені численні підходи до вирішення даної проблеми [6].

Автоматичне реферування (Automatic Text Summarization) - вилучення найбільш важливих відомостей з одного або декількох документів і генерація на їх основі лаконічних та інформаційно-насичених звітів. Існує два напрямки автоматичного реферування – квазіреферування і короткий виклад змісту. Короткий виклад вихідного матеріалу грунтується на виділенні з текстів за допомогою методів штучного інтелекту і спеціальних інформаційних мов найбільш важливої інформації та створенні нових текстів, що змістовно узагальнюють первинні документи [7].

Квазіреферування засноване на екстракції з первинних документів за допомогою певних формальних ознак «найбільш інформативних» фраз (фрагментів), сукупність яких утворює деякий екстракт (квазіреферат). Власне автоматичне реферування засноване на вилученні з текстів за допомогою спеціальних інформаційних мов найбільш суттєвої інформації і породженні нових текстів (рефератів), більшою менш ізоморфних первинним документам (або їх частин) [6].

Квазіреферування володіє тією особливістю, в порівнянні з власне реферування, що грунтується на аналізі поверхнево-синтаксичних відносин у тексті, які виражені в ньому і не вимагають звернення до глибинно-семантичних процесів, вивченість яких ще є недостатньою для опису властивостей будь-якого тексту. Другий напрямок в даний час представлено експериментальними дослідженнями, що поки не мають широкої реалізації [6].

3.2. Екстрактивні методи


Екстрактивний метод передбачає акцент на виділення характерних фрагментів (як правило, речень). Для цього методом зіставлення фразових шаблонів, виділяються блоки з найбільшою лексичною і статистичною релевантністю. Створення підсумкового документу в даному випадку – це з'єднання обраних фрагментів [6].

У більшості методів застосовується модель лінійних вагових коефіцієнтів [8]. Основу аналітичного етапу в цій моделі складає процедура призначення вагових коефіцієнтів для кожного блоку тексту відповідно з такими характеристиками, як розташування цього блоку в оригіналі, частота появи в тексті, частота використання в ключових реченнях, а також показники статистичної значущості. Сума індивідуальних ваг, як правило, визначена після додаткової модифікації відповідно зі спеціальними параметрами налаштування, пов'язаними з кожною вагою, дає загальну вага всього блоку тексту.

Одна група метрик, наприклад, метрика tf.idf, характеризує баланс між частотою появи терміну в документі і частотою його появи в наборі документів (як правило, використовується з іншими метриками частоти і засобами нормалізації довжини) [9].

Цей метод був створений ще в 60-70-х роках, але більшість систем, що підготовляють такого роду конспект на основі витягів, до цих пір використовують підхід, проілюстрований на рисунку 1. Аналіз порівняльних характеристик різних моделей, вироблений з метою визначити продуктивність кожної, продемонструвавши, що локалізацію блоків тексту можна вважати однією з найбільш корисних функцій, особливо в поєднанні з функцією виявлення ключових фраз [6].

Архітектура вилучення фрагментів тексту

Рисунок 1 – Архітектура вилучення фрагментів тексту (реферування без опори на знання)

Звичайно, головна перевага лінійної моделі полягає в простоті її реалізації. Проте виділення речень (або параграфів), що не враховує взаємовідносини між ними, призводить до формування беззв'язних рефератів. Деякі речення можуть виявитися пропущені, або в них можуть зустрічатися «висячі» слова або словосполучення (слово або фраза, які неможливо зрозуміти без іншого слова чи фрази) [6].

Є безліч робіт, в яких робляться спроби вирішити цю проблему, в основному за рахунок різного роду «латок». У ряді підходів створюється спеціальне вікно для попереднього речення реферату, за допомогою якого можна визначити наявність смислового розриву. В інших випадках речення, що містять «висячі » слова, виключаються з реферату. При такому підході ступінь стиснення зменшується, тому що в реферат привноситься стороння інформація. Крім того, коли основний реферат вже сформований, важко відновити вихідний відсоток стиснення [6].

3.2.1. Статистичні методи

3.2.1.1 Метод Луна (Luhn)


Метод, запропонований в 1958 р. Г.П. Луном [1], вважається класичним. Він припустив, що слова, які часто зустрічаються в тексті є найбільш значущими і чим більше слів, що часто зустрічаються, виявляється поруч, тим більш істотну інформацію містить речення.

Головний недолік такого підходу: при використанні тільки частотного критерію повністю ігноруються смислові зв'язку між словами. При такому методі реферування обсяг і якість рефератів повністю залежать від статистики тексту, а речення, що містять найбільш важливу інформацію, можуть взагалі бути не виділені. Однак ці недоліки певною мірою компенсуються простотою аналізу та однорідністю одержуваних рефератів [6].

3.2.1.2 Метод ACSI-Matic (Assistant Chief of Staff for Intelligence, Automatic)


У дослідженні ACSI-Matic, статистичний метод Луна був незначно модифікований [6].

Даний підхід грунтувався на припущенні, що представницькими є слова, частота зустрічі яких перевершує середню частоту слів у документі.

Потім для визначення обсягу реферату загальна кількість відібраних речень, (якщо їх не більше 200) ділиться на 10, і обсяг реферату становить 10 % від загального обсягу документа. Речення, що мають велику вагу, підлягають включенню до реферату, а з середнім – позначаються як «резервні». Нижня межа ваги встановлюється експериментальним шляхом.

При вивченні надмірності інформації в реченнях вводиться наступний критерій: якщо число синонімів і близьких за значенням слів, що зустрілися в двох реченнях перевищувало 25 % від загальної кількості слів у реченні, то такі речення вважалися надлишковими і викреслювалися. У цьому випадку для реферату вибиралися речення з резерву. Цей процес тривав до тих пір, поки не усувалися надлишкові або не закінчувались «резервні» речення. Остаточний набір і представляв собою реферат.

Однак метод ACSI-Matic, незважаючи на вдосконалену процедуру відбору речень, ігнорував смислові зв'язки між словами [6].

3.2.1.3 Метод Освальда


Відмінність цього методу проявлялося в тому, що В. Освальд і його співробітники застосували до відбору речень для включення в реферат інструмент, застосовуваний при індексуванні, а саме: речення аналізованого тексту зіставлялися із заданими переліками слів (або з групами слів, тобто зі словами, об'єднаними за змістом). Для включення в реферат відбиралися речення з найбільшою кількістю збігів з переліком слів, а відібрані речення далі оброблялися за методом Г. Луна. Метод В. Освальда передбачав наступні процедури обробки документів [6]:

3.2.1.4 Методи статистичних асоціацій


Ідея В. Освальда про необхідність включати «мультитерми» була розвинена Л. Дойлом і М. Квілліаном, які застосували для відображення змісту документів асоціативні методи створення семантично пов'язаних груп (пучків) термінів (word clusters) [6].

В якості підстави для асоціювання термінів було запропоновано використовувати їх спільну зустрічаємість в реченнях. На підставі спільної зустрічаємасті слів розраховувався коефіцієнт подібності. Такий метод дозволив використовувати для відображення змісту не тільки основні терміни, але й інші елементи тексту.

Підхід Л. Дойла базувався на статистичних критеріях побудови асоціативних карт за допомогою ЕОМ. Створенню карти передувало створення вихідної матриці (ключові слова тексту) і матриці взаємопов'язаних елементів.

Метод іншого дослідника, М. Квілліана, дещо відрізняється від методу Л. Дойла. На противагу статистичному методу, М. Квілліан запропонував використовувати не асоціативні карти, складені на основі статистичних показників, а семантичні карти. При цьому враховувалися взаємозв'язку не між окремими словами, а між інформативними концептами [6].

3.2.2. Логіко-математичні методи


Методи Едмундсона-Вілліса (Edmundson-Wyllys). У 1961–1963 рр. Г. Едмундсон і Р. Вілліс критично розглянули існуючі способи оцінки якості рефератів: інтуїтивний метод; метод побудови моделі «ідеального» реферату; «анкетний» метод; оцінку пошукових можливостей реферату; метод статистичної кореляції, що застосовується при автоматичній обробці тексту [6].

Подальший розвиток цих методів полягав в обгрунтуванні логіко-математичної концепції відбору речень. У відповідності з цією концепцією , Г. Едмундсон і Р. Вілліс запропонували чотири взаємодоповнюючих методи, які вони назвали «Методом натяку» (Cue method), «Методом ключових слів» (Key method), «Методом заголовку» (Title method) і « Методом визначення місця» (Location method).

Найбільш ефективним виявилося спільне використання методів натяку, заголовка і місцезнаходження (30-60 %). Виходячи з цих результатів, Г. Едмундсон і Р. Вілліс обгрунтували відмову від застосування методу ключових слів для відбору речень у процесі реферування. Результати описаних досліджень становлять інтерес з ряду причин. Зокрема, стало очевидно, що за успіхами попередніх експериментів не пішли за очікувані практичні результати, оскільки ці експерименти проводилися на обмежених масивах спеціально підібраних текстів. Програми, розраховані на подібні тексти, заздалегідь гарантували успіх. Автори особливо звернули увагу на необхідність подальших досліджень по синтаксичному і семантичному аналізі текстів [6].

3.2.3. Дистрибутивний метод


Метод Ерла (Earl) [6]. Експерименти в 1965–1971 рр. під керівництвом Л. Ерла. У ході цих досліджень особлива увага була на лінгвістичні проблеми обробки документальної інформації, зокрема, на роль морфологічної, фонетичної і синтаксичної структури англійської мови. Крім Л. Ерла, до складу групи входили вчені-лінгвісти: Г. Резніков (Resnikoff), Дж. Долбі (Dolby), Г. Робінсон (Robinson), Б. Рудін (Rudin), О. Фіршейн (Firshein) і М. Фішлер (Fischler).

Якщо в ході експерименту група речень, відібраних для аналізу, визнавалася потенційним джерелом індексованих термінів (indexable), то синтаксичні структури цих речень ретельно вивчалися. Дослідження повинно було підтвердити або спростувати схожість отриманих синтаксичних структур з потенційно придатними для індексування синтаксичними структурами речень з заздалегідь складеного списку. Отримані структури, помічені index або nonindex, входили в словник частин мови. Однак перші експерименти показали, що, грунтуючись тільки на аналізі синтаксичних структур, не можна виділити речення для реферату та індексування.

3.2.4. Метод змістовних аспектів


Метод Раша. Метод автоматичного реферування документів (Automatic Document Abstracting Method – ADAM), розроблений групою Дж. Раша і реалізований на ЕОМ IBM–370, передбачав виконання наступних умов [6]:

Включенню в реферат підлягали речення, що містять інформацію про мету і результати дослідження та про висновки автора. Отже, основне завдання полягало в тому, щоб виявити такі речення.

3.2.5. Метод текстових зв'язків


Метод Берзона. Під впливом когнітивної психології вважалось, що інформаційна значимість речення в тексті може визначатися не тільки статистичними властивостями його компонентів, а й характером і числом його зв'язків з іншими реченнями. На цьому принципі побудовано моделі автоматичного реферування, розроблені В.Є. Берзоном [2], а також С.М. Приходько [10], Е.Ф. Скороходько [4], І.П. Севбо [3] та ін.

Згідно з одним з методів для відбору інформаційно найбільш значущих речень задається деяка порогова величина, що виражає число зв'язків. Регулюючи цю величину, можна міняти інформаційну насиченість речень і, отже, обсяг реферату. При цьому характер самих пречень може не прийматися до уваги [6].

Інший, більш сильний варіант цього методу полягає в тому, що в тексті розмежовуються експліцитні і імпліцитні надфразовою одиниці. При цьому виявляється, що основний зміст несе зазвичай перше речення експліцитно сверхфразовом одиниці. Це речення, як правило, є автосемантічним. Інформативність першого речення експліцитно сверхфразовом одиниці зростає при збільшенні довжини цієї одиниці. До числа інформативних також відносяться крайні речення з багаторазовими покриттями, під якими розуміються перекривають межфразовой зв'язку [11].

Облік параметра межфразовой зв'язків робить результуючий реферат більш зв'язковим і цілісним [6].

3.3 Методи з опорою на знання


На відміну від лінійної моделі в методах підбору витримок, для підготовки короткого викладу інформації, необхідні потужні обчислювальні ресурси для систем обробки природних мов(NLP – natural language processing), у тому числі граматики і словники для синтаксичного розбору і генерації природно-мовних конструкцій. Крім того, для реалізації цього методу потрібні деякі онтологічні довідники, що відбивають міркування здорового глузду і поняття, орієнтовані на предметну область, для ухвалення рішень під час аналізу і визначення найбільш важливої інформації [8].

Як показано на рисунку 2, метод формування короткого викладу припускає два основні підходи.

Перший спирається на традиційний лінгвістичний метод синтаксичного розбору речень [6].

У цьому методі застосовується також семантична інформація для анотування дерев розбору. Процедури порівняння маніпулюють безпосередньо деревами з метою видалення і перегрупування частин, наприклад, шляхом скорочення гілок на підставі деяких структурних критеріїв, таких як дужки або вбудовані умовні або підпорядковані речення. Після такої процедури дерево розбору істотно спрощується, стаючи, по суті, структурною "вичавкою" початкового тексту [8].

Два основні підходи методу формування короткого викладу

Рисунок 2 – Два основні підходи методу формування короткого викладу

Другий підхід до складання короткого викладу походить коренями з систем штучного інтелекту і спирається на розуміння природної мови [12]. Синтаксичний розбір також входить складовою частиною в такий метод аналізу, але дерева розбору в цьому випадку не породжуються. Навпаки, формуються концептуальні репрезентативні структури усієї початкової інформації, які акумулюються в текстовій базі знань. В якості структур можуть бути використані формули логіки предикатів або такі представлення, як семантична мережа або набір фреймів.

В процесі перетворення концептуальне представлення зазнає декілька змін. Надмірна і така, що не має прямого відношення до тексту інформація усувається шляхом видалення поверхневих суджень або відсікання концептуальних підграфів. Потім інформація піддається подальшій агрегації шляхом злиття графів(чи шаблонів) або узагальнення інформації, наприклад, за допомогою таксономічних ієрархій стосунків підкласів. В результаті перетворення формується концептуальна репрезентативна структура реферату, по суті, концептуальні "вичавки" з тексту [6].

Наявність цих формальних репрезентативних шарів(структурні і концептуальні "вичавки") відрізняє підхід, заснований на базі знань, від підходу, що не припускає опору на знання. Як видно з рисунків 1 і 2, етап синтезу однаковий для обох підходів: текстовий генератор перетворить структурне або концептуальне представлення в природно-мовну анотацію. Деякі системи надають користувачеві можливість управляти отримуваними "вичавками" методом вказівки, і не припускають етапу генерації, за умови, що початкові тексти надаються разом з їх коротким викладом. Цей тип реферування спирається на заздалегідь певні структури знань, які заздалегідь вказують системі реферування, яку концепцію вважати характернішою, або які концептуальні властивості(ролі або поля) має та або інша концепція. Засіб реферування повністю представляє семантичну інформацію у вигляді зв'язків між вузлами в концептуальному графові, як таксономічні (підклас або екземпляр) або метонімічні(частина) стосунки. В цьому випадку, він також задає напрям і критерії вибору для процедури пошуку або формування висновків. Правила виведення на базі рефератів або загальні схеми виведення(такі як термінологічна класифікація) використовують цю інформацію для визначення інформації, що найбільш точно відбиває сутність тексту. Ця інформація визначає, які ієрархії узагальнення мають бути пройдені і які концептуальні підграфи можуть бути при необхідності стиснуті [8].

4. Огляд існуючих розробок

4.1 Intelligent Text Miner


Продукт фірми IBM Intelligent Miner for Text є набором окремих утиліт, що запускаються з командного рядка або скриптів незалежно один від одного. Ця система є одним з кращих інструментів глибинного аналізу текстів [13].

Ця файлово-орієнтована система використовує статистичний і евристичний підходи до аналізу текстів. Включає п'ять програм, що запускаються незалежно один від одного [14]: ідентифікатор мови; екстрактор характеристик; аннотатор; категоризатор; кластеризатор. Ідентифікатор мови використовує для аналізу характерні для мови частини слів. Екстрактор характеристик витягає з тексту терміни, імена, відношення, багатослівні терміни, дати і вирази, що означають час. Для їх витягання використовуються спеціальні мовні евристики. З метою збільшення коректності обробки користувач може створювати персональний словник. Аннотатор працює за допомогою ранжирування слів і використовує для цього слова, що містяться в назвах документу і заголовках, а також, статистику появи слів у поєднанні із статистикою цих слів в персональному словнику користувача. На відміну від інших програм, категоризатор має бути навчений перед використанням. Для цього заздалегідь статистично обробляється вибірка текстів на задану тему, а з метою коректнішої оцінки тематики вибірки застосовується морфологічний аналіз. Сформована тематична схема далі використовується при аналізі текстів для їх категоризації. Кластеризатор не вимагає навчання і підтримує два типи кластеризації: ієрархічну і бінарних стосунків(попарних зв'язків). Перша формує деревовидну структуру, листя якої відповідає окремим документам, а гілки об'єднують документи у більші множини, ієрархічно вкладені один в одного. У бінарній кластеризації кожен документ може міститися тільки в одному кластері, а кластери можуть зв'язуватися між собою на основі спільності характеристик, виділених екстрактором [15].

4.2 Inxight Summarizer


На ринку є присутньою дуже невелика кількість традиційних програм реферування, тобто таких, які виділяють найбільш вагомі речення з тексту використовуючи статистичні, алгоритми, або слова-підказки. Inxight Summarizer [16] – одна з найбільш відомих комерційно поширюваних систем реферування. Inxight Summarizer був створений в Дослідницькому центрі Ксерокса в Пало Альто. Причин успіху цієї системи декілька:

  1. Наявність одного з найбільш досконалих алгоритмів оцінки якості реферату.
  2. Паралельне використання декількох широко відомих алгоритмів реферування; безпосередній зв'язок між алгоритмами реферування і алгоритмом оцінки якості реферату.
  3. Продаж не готових програмних продуктів, а модулів реферування(динамічних бібліотек для Win32 і Solaris платформ).

Серед комерційних систем також можна відмітити Prosum – систему реферування, розроблену British Telecommunications Laboratories у рамках експериментальної комерційної он-лайн платформи TranSend і є cgi-скриптом, вбудованим у веб-сторінку. Кожен реферат коштує 0,25 пенсів і оплачується за допомогою кредитних карток MicroCredit.

Оскільки інтерес до традиційних систем автоматичного реферування неухильно знижується, багато компаній пропонують інші підходи. Одним з нетрадиційних рішень є використання іменних груп, виділених за допомогою часткових синтаксичних аналізаторів. подібні алгоритми використовуються в програмних продуктах Extractor і TextAnalyst [17].

4.3 Золотий ключик


Це програмна бібліотека, що працює за принципом фільтрації на базі тезауруса. Як вхідні дані, програмі подається довільний текст російською мовою, на стандартному виході програма формує анотацію цього тексту і список рубрик, до яких відноситься цей текст. Як анотація використовуються речення з вхідного тексту, що якнайповніше відбивають тематику тексту. При рубрикації тексту використовується фіксований список заздалегідь визначених рубрик [18].

4.4 TextAnalyst


Програма створена в Московському Науково-виробничому Інноваційному Центрі "Мікросистеми" [17]. TextAnalyst працює тільки з російською мовою, виділяючи іменні групи і будуючи на їх основі семантичну мережу – структуру взаємнозалежностей між іменними групами.

Програма TextAnalyst від Московського Науково-виробничого Інноваційного Центру "Мікросистеми" є інструментом для аналізу змісту текстів, смислового пошуку інформації і формування електронних архівів [19].

Вона також здатна будувати семантичні дерева, але не по об'єктах, а по окремих статтях, внаслідок чого створюється смисловий портрет кожного тексту в термінах основних понять і їх смислових зв'язків у вигляді ієрархії тем і підтем конкретної статті. У TextAnalyst є також модуль, що автоматично генерує реферат текстового документу в термінах найбільш інформативних фраз. Програма не призначена для потокової обробки матеріалів ЗМІ, але може брати з диска файли у форматі txt і rtf і після аналізу тексту зберігати результати в окремому файлі [20].

4.5 МЛ Аннотатор


Програма складає зв'язний реферат документу. Відносний розмір реферату ("коефіцієнт стиснення") задається користувачем. Програма має два режими роботи: власне реферування і виділення ключових слів. У режимі реферування з тексту відбираються речення, що найбільшою мірою характеризують його зміст. У режимі виділення ключових слів робиться вибірка з тексту найбільш інформативних слів. Програма виділяє в тексті значимі і шумові слова, самостійні і залежні речення, визначає семантичну вагу речень і видаляє незначущі фрагменти. Відібрані речення при необхідності злегка перефразовуються [18].

Використовуються спеціальні імовірнісні моделі, машинна морфологія російської мови і інші інтелектуальні алгоритми. Існуючі системи автореферування є дискретними, що дає стимул для створення безперервної(багатодокументної) системи автореферування, що є необхідною для обробки набору Internet-документів у базі даних пошукової системи. У Хакаському державному університеті ім. Н.Ф. Катанова розроблений метод симетричного реферування [21], який дозволяє застосовувати систему автоматичного безперервного реферування в сукупності з автоматичними інформаційно-пошуковими системами для забезпечення достатньої точності і релевантності пошуку.

4.6 Extractor


Програма створена в Інституті Інформаційних Технологій Національної дослідницької Ради Канади. Вона є модулем, що виділяє з представленого йому на вхід тексту найбільш інформативні іменні групи. За умовчанням кількість таких груп – 7 незалежно від довжини тексту. Extractor використовується в програмних продуктах фірм ThinkTank Technologies і Tetranet, а також в пошуковій системі Журналу досліджень в області штучного інтелекту [17].

Висновки


У даній роботі були досліджені існуючі методи та підходи до рішення задачі автоматичного реферування текстів, були проаналізовані їх переваги та недоліки, а також виявлена потреба в застосуванні сучасних технологій у даній області. Проведені дослідження методів, що лежать в основі сучасних систем автоматичного реферування дозволили зробити наступні висновки:

  1. Завдання автоматичного реферування включає в себе наступні підзадачі: виділення ключових слів і фраз, пошук речень, які містять ключові слова і фрази, синтез на цій основі тексту реферату.
  2. Система автоматичного реферування текстів включає в себе виконання трьох основних етапів: аналіз вхідного тексту (попередня обробка, підготовка даних); аналіз змісту документа, при якому визначаються ключові слова, відкидається надлишкова і непотрібна інформація та ін.; складання реферату з інформації, отриманої на попередньому етапі.

Таким чином, для вирішення завдання автоматичного реферування текстів була показана актуальність використання алгоритму на основі нечіткої логіки. При подальшій розробці даної теми слід розглянути також можливі шляхи застосування нечіткої логіки в системах автоматичного реферування текстів, а саме:

  1. Використоання теорії нечітких множин у процесі формування ключових слів, словосполучень і речень, а також на етапі прийняття рішень при автоматичному реферування тексту.
  2. Розробка програмного продукту, що побудований на основі моделі нечіткої логіки для виконання автоматичного реферування тексту.

Перелік посилань


  1. Luhn H. The automatic creation of literature abstracts. In IBM Journal of Research and Development, Vol. 2(2), 1958. – P. 159–165.
  2. Берзон В.Е. Синтаксические сверхфразовые связи и их инженерно-лингвистичекое моделирование / В.Е. Берзон (отв. ред. Р.Г. Пиотровский). – Кишинев: Штиинца, 1984. – 167 с.
  3. Севбо И.П. Структура связного текста и автоматизация реферирования / И.П. Севбо // М.: Наука, 1969. – 135 с.
  4. Скороходько Э.Ф. Семантические сети и автоматическая обработка текста / Э.Ф. Скороходько // К.: Наук. думка, 1983. – 220 с.
  5. Леонов В.П. О методах автоматического реферирования / В.П. Леонов // НТИ. Сер. 2. – 1975. – № 6. – С. 16–20.
  6. Луканин А.В. Автоматическая обработка естественного языка / А.В. Луканин; М-во образования и науки Российской Федерации, Южно-Уральский гос. ун-т, Каф. "Общая лингвистика". – Челябинск: Изд. центр ЮУрГУ, 2011. – 70 с.
  7. Гинкул А.С. Сравнительный анализ существующих систем автоматического реферирования текста / А.С. Гинкул // Політ. сучасні проблеми науки – Киев, 2012. – С. 255.
  8. Хан У. Системы автоматического реферирования / У. Хан, И. Мани // Открытые системы. – 2000. – № 12. – [Электронный ресурс]. – Режим доступа: http://www.osp.ru/os/2000/12/178370.
  9. Jurafsky D. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition / D. Jurafsky, J.H. Martin. — New Jersey: Prentice Hall, 2000. – 934 p.
  10. Приходько С.М. Автоматическое реферирование на основе анализа межфразовых связей / С.М. Приходько, Э.Ф. Скороходько // НТИ. – Сер. 2, № 1, 1982 – С. 27–31.
  11. Богданов В.В., Реферирование / В.В. Богданов // Прикладное языкознание: учебник. – СПб.: Изд-во С.-Петербург. ун-та, 1996. – С. 389–398.
  12. J. Hutchins, «Summarization: Some Problems and Methods» Proc. Informatics 9: Meaning-The Fron-tier of Informatics, K.P. Jones, ed., Aslib, London, 1987. – P. 151–173.
  13. Кутукова. Е.С. Технология Text mining/ Е.С. Кутукова// SWorld: Перспективные инновации в науке, образовании, производстве и транспорте. – Одесса, 2013.
  14. Dan Sullivan. Document Warehousing and Textmining. NY; Wiley publishing house, 2001. – P. 36–38.
  15. Харламов А.А. Автоматический структурный анализ текстов / А. Харламов. //Открытые системы. – 2002. – № 10. – С. 16–22.
  16. Kupiec J., Pederson J. and Chen F. A trainable document summarizer. In Proceedings of the 18th ACM/SIGIR Annual Conference on Research and Development in Information Retrieval, Seattle, 1995. – P. 68–73.
  17. А. Михаилян. Некоторые методы автоматического анализа естественного языка, используемые в промышленных продуктах, 2000. – [Электронный ресурс]. – Режим доступа: http://www.inteltec.ru/publish/articles/textan/natlang.shtml.
  18. Ступин B.C. Система автоматического реферирования методом симметричного реферирования / B.C. Ступин // Компьютерная лингвистика и интеллектуальные технологии. Труды межд. конференции «Диалог 2004». — М.: Наука, 2004. – С. 579–591.
  19. Моніторинг діяльності органів виконавчої влади із застосуванням комп’ютерної системи контент-аналізу електронних ЗМІ / Г. Леліков, В. Сороко, О. Григор’єв, Д. Ланде // Вісн. держ. служби України. – 2002. – № 2. – С. 21–38.
  20. Танатар Н.В., Федорчук А.Г. Интеллектуальные поисково-аналитические системы мониторинга СМИ / Н.В Танатар., А.Г. Федорчук // Научно-практический и теоретический сборник. – Киев, 2008. – 477 с.
  21. Iatsko V. Linguistic Aspects of Summarization // Philologie in Netz – № 18. – 2001. – P. 33–46. – [Электронный ресурс]. – Режим доступа: http://www.fu-berlin.de/phin/phin18/p18t3.htm.

При написанні даного реферату магістерська робота ще не є завершеною. Остаточне завершення: грудень 2014 року. Повний текст роботи та матеріали по темі можуть бути отримані у автора або його керівника після вказаної дати.