ДонНТУ   Портал магістрів

Реферат за темою випускної роботи

Зміст

Вступ

Завдання анотування та реферування документів є актуальним для будь-яких сховищ інформації: від бібліотек до Інтернет - порталів. Зростання інтенсивності інформаційних потоків сучасного суспільства, включаючи обсяг інформації в Internet, призводить до того, що оперативно отримувати її коректні зведення стає все складніше. Формування рефератів і анотацій вручну вимагає колосальних людських ресурсів, тому завдання з будівлі ефективних методів автоматичного реферування та анотування набуває все більшої важливості.

Реферування та анотування документів відносяться до числа основних видів інформаційної діяльності людини в ряду традиційних пошукових технологій. Отриманий в результаті аналітичний огляд являє собою унікальний інформаційний продукт, здатний надати вченому і спеціалісту повну і концентровану інформацію за допомогою властивих тільки огляду способів класифікації, аналізу, оцінки і насамперед - концентрації розкиданого по різних джерелах цінного матеріалу. Узагальнюючи дані про наукові досягнення, концепції, складні завдання і різні підходи до них, аналітичний огляд стає інформаційною моделлю вирішення поставленої проблеми, розвитку даної сфери діяльності.

Обсяг інформації, необхідної і використовуваної в аналітичній діяльності, і подальшому прийнятті рішень, сягає десятків і сотень мегабайт, а у великих корпоративних і загальнодержавних системах і терабайт (десятки і сотні тисяч електронних документів). Традиційні методи обробки електронних документів як автоматизованими інформаційно - аналітичними системами, так і вручну експертами - аналітиками виявляються малоефективними. У 1980-ті роки в СРСР з'являються типові структури рефератів (TCP), потреба в яких гостро відчувалася зокрема при підготовці реферативних журналів у ВІНІТІ. За оцінкою фахівців цієї організації, наростаючі масиви необхідної для обробки інформації викликали появу інформаційних перевантажень як у працівників ВІНІТІ та аналогічних організацій, так і у користувачів. Остання обставина призводило до неадекватного сприйняття інформації та грубих помилок у процесі прийняття рішень.

У таких умовах особливої актуальності набувають методи семантичного стиснення інформації, в першу чергу текстової. Серед них особливе місце займають методи інтелектуального реферування документів і колекцій документів.

Поруч із інформаційно - аналітичними відділами та службами у державних органах, компаніях, банках, політичні партії потреби в коштах автоматичного реферування та анотування відчувають: корпоративні системи документообігу; пошукових машин і каталоги ресурсів Internet; автоматизовані інформаційно - бібліотечні системи; канали мовлення; служби розсилки новин та інше. Застосування алгоритмів автоматичного реферування дозволяє скоротити час на генерацію рефератів і анотацій, а також заощаджує час фахівців на вивчення джерела інформації.

Все вищесказане свідчить про актуальність і велику практичної значущості обраної теми.

Створення систем автоматичного реферування вважається найскладнішим завданням автоматичної обробки тексту, тому що включає в себе необхідність проводити глибокий синтаксичний, семантичний, лексичний і морфологічний аналіз документа з наступним синтезом для видачі коректного результату користувачеві. І хоча поки не існує систем, здатних сформувати повноцінний реферат (вдалося створити лише системи квазіреферірованія), саме вони, разом з системами автоматичного пошуку і машинного перекладу, допомагають сьогодні орієнтуватися у світовому інформаційному просторі і знаходити потрібну нам інформацію.

1. Актуальність теми

Застосування комп'ютерів в людській діяльності, у тому числі і наукової, не тільки прискорює процеси створення та обробки документів, а й надзвичайно збільшує їх кількість і об'єм. Сьогодні багато користувачів регулярно стикаються з необхідністю швидкого перегляду великого обсягу документів і вибору з них найбільш релевантних і дійсно потрібних документів. Така проблема виникає при роботі з текстовими документами, базами даних, розборі електронної пошти, а також при пошуку інформації в мережі Інтернет. Крім того, дуже часто у великих організаціях та компаніях правила діловодства наказують необхідність супроводжувати кожен документ коротким рефератом. У всіх зазначених випадках виходом з ситуації є перегляд не всього документа, а його стисненого опису - анотації або реферату. Це зумовило необхідність проведення досліджень у вирішенні проблеми автоматичного реферування повнотекстових документів.

2. Мета і задачі дослідження та заплановані результати

Метою роботи є дослідження та удосконалення існуючих алгоритмів автоматичного формування контенту реферату тексту, що дозволяють поліпшити смислове якість реферату.

Основні завдання дослідження:

  1. Провести огляд та аналіз існуючих рішень в області автоматичного реферування текстів.
  2. У результаті проведеного аналізу обгрунтувати вибір використання алгоритмів:
    • визначення змісту, тобто виділення ключових слів, фраз і пропозицій;
    • впорядкування інформації, тобто складання логічної послідовності пропозицій в рефераті;
    • опрацювання пропозицій, тобто спрощення та узгодження виділених пропозицій.

В результаті виконання роботи повинна бути розроблена структура системи автоматичного реферування, обрані методи, які необхідно реалізувати в її модулях, намічені шляхи поліпшення якості роботи системи.

3. Огляд методів автоматичного реферування тексту

З самого початку активного використання ЕОМ першого покоління (тобто з середини 50 - х років) стали робитися спроби вирішувати задачі обробки тексту на природній мові. Однією з перших завдань з обробки природно - мовних текстів за допомогою ЕОМ став машинний переклад. У 1954 році в США за допомогою ЕОМ було переведено шістдесят фраз. Знаменитий „Джорджтаунський експеримент” [6] справив незабутнє враження на фахівців.І хоча його результати виявилися досить скромними, вони вселили в вчених впевненість у тому, що є хороші перспективи використання ЕОМ для роботи з текстами на природній мові. Майже одночасно з роботами з машинного перекладу почалися дослідження з використання ЕОМ для цілей автоматичного реферування науково - технічних текстів. Першою роботою в області автоматичного реферування тексту на природній мові засобами обчислювальної техніки прийнято вважати статтю Н. P. Luhn „The automatic creation of literature abstracts”, опубліковану в „IBM Journal of Research and Development” в 1958 році[7].З цього моменту було запропоновано безліч підходів до вирішення даної проблеми. На першому етапі досліджень найбільш популярними були підходи, засновані на виявленні тих чи інших статистичних закономірностей розподілу термінів у тексті або їх взаємного розташування в ньому[8, 9, 10]. Надалі дослідження в галузі автоматизованого реферування змістилися в бік використання внутрішніх структур тексту, виявлення тій інформаційної основи, яка організовує весь текст. Роботи в цьому напрямку зробили істотний вплив на використання ЕОМ для твору штучних текстів.

Алгоритм рефрування тексту

Рисунок 1.1 - Алгоритм рефрування тексту (анімация: обсяг 74KB, розмір 531x187, кількість кадрів 9, затримка між кадрами 50мс, затримка між останнім і першим кадром 100 мс, кількість циклів повторення 5)

На даний момент можна виділити два основних підходи до автоматичного реферуванню за типом одержуваного реферату, це екстракція і абстракція.

3.1 Екстракція

Витяг з вихідного тексту найбільш важливих і суттєвих інформаційних блоків (абзаців, речень). Перші методи автоматичного реферування були орієнтовані на вилучення пропозицій.При цьому найбільш значущі пропозиції відбиралися на основі позиційних (місце розташування пропозиції в документі, розділі, абзаці з визначенням типу, виділеного елементу, наприклад, заголовок, набрання, ув'язнення) і тематичних (наявність ключових слів у реченні) критеріїв [11, 12]. Подальший розвиток методів »вилучення - пропозицій призвело до використання більш „тонких” маркерів, які фіксують значимість пропозицій (наприклад, фраз типу „в результаті”,„Наше дослідження показує”, „важливо” тощо) та орієнтації на зв'язність елементів тексту (облік близькості розташування в тексті, частоти повторів та синонімічності, тотожності за референту тощо)[13]. Методи даного підходу характеризує наявність оціночної функції (Scoring Function) важливості інформаційного блоку (пропозиції), складність обчислення якої постійно зростала з розвитком методів і урахуванням все більшої кількості кількісних і якісних характеристик тексту.Всі існуючі системи автоматичного реферування промислового масштабу реалізовані в рамках даного підходу. До основного недоліку систем даного класу варто віднести відсутність пов'язаності тексту одержуваного реферату: як правило, обрані найбільш значимі інформаційні блоки ніяк не пов'язані між собою.

3.2 Абстракція

Генерація реферату з породженням нового тексту, змістовно узагальнюючого первинний документ або документи. Даний підхід характеризується трьома невід'ємними етапами: аналіз вихідного тексту з генерацією внутрішнього подання, семантичне стиснення внутрішнього уявлення і синтез нового тексту (реферату).

4. Алгоритм ранжирування зв'язкових структур

Алгоритм Manifold Ranking дозволяє описати зв'язну структуру тексту за допомогою матриць.Спочатку алгоритм передбачає виділення елементів (пропозицій) найбільш близьких заданому (темі).Така інтерпретація характерна завданню інформаційного пошуку. Для автоматичного реферування також виділяється набір пропозицій, найбільш близьких заданій темі кластера, однак обов'язковим є застосування алгоритму відсікання „подібні” пропозицій, що особливо актуально для багатодокументного анотування. Автоматичне реферування набору документів з використанням алгоритму ранжирування зв'язкових структур складається з двох етапів:

  1. Обчислення рангу кожної пропозиції. Цим вирішується завдання ранжирування всіх пропозицій відповідно до їх „близькістю” заданій темі кластеру.
  2. Застосування алгоритму відсікання пропозицій, найбільш схожих на ті, що вже потрапили в оглядовий реферат. Цим вирішується завдання виключення з оглядового реферату однакових або близьких пропозицій.

    У результаті деяка кількість пропозицій з найбільшим рангом вибирається для результуючого реферату. Порядок проходження пропозицій в загальному випадку неможливо специфицируется підходом. Мною був реалізований самий найпростіший алгоритм вибірки пропозицій в порядку їх відносного прямування з пріоритетом для більш коротких речень, що є природним для російської мови.Строго кажучи, питання зв'язності отриманого реферату є окремою темою дослідження.

  3. Інформаційна значимість: по заданому набору пропозицій і заданій темі T обчислюється вектор інформаційної значущості кожної пропозиції. Інформаційна значимість пропозиції визначається як ступінь близькості до заданої теми T. Передбачається, що тема кластера T найбільш повно відображає зміст набору документів і містить найбільш повний набір лексики.

    Інформаційна новизна: Для кожної пропозиції визначається його близькість з іншими пропозиціями набору. У підсумку сумарний рейтинг, який визначає потрапляння пропозиції в оглядовий реферат, розраховується з урахуванням, як інформаційної значущості пропозиції, так і його „інформаційної новизни”.

Висновки

Проведені дослідження методів, що лежать в основі сучасних систем автоматичного реферування дозволили зробити наступні висновки:

Таким чином, сучасні системи реферування здатні надати неоціненну допомогу людям, чия професійна діяльність пов'язана з аналізом великої кількості інформації. У даного науково-інженерного напрямку є багато перспективних шляхів розвитку.

Список источников

  1. Гайдамак, Е.С. Информационно-аналитическая деятельность специали¬ста в области образования [Электронный ресурс] / Е. С. Гайдамак // Электронный научный журнал «Вестник Омского государственного педагогического университе¬та». - Омск, 2006.
  2. Мелюхин, И. С. Состояние информационно-аналитической деятельности в России [Текст] / И. С. Мелюхин / Журнал «Информационное общество» Вып. №6, - М. ИРИО. -1994. - С. 55-64.
  3. Материалы Лаборатории информационно-системного анализа ГПНТБ СО РАН [Электронный ресурс].
  4. Грачева JI. В. Отчет НИР по теме «Исследования возможности применения метода объектно-ориентированного анализа (МОДА) для составления рефератов/научно-технической литературы» [Текст] / JI. В. Грачева, Ю. С. Гузев, Е. С. Похвалина- М.: ВИНИТИ, 2003.-31 с.
  5. Щуко, Ю. Н. Интеллектуализация процессов современной обработки и преобразования информационной продукции на содержательном уровне [Текст] / Ю. Н. Щуко, JI. В. Грачева // Материалы 7-й международной конференции ВИНИТИ «Информационное общество. Интеллектуальная обработка информации. Информационные технологии». - М.: ВИНИТИ. - С. 347-348.
  6. Hutchins, J. The first public demonstration of machine translation: the Georgetown-IBM system, 7th January 1954. [Электронный ресурс] / J. Hutchins // Paper presented at the AMTA Conference.
  7. Luhn, H.P. The automatic creation of literature abstracts. [Текст] H.P. Luhn// IBM Journal of Research and Development - Вып. 2. - 1958. - С. 159-165.
  8. Поспелов, Д.А. Из истории искусственного интеллекта: история искус-ственного интеллекта до середины 80-х годов [Текст] / Д.А.Поспелов // Новости искусственного интеллекта - Вып. 4, 1994 - С.70 - 90.
  9. Гиляревский, P.C. Методы автоматизированного фрагментирования текста, отражающиеся на характеристике внутреннего состава фрагментов [Текст] / P.C. Гиляревский, С.И. Гиндин // Семиотика и информатика. М.: ВИНИТИ, 1977. - Т.9. - С.35-84.
  10. Леонов, В. П. О методах автоматического реферирования (США 1958¬1974 гг.) [Текст] / В.П.Леонов // Научно-техническая информация, сер.2. - 1975. - №6.- С.16-20.
  11. Пиотровский, Р.Г. Текст, машина, человек [Текст]: монография / Р.Г. Пиотровский. - Л.: Наука, 1975. - 327с.
  12. Пиотровский, Р.Г. Инженерная лингвистика и теория языка [Текст]: монография / Р.Г. Пиотровский. - Л. : Наука, 1979. - 112 С.
  13. Яцко, В.А. Симметричное реферирование: теоретические основы и методика [Текст] / В.А. Яцко // НТИ. Сер. 2. - 2002. - №5. - С. 18-28.
  14. Зубов, A.B. Автоматическое построение табличного реферата группы текстов одной тематики / А.В.Зубов.// Материалы конференции «Диалог-2005».
  15. Зубов, A.B. Информационные технологии в лингвистике [Текст]: монография / А.В.Зубов. - М.: Академия, 2004. - 208 с.
  16. Преображенский, А.Б. Состояние развития систем естественно-языкового общения [Текст] / А. Б. Преображенский // Сб. Искусственный интеллект. - М.:Радио и связь,1990. - Т.1. - С.32-64.
  17. Мак Кьюин, К. Дискурсивные стратегии для синтеза текста на естественном языке [Текст]/ К. Мак Кьюин // Новое в зарубежной лингвистике: - М.: - 1989. - Вып. XXIV. - С. 311 - 356.
  18. Гаврилова, Т.А Базы знаний интеллектуальных систем [Текст]: монография / Т!А.Гаврилова, В.Г.Хорошевский. - СПб.: Питер, 2000. - 384 с.
  19. Поспелов, Д.А. Логико-лингвистические модели в системах управления [Текст] монография./ Д.А. Поспелов. М., 1981.- 232 с.

Зауваження

На момент написання даного реферату магістерська робота ще є не завершеною. Передбачувана дата завершення: грудень 2013 р., через що повний текст роботи, а також матеріали по темі можуть бути отримані у автора або його керівника тільки після зазначеної дати.