Реферат - Исследование и разработка системы автоматического реферирования текстов на основе ранжирования связных структур

Реферат по теме выпускной работы

Содержание

Введение
1. Актуальность темы
2. Цель и задачи исследования, планируемые результаты
3. Обзор методов автоматического реферирования текста
3.1 Экстракция
3.2 Абстракция
4. Алгоритм ранжирования связных структур
Выводы
Список источников

Введение

Задача аннотирования и реферирования документов является актуальной для любых хранилищ информации: от библиотек до Интернет – порталов. Рост интенсивности информационных потоков современного общества, включая объем информации в Internet, приводит к тому, что оперативно получать ее корректные сводки становится все сложнее. Формирование рефератов и аннотаций вручную требует колоссальных человеческих ресурсов, поэтому задача создания эффективных методов авто¬матического реферирования и аннотирования приобретает все большую важность.

Реферирование и аннотирование документов относятся к числу основных видов информационной деятельности человека в ряду традиционных поисковых технологий. Полученный в результате аналитический обзор представляет собой уникальный информационный, продукт, способный предоставить ученому и специалисту полную и концентрированную информацию с помощью присущих только обзору способов классификации, анализа, оценки и прежде всего – концентрации разбросанного по различным источникам ценного материала. Обобщая данные о научных достижениях, концепциях, сложных задачах и различных подходах к ним, аналитический обзор становится информационной моделью решения поставленной проблемы, развития данной сферы деятельности.

Объём информации, необходимой и используемой в аналитической деятельности, и далее принятии решений, достигает десятков и сотен мегабайт, а в крупных корпоративных и общегосударственных системах и терабайт (десятки и сотни тысяч электронных документов). Традиционные методы обработки электронных документов как автоматизированными информационно – аналитическими системами, так и вручную экспертами – аналитиками оказываются малоэффективными. В 1980–е годы в СССР появляются типовые структуры рефератов (TCP), потребность в которых остро ощущалась в частности при подготовке реферативных журналов в ВИНИТИ. По оценке специалистов этой организации, нарастающие массивы необходимой для обработки информации вызвали появление информационных перегрузок как у работников ВИНИТИ и аналогичных организаций, так и у пользователей. Последнее обстоятельство приводило к неадекватному восприятию информации и грубым ошибкам в процессе принятия решений.

В таких условиях особую актуальность приобретают методы семантического сжатия информации, в первую очередь текстовой. Среди них особое место занимают методы интеллектуального реферирования документов и коллекций документов.

Наряду с информационно – аналитическими отделами и службами в государственных органах, компаниях, банках, политических партиях потребности в средствах автоматического реферирования и аннотиро¬вания испытывают: корпоративные системы документооборота; поисковые машины и каталоги ресурсов Internet; автоматизированные информационно – библиотечные системы; каналы вещания; службы рассылки новостей и др. Применение алгоритмов автоматического реферирования позволяет сократить время на генерацию рефератов и аннотаций, а также экономит время специалистов на изучение источника информации.

Все вышесказанное свидетельствует об актуальности и большой практической значимости выбранной темы.

Создание систем автоматического реферирования считается самой сложной задачей автоматической обработки текста, так как включает в себя необходимость проводить глубокий синтаксический, семантический, лексический и морфологический анализ документа с последующим синтезом для выдачи корректного результата пользователю. И хотя пока не существует систем, способных сформировать полноценный реферат (удалось создать лишь системы квазиреферирования), именно они, вместе с системами автоматического поиска и машинного перевода, помогают сегодня ориентироваться в мировом информационном пространстве и находить нужную нам информацию.

1. Актуальность темы

Применение компьютеров в человеческой деятельности, в том числе и научной, не только ускоряет процессы создания и обработки документов, но и чрезвычайно увеличивает их количество и объем. Сегодня многие пользователи регулярно сталкиваются с необходимостью быстрого просмотра большого объема документов и выбора из них наиболее релевантных и действительно нужных документов. Такая проблема возникает при работе с текстовыми документами, базами данных, разборе электронной почты, а также при поиске информации в сети Интернет. Кроме того, очень часто в крупных организациях и компаниях правила делопроизводства предписывают необходимость сопровождать каждый документ кратким рефератом. Во всех указанных случаях выходом из ситуации является просмотр не всего документа, а его сжатого описания – аннотации или реферата. Это обусловило необходимость проведения исследований в решении проблемы автоматического реферирования полнотекстовых документов.

2. Цель и задачи исследования, планируемые результаты

Целью работы является исследование и усовершенствование существующих алгоритмов автоматического формирования контента реферата текста, позволяющих улучшить смысловое качество реферата.

Основные задачи исследования:

Провести обзор и анализ существующих решений в области автоматического реферирования текстов.
В результате проведенного анализа обосновать выбор использования алгоритмов:
- определения содержания, т.е. выделения ключевых слов, фраз и предложений;
- упорядочивания информации, т. е. составления логической последовательности предложений в реферате;
- обработки предложений, т.е. упрощения и согласования выделенных предложений.

В результате выполнения работы должна быть разработана структура системы автоматического реферирования, выбраны методы, которые необходимо реализовать в ее модулях, намечены пути улучшения качества работы системы.

3. Обзор методов автоматического реферирования текста

С самого начала активного использования ЭВМ первого поколения (т.е. с середины 50–х годов) стали предприниматься попытки решать задачи обработки текста на естественном языке. Одной из первых задач по обработке естественно – языковых текстов при помощи ЭВМ стал машинный перевод. В 1954 году в США с помощью ЭВМ было переведено шестьдесят фраз. Знаменитый «Джорджтаунский эксперимент» [6] произвел неизгладимое впечатление на специалистов. И хотя его результаты оказались весьма скромными, они вселили в ученых уверенность в том, что имеются хорошие перспективы использования ЭВМ для работы с текстами на естественном языке. Почти одновременно с работами по машинному переводу начались исследования по использованию ЭВМ для целей автоматического реферирования научно – технических текстов. Первой работой в области автоматического реферирования текста на естественном языке средствами вычислительной техники принято считать статью Н. P. Luhn «The automatic creation of literature abstracts», опубликованную в «IBM Journal of Research and Development» в 1958 году [7]. С этого момента было предложено множество подходов к решению данной проблемы. На первом этапе исследований наиболее популярными были подходы, основанные на выявлении тех или иных статистических закономерностей распределения терминов в тексте или их взаимного расположения в нем [8, 9, 10]. В дальнейшем исследования в области автоматизированного реферирования сместились в сторону использования внутренних структур текста, выявления той информационной основы, которая организует весь текст. Работы в этом направлении оказали существенное влияние на использование ЭВМ для сочинения искусственных текстов.

Алгоритм реферирования текста

Рис. 1.1 - Алгоритм реферирования текста (анимация: объем 74KB, размер 531x187, количество кадров 9, задержка между кадрами 50мс, задержка между последним и первым кадром 100 мс, количество циклов повторения 5)

В настоящий момент можно выделить два основных подхода к автоматическому реферированию по типу получаемого реферата, это экстракция и абстракция.

3.1 Экстракция

Извлечение из исходного текста наиболее важных и существенных информационных блоков (абзацев, предложений). Первые методы автоматического реферирования были ориентированы на извлечение предложений. При этом наиболее значимые предложения отбирались на основе позиционных (местоположение предложения в документе, разделе, абзаце с определением типа, выделенного элемента, например, заголовок, вступление, заключение) и тематических (наличие ключевых слов в предложении) критериев [11, 12]. Дальнейшее развитие методов» извлечения – предложений привело к использованию более «тонких» маркеров, фиксирующих значимость предложений (например, фраз типа «в итоге», «наше исследование показывает», «важно» и др.) и ориентации на связность элементов текста (учет близости расположения в тексте, частоты повторов и синонимичности, тождества по референту и т.п.) [13]. Методы данного подхода характеризует наличие оценочной функции (Scoring Function) важности информационного блока (предложения), сложность вычисления которой постоянно росла с развитием методов и учетом все большего количества количественных и качественных характеристик текста. Все существующие системы автоматического реферирования промышленного масштаба реализованы в рамках данного подхода. К основному недостатку систем данного класса стоит отнести отсутствие связанности текста получаемого реферата: как правило, выбранные наиболее значимые информационные блоки никак не связаны между собой.

3.2 Абстракция

Генерация реферата с порождением нового текста, содержательно обобщающего первичный документ или документы. Данный подход характеризуется тремя неотъемлемыми этапами: анализ исходного текста с генерацией внутреннего представления, семантическое сжатие внутреннего представления и синтез нового текста (реферата).

4. Алгоритм ранжирования связных структур

Алгоритм Manifold Ranking позволяет описать связную структуру текста при помощи матриц. Изначально алгоритм предполагает выделение элементов (предложений) наиболее близких заданному (теме). Такая интерпретация характерна задаче информационного поиска. Для автоматического реферирования также выделяется набор предложений, наиболее близких заданной теме кластера, однако обязательным является применение алгоритма отсечения «похожих» предложений, что особенно актуально для многодокументного аннотирования. Автоматическое реферирование набора документов с использованием алгоритма ранжирования связных структур состоит из двух этапов:

Вычисление ранга каждого предложения. Этим решается задача ранжирования всех предложений в соответствии с их «близостью» заданной теме кластера.
Применение алгоритма отсечения предложений, наиболее похожих на те, что уже попали в обзорный реферат. Этим решается задача исключения из обзорного реферата одинаковых или близких предложений.
В результате некоторое количество предложений с наибольшим рангом выбирается для результирующего реферата. Порядок следования предложений в общем случае никак не специфицируется подходом. Мной был реализован самый простейший алгоритм выборки предложений в порядке их относительного следования с приоритетом для более коротких предложений, что является естественным для русского языка. Строго говоря, вопрос связности полученного реферата является отдельной темой исследования. Некоторые методы решения представлены в [6].
Информационная значимость: по заданному набору предложений и заданной теме T вычисляется вектор информационной значимости каждого предложения . Информационная значимость предложения определяется как степень близости к заданной теме T. Предполагается, что тема кластера T наиболее полно отражает содержание набора документов и содержит наиболее полный набор лексики.
Информационная новизна: Для каждого предложения определяется его близость с другими предложениями набора. В итоге суммарный рейтинг, который определяет попадание предложения в обзорный реферат, рассчитывается с учетом, как информационной значимости предложения, так и его «информационной новизны».

Выводы

Проведенные исследования методов, лежащих в основе современных систем автоматического реферирования позволили сделать следующие выводы:

в общем случае задача реферирования включает определение тематики документов; выделение ключевых слов и фраз; поиск предложений, содержащих ключевые слова и фразы; синтез на этой основе фраз и предложений, отражающих основные темы, текста реферата.
общая структура всех систем автоматического реферирования текстов неизменна и включает три взаимосвязанных блока: блок анализа входного текста, включая предобработку и подготовку данных; блок взвешивания элементов текста, в качестве которых могут выступать слова, словосочетания, предложения, абзацы, заголовки и др.; блок генерации реферата.

Таким образом, современные системы реферирования способны оказать неоценимую помощь людям, чья профессиональная деятельность связана с анализом большого количества информации. У данного научно–инженерного направления есть много перспективных путей развития.

Список источников

Гайдамак, Е.С. Информационно-аналитическая деятельность специали¬ста в области образования [Электронный ресурс] / Е. С. Гайдамак // Электронный научный журнал «Вестник Омского государственного педагогического университе¬та». - Омск, 2006.
Мелюхин, И. С. Состояние информационно-аналитической деятельности в России [Текст] / И. С. Мелюхин / Журнал «Информационное общество» Вып. №6, - М. ИРИО. -1994. - С. 55-64.
Материалы Лаборатории информационно-системного анализа ГПНТБ СО РАН [Электронный ресурс].
Грачева JI. В. Отчет НИР по теме «Исследования возможности применения метода объектно-ориентированного анализа (МОДА) для составления рефератов/научно-технической литературы» [Текст] / JI. В. Грачева, Ю. С. Гузев, Е. С. Похвалина- М.: ВИНИТИ, 2003.-31 с.
Щуко, Ю. Н. Интеллектуализация процессов современной обработки и преобразования информационной продукции на содержательном уровне [Текст] / Ю. Н. Щуко, JI. В. Грачева // Материалы 7-й международной конференции ВИНИТИ «Информационное общество. Интеллектуальная обработка информации. Информационные технологии». - М.: ВИНИТИ. - С. 347-348.
Hutchins, J. The first public demonstration of machine translation: the Georgetown-IBM system, 7th January 1954. [Электронный ресурс] / J. Hutchins // Paper presented at the AMTA Conference.
Luhn, H.P. The automatic creation of literature abstracts. [Текст] H.P. Luhn// IBM Journal of Research and Development - Вып. 2. - 1958. - С. 159-165.
Поспелов, Д.А. Из истории искусственного интеллекта: история искус-ственного интеллекта до середины 80-х годов [Текст] / Д.А.Поспелов // Новости искусственного интеллекта - Вып. 4, 1994 - С.70 - 90.
Гиляревский, P.C. Методы автоматизированного фрагментирования текста, отражающиеся на характеристике внутреннего состава фрагментов [Текст] / P.C. Гиляревский, С.И. Гиндин // Семиотика и информатика. М.: ВИНИТИ, 1977. - Т.9. - С.35-84.
Леонов, В. П. О методах автоматического реферирования (США 1958¬1974 гг.) [Текст] / В.П.Леонов // Научно-техническая информация, сер.2. - 1975. - №6.- С.16-20.
Пиотровский, Р.Г. Текст, машина, человек [Текст]: монография / Р.Г. Пиотровский. - Л.: Наука, 1975. - 327с.
Пиотровский, Р.Г. Инженерная лингвистика и теория языка [Текст]: монография / Р.Г. Пиотровский. - Л. : Наука, 1979. - 112 С.
Яцко, В.А. Симметричное реферирование: теоретические основы и методика [Текст] / В.А. Яцко // НТИ. Сер. 2. - 2002. - №5. - С. 18-28.
Зубов, A.B. Автоматическое построение табличного реферата группы текстов одной тематики / А.В.Зубов.// Материалы конференции «Диалог-2005».
Зубов, A.B. Информационные технологии в лингвистике [Текст]: монография / А.В.Зубов. - М.: Академия, 2004. - 208 с.
Преображенский, А.Б. Состояние развития систем естественно-языкового общения [Текст] / А. Б. Преображенский // Сб. Искусственный интеллект. - М.:Радио и связь,1990. - Т.1. - С.32-64.
Мак Кьюин, К. Дискурсивные стратегии для синтеза текста на естественном языке [Текст]/ К. Мак Кьюин // Новое в зарубежной лингвистике: - М.: - 1989. - Вып. XXIV. - С. 311 - 356.
Гаврилова, Т.А Базы знаний интеллектуальных систем [Текст]: монография / Т!А.Гаврилова, В.Г.Хорошевский. - СПб.: Питер, 2000. - 384 с.
Поспелов, Д.А. Логико-лингвистические модели в системах управления [Текст] монография./ Д.А. Поспелов. М., 1981.- 232 с.

Замечание

На момент написания данного реферата магистерская работа еще является не завершенной. Предполагаемая дата завершения: декабрь 2013 г., ввиду чего полный текст работы, а также материалы по теме могут быть получены у автора или его руководителя только после указанной даты.

Мащенко Никита Геннадиевич

Факультет компьютерных наук и технологий

Кафедра программного обеспечения интеллектуальных систем

Специальность «Программное обеспечение систем»

Исследование и разработка системы автоматического реферирования текстов на основе ранжирования связных структур

Научный руководитель: к.т.н., доц.кафедры ПОИС Ермоленко Татьяна Владимировна