Назад в библиотеку

Исследование и решение задачи автоматического реферирования текстов

Автор: Стуликова Н.В.
Источник: Будет опубликовано в сборнике тезисов X Всеукраинской научно-методической конференции студентов и молодых ученых «Прикладна лінгвістика – 2014: проблеми та рішення – Николаев, 2014.

Аннотация

В данной работе излагаются основные положения по исследованию и решению задачи автоматического реферирования текста, позволяющих улучшить смысловое качество реферата и повысить эффективность процессов обработки данных.


Постановка задачи. На современном этапе развития общества время является самым критическим ресурсом для человека. Человеку постоянно приходиться иметь дело с большим количеством различной информации, которую необходимо своевременно обрабатывать. Значительная часть такой информации представлена текстами на естественном языке. В случае, когда документов оказывается слишком много и человек не способен внимательно прочитать их в отведенное для этого время, на помощь приходят системы автоматического реферирования текстовых документов. Таким образом, разработка алгоритмов автоматического реферирования текстов не только не теряет своей актуальности, а напротив, становится все более необходимым в связи с постоянно возрастающим объемом текстовых данных.

Целью работы является исследование и решение задачи автоматического реферирования текста с применением технологий на основе нечеткой логики, которые позволят улучшить смысловое качество реферата и повысить эффективность процессов обработки данных и знаний в компьютерных системах и сетях.

Основные результаты исследований. Рефератом называется связный текст, который кратко выражает не только центральную тему или предмет какого-либо документа, но и цель, применяемые методы, основные результаты описанного исследования или разработки [1, с. 436]. Рефераты обычно составляют к научно-техническим документам (научным книгам, статьям, патентам на изобретение и т.п.). Реферат акцентирует внимание читателя на новых сведениях и определяет целесообразность его обращения к исходному документу. Он помогает человеку ориентироваться в информационных потоках, оперативно отбирать для себя наиболее ценную и полезную информацию. Процесс составления реферата называется реферированием. Составление реферата текста с помощью компьютера называется автоматическим реферирование.

По способам выделения из исходных текстов ключевых словосочетаний и предложений различают несколько методов автоматического реферирования текстов. Наиболее известны следующие три группы методов: статистические; позиционные; логико-семантические [2, с. 28-37].

Суть статистической группы методов заключается в том, что ключевыми словами считаются такие знаменательные слова текста, которые с учетом всех синонимов встречаются в тексте наибольшее число раз; ключевым предложением считается предложение текста, которое имеет несколько ключевых слов и содержит ключевые слова на небольшом расстоянии друг от друга. В позиционных методах автоматического реферирования ключевым предложением считается предложение, входящее в заголовок, подзаголовок, начало или конец какой-то части текста или всего текста. Логико-семантические методы опираются на исследование структуры и семантики текстов. Существует несколько вариантов этих методов, но цель их одна – выделить из конкретного текста предложения с наибольшим функциональным весом. Величина эта зависит от многих факторов: наличия в исследуемом предложении специальных семантически значимых слов, связи этого предложения с другими предложениями текста, синтаксического типа самого предложения и т.д.

Процесс реферирования распадается на несколько этапов: начальный анализ исходного текста, определение его характерных фрагментов, семантический разбор текста, анализ содержания документа и формирование реферата. Большинство современных работ концентрируются вокруг разработанной технологии реферирования одного документа.

Настраиваемый алгоритм предполагает реферирование текста с любым коэффициентом сокращения исходного текста и возможностью изменения параметров алгоритма, что позволит улучшить смысловое качество реферата и повысить эффективность процесса обработки.

Выводы. В работе проведено исследование существующих подходов к автоматическому реферированию текстов, и выявлена потребность в применение современных технологий в данной области, предложен настраиваемый алгоритм реферирования текстов на русском языке.


СПИСОК ЛИТЕРАТУРЫ

  1. Михайлов А.И. Научные коммуникации и информатика / А.И. Михайлов, А.И. Черный, Р.С. Гиляревский. – М.: Наука, 1976. – 435 с.
  2. Луканин А.В. Автоматическая обработка естественного языка / А.В. Луканин; М-во образования и науки Российской Федерации, Южно-Уральский гос. ун-т, Каф. "Общая лингвистика". – Челябинск: Изд. центр ЮУрГУ, 2011. – 70 с.