Автор: Стуликова Н.В.
Источник: Будет опубликовано в сборнике тезисов X Всеукраинской научно-методической конференции студентов и молодых ученых «Прикладна лінгвістика – 2014: проблеми та рішення – Николаев, 2014.
В данной работе излагаются основные положения по исследованию и решению задачи автоматического реферирования текста, позволяющих улучшить смысловое качество реферата и повысить эффективность процессов обработки данных.
Постановка задачи. На современном этапе развития общества время является самым критическим ресурсом для человека. Человеку постоянно приходиться иметь дело с большим количеством различной информации, которую необходимо своевременно обрабатывать. Значительная часть такой информации представлена текстами на естественном языке. В случае, когда документов оказывается слишком много и человек не способен внимательно прочитать их в отведенное для этого время, на помощь приходят системы автоматического реферирования текстовых документов. Таким образом, разработка алгоритмов автоматического реферирования текстов не только не теряет своей актуальности, а напротив, становится все более необходимым в связи с постоянно возрастающим объемом текстовых данных.
Целью работы является исследование и решение задачи автоматического реферирования текста с применением технологий на основе нечеткой логики, которые позволят улучшить смысловое качество реферата и повысить эффективность процессов обработки данных и знаний в компьютерных системах и сетях.
Основные результаты исследований. Рефератом называется связный текст, который кратко выражает не только центральную тему или предмет какого-либо документа, но и цель, применяемые методы, основные результаты описанного исследования или разработки [1, с. 436]. Рефераты обычно составляют к научно-техническим документам (научным книгам, статьям, патентам на изобретение и т.п.). Реферат акцентирует внимание читателя на новых сведениях и определяет целесообразность его обращения к исходному документу. Он помогает человеку ориентироваться в информационных потоках, оперативно отбирать для себя наиболее ценную и полезную информацию. Процесс составления реферата называется реферированием. Составление реферата текста с помощью компьютера называется автоматическим реферирование.
По способам выделения из исходных текстов ключевых словосочетаний и предложений различают несколько методов автоматического реферирования текстов. Наиболее известны следующие три группы методов: статистические; позиционные; логико-семантические [2, с. 28-37].
Суть статистической группы методов заключается в том, что ключевыми словами считаются такие знаменательные слова текста, которые с учетом всех синонимов встречаются в тексте наибольшее число раз; ключевым предложением считается предложение текста, которое имеет несколько ключевых слов и содержит ключевые слова на небольшом расстоянии друг от друга. В позиционных методах автоматического реферирования ключевым предложением считается предложение, входящее в заголовок, подзаголовок, начало или конец какой-то части текста или всего текста. Логико-семантические методы опираются на исследование структуры и семантики текстов. Существует несколько вариантов этих методов, но цель их одна – выделить из конкретного текста предложения с наибольшим функциональным весом. Величина эта зависит от многих факторов: наличия в исследуемом предложении специальных семантически значимых слов, связи этого предложения с другими предложениями текста, синтаксического типа самого предложения и т.д.
Процесс реферирования распадается на несколько этапов: начальный анализ исходного текста, определение его характерных фрагментов, семантический разбор текста, анализ содержания документа и формирование реферата. Большинство современных работ концентрируются вокруг разработанной технологии реферирования одного документа.
Настраиваемый алгоритм предполагает реферирование текста с любым коэффициентом сокращения исходного текста и возможностью изменения параметров алгоритма, что позволит улучшить смысловое качество реферата и повысить эффективность процесса обработки.
Выводы. В работе проведено исследование существующих подходов к автоматическому реферированию текстов, и выявлена потребность в применение современных технологий в данной области, предложен настраиваемый алгоритм реферирования текстов на русском языке.