Автор: О.А. Черненко
, О.А. Гордеева
Источник: Черненко О.А. Разработка автоматизированной системы семантического анализа текстовой информации / О.А. Черненко, О.А. Гордеева // Сборник трудов III международной конференции и молодежной школы Информационные технологии и нанотехнологии
(ИТНТ-2017) - Самара: Новая техника, 2017. - С. 1800-1804.
В данной статье рассматриваются аспекты применения основных методов семантического анализа текстовой информации: стеммера Портера, частотно-семантического, латентно-семантического и синтаксико-семантического анализа. Разработанная автоматизированная система позволяет анализировать текст с использованием указанных методов. Рассмотрены характерные особенности методов, получены результаты их применения к текстам небольшой сложности. Проведенное исследование позволяет выявить особенности использования указанных методов в соответствии с целями анализа текста.
В настоящее время сложно представить себе эффективную работу с текстовой информацией без использования компьютерной обработки. Одним из наиболее актуальных и постоянно развивающихся видов обработки текста является семантический анализ. В зависимости от поставленных в программной системе критериев, может быть выбран один из нескольких видов семантического анализа, удовлетворяющий этим критериям. Например, если речь идет о поисковом аудите сайта, то критериями выбора метода семантического анализа будут быстрота работы, минимальный объем словаря или его отсутствие. В случае подбора метода анализа для художественных произведений со сложными речевыми оборотами, главным критерием будет являться качество обработки. Соответственно, алгоритм семантического анализа должен выдавать результаты, максимально приближенные к человеческим, и такие параметры как быстрота и объем используемых библиотек не будут играть решающей роли.
Объект исследования представляет собой текст на русском языке, размером не более 20 предложений и однозначно трактуемой для человеческого понимания темой. Цель исследования — на основе разработанной системы семантического анализа текстовой информации проанализировать работу четырех выбранных методов анализа, сравнить такие характеристики методов, например, как эффективность и скорость анализа.
Всю совокупность представленных на сегодняшний день методов анализа текста можно разделить на две группы:
Деление на группы условное, так как в реальных задачах и при решении проблем всегда используется сочетание методов для достижения определенного результата.
В данной работе рассмотрены алгоритмы семантического анализа из обеих групп, наиболее часто применяемые на практике.
Метод частотно-семантического анализа (ЧСА) основан на подсчете частоты встречаемости слов в тексте. Для корректной работы алгоритма вводится несколько уточнений [1]:
Алгоритм работает таким образом: все слова текста сравниваются со словарем, совпавшие заносятся в массив, и далее сравниваются по числу вхождений. Слова с самым большим числом вхождений будет темой текста.
Стемминг это отсечение от слова окончаний и суффиксов, чтобы оставшаяся часть являлась основой для всех грамматических форм слова. Стеммер Портера это алгоритм стемминга, в результате работы которого от исходного слова находится основа. Стеммер может работать только с языками, которые реализуют словоизменение через аффиксы, примерами таких языков являются русский и английский. Основное преимущество данного алгоритма в отсутствии словаря
Вначале вводятся несколько понятий о частях стемматизируемого слова:
гласная-согласная;
гласная-согласная.
Портер в своей статье [2] приводит алгоритм стемматизации слова, состоящий из отсечения приставок, окончаний и суффиксов:
сяили
сь, если они существуют. Далее ищем окончания прилагательных, глаголов и существительных, как только одно из них найдено - оно удаляется;
и, если найдено — удаляем его;
остили
ость, если одно из них найдено - оно удаляется;
нн— удаляем последнюю букву;
ейшили
ейше— удаляем его и снова удаляем последнюю букву, если слово оканчивается на
нн;
ь— удаляем его;
Для определения тематики текста с помощью алгоритма на основе стемминга Портера, необходимо провести стемматизацию всех слов анализируемого текста. В результате будет получен массив основ слов. Слова текста, являющиеся производными от основы с самым частым числом вхождений и будут являться тематикой текста
Латентно-семантический анализ (ЛСА) - это метод обработки информации на естественном языке, анализирующий—— взаимосвязь между коллекцией документов и терминами, в них имеющимися, сопоставляющий некоторые факторы (тематики) всем документам и терминам. В основе метода латентно-семантического анализа лежат принципы факторного анализа. В качестве входной информации ЛСА использует матрицу термы-на-документы (термы — слова или словосочетания) [3]. Элементы этой матрицы содержат веса, учитывающие частоты использования каждого терма в каждом документе. Наиболее распространенный вариант ЛСА основан на использовании разложения диагональной матрицы по сингулярным значениям (SVD — Singular Value Decomposition). С помощью SVD-разложения любая матрица раскладывается во множество ортогональных матриц, линейная комбинация которых является достаточно точным приближением к исходной матрице
Основная идея латентно-семантического анализа состоит в том, что если в качестве матрицы A применялась матрица термы-на-документы, то матрица A, содержащая лишь k первых линейно независимых компонент A, отображает основную структуру различных зависимостей, присутствующих в исходной матрице. Исходя из этого анализируется зависимость между термами и документами из разложения и определяется тематика текста
Синтаксико-семантический анализ ? метод обработки текстовой информации, который заключается в формировании шаблонов для сравнения со словами текста, в результате которого для каждого предложения создается список, состоящий из пар [4]:
Предполагается, что базовые шаблоны формируются из наиболее важных и часто используемых семантических отношений в тексте. Базовым семантическим шаблоном назовем правило, по которому в анализируемом тексте находится семантическое отношение.
С использованием базовых семантических шаблонов производится составление очереди с приоритетом. Очередь с приоритетом используется для хранения слов, являющихся правым аргументом некоторой семантической связи, найденной в анализируемом предложении.
Для определения тематики текста из каждого предложения, исходя из очереди с приоритетом, выбирается слово с наибольшим числом зависимостей и считается число его вхождений в текст. Слово с максимальным числом вхождений и есть тематика текста.
Для проведения исследований результатов применения описанных методов анализа текстов была разработана автоматизированная система. На начальном этапе работы система разбивает текст на слова или предложения, в зависимости от алгоритма, выбранного пользователем, и отправляет их на обработку.
Если был выбран частотно-семантический анализ, система сравнивает слова из текста со словами из словаря и находит среди них слова с максимальным числом вхождений в текст. Далее выводит результат нахождения ядра текста и список слов, не найденных в словаре, которые можно внести в словарь и запустить алгоритм заново.
Если был выбран алгоритм на основе стеммера Портера, система стемматизирует исходные слова и ищет среди них наиболее часто встречающиеся. Таким образом формируется ядро текста в данном алгоритме. При выборе латентно-семантического анализа система составляет матрицу слов-на-предложения из предложений текста и производит с ней SVD преобразование. Далее используются только первые два столбца получившихся матриц. Из первых двух столбцов матрицы V, соответствующей предложениям, выбирается максимум и минимум, что соответствует максимальному и минимальному x и y на координатной плоскости. Таким образом обозначается область, вхождение в которую для точек из первых двух столбцов матрицы U, соответствующей словам, означает включение в ядро текста.
При выборе синтаксико-семантического анализа в каждом предложении слова проверяются на соответствие шаблонам, после чего каждому присваивается определенный вес, в зависимости от шаблона. Чем больше у слова зависимых слов, тем меньше вес и выше приоритет. Далее, в каждом предложении ищется слово с минимальным весом, самые часто встречающиеся формируют ядро текста.
В качестве объектов для исследования были выбраны тексты для сочинений ЕГЭ по русскому языку. Данные тексты были выбраны из-за своей простоты и небольшого размера, а также потому, что они рассчитаны на четкое определение тематики.
В таблице 1 представлено соотношение методов анализа в виде результатов и времени их работы над определенным текстом.
Тему первого текста можно определить как влияние массовой литературы на интеллектуальное развитие человека
.
Ни один из методов не выдал похожих тем, но наиболее близки к ней латентно-семантический и стеммминга Портера.
В статье были рассмотрены методы классификации текстов, такие как стемминг Портера, синтаксикосемантический, частотно-семантический и латентно-семантический анализы. Были приведены результаты анализа текстов небольшой сложности. Из них можно сделать вывод о том, что применение методов определения темы текста зависит от сложности самого текста: чем сложнее текст, тем точнее должен быть анализ. То же относится и к тривиальным текстам: использование на них сложных методов приводит к лишней трате времени и ресурсов, а результат получается избыточным по сравнению с простыми алгоритмами. Таким образом, проведенный анализ показал, что самым эффективным оказался латентно-семантический анализ, наиболее быстрым ? метод стемминга Портера. Также стоит отметить целесообразность применения комбинированных методов анализа текста: например, совмещение метода стемминга Портера и частотно-семантического анализа.