Автор: П.Г. Осминин.
Author: P.G. Osminin
Источник: Журнал: Вестник южно-уральского государственного университета. Серия: лингвистика. Выпуск № 25, ЮУрГУ – Челябинск, 2012. – С. 134–135.
Осминин П.Г. Современные подходы к автоматическому реферированию и аннотированию. Представлен краткий обзор современных научных исследований по автоматическому реферированию и аннотированию.
Ключевые слова: автоматическая обработка текста, автоматическое аннотирование, автоматическое реферирование.
Osminin P.G. Modern approaches to automatic summarization. The article presents a short review of current research on automatic summarization.
Keywords: natural language processing (NLP), automatic summarization.
В современном мире возрастает актуальность применения методов автоматического реферирования и аннотирования. В настоящее время существует проблема информационной перегрузки. Рефераты и аннотации дают возможность установить основное содержание документа и определить необходимость обращения к первоисточнику. Автоматическое реферирование и аннотирование помогает человеку эффективно обрабатывать большие объемы информации.
По способу построения текста методы автоматического реферирования и аннотирования делятся на две группы: извлекающие и генерирующие [1].
При использовании извлекающих методов из исходного текста выделяются наиболее важные фрагменты (предложения, абзацы). При этом данные фрагменты не обрабатывают, а извлекают в таком порядке и виде в каком они приведены в тексте.
Среди извлекающих методов мы рассмотрим следующие: методы на основе машинного обучения и методы на основе теории графов.
Преимуществом методов на основе машинного обучения является удобство тестирования целого ряда признаков важности.
В работе К.Ф. Вонга [2] рассматривается сочетание различных признаков важности предложения: поверхностные признаки (расположение предложения), содержательные (частота слов). Разработаны два алгоритма: алгоритм обучения с учителем и алгоритм частичного обучения. Оценка результатов показала, что лучшим является сочетание поверхностных и содержательных признаков.
В методах на основе теории графов текст представляется в виде графа, узлы которого представляют фрагменты текста (слова, предложения, абзацы), а ребра обозначают отношения между узлами, например семантические отношения.
В работе Л. Плаза [3] представлен метод реферирования, основанный на представлении текста в концепты с последующим преобразованием документа и предложений в граф. Метод использует дополнительные ресурсы – тезаурус медико-биологической области UMLS и программу Meta-Map для преобразования текста в концепты из тезауруса UMLS. Метод состоит из следующих шагов: представление документа в виде графа, кластеризация концептов, выбор предложений.
Генерирующие методы реферирования и аннотирования основаны на лингвистических правилах обработки естественного языка или методах искусственного интеллекта. Генерирующие методы способны создавать новый текст, не представленный явно в тексте исходного документа.
Авторы работы [4] описывают создание аннотаций для числовых данных. Определяются изменения во входных данных (данные сенсоров газовой турбины), происходит их представление в символьном виде, определяются необходимые изменения и происходит генерация текста, описывающего эти изменения. Системе необходимы компонент анализа данных и модуль генерирования текста. Для выполнения этих задач авторы провели процедуру сбора знаний: опрос экспертов по описанию числовых данных, разработку онтологии примеров описания данных.
В работе [5] исследуется проблема автоматической генерации структуры аннотаций. Авторы отмечают, что предикаты и предикатные фразы имеют коммуникативную функцию – предупреждение читателя о содержании аннотированного документа путем явного указания («упоминает», «представляет»). Разработанный алгоритм получает на входе набор извлеченных фрагментов предложений и определяет, как соединить фрагменты в аннотацию. На каждом шаге алгоритм выбирает для вставки в начало текущего фрагмента наиболее подходящий предикат (фразу) из заранее определенного словаря. Оценка результатов показала, что разработанный алгоритм может прогнозировать структуру аннотаций более чем в 60 % случаев.
Таким образом, мы можем сделать вывод, что современные подходы к автоматическому реферированию и аннотированию отличаются разнообразием используемых методов. Материалами для реферата и аннотации могут выступать не только тексты, но и числовые данные [6].