Назад в библиотеку

Методы и модели автоматического извлечения ключевых слов

Автор: С.О.Шереметьева, П.Г.Осминин
Источник: Новые информационные технологии в автоматизированных системах, 2017, Южно-Уральский государственный университет, г.Челябинск

Аннотация

Дается обзор и классификация основных методов автоматического извлечения ключевых слов из текстовых документов, среди которых выделяются статистические и гибридные с использованием корпуса текстов или на основе отдельного документа. Анализируются пре-имущества и недостатки каждого из подходов. Отмечается проблематичность применения статистических методик для флективных языков, таких как русский. Формулируются требования к эффективной модели извлечения ключевых слов из текстов на русском языке и даются конкретные рекомендации для их достижения. Подчеркивается, что для создания эффективных экстракторов ключевых слов следует учитывать лингвистические типы естественных языков (аналитический, флективный, агглютинативный, изолирующий), предметную область (подъязык) и наличие необходимых лингвистических и программных ресурсов. Подход иллюстрируется на примере автоматического экстрактора ключевых слов Lana-Key-RU из русскоязычных статей по математическому моделированию.

Введение

Ключевые слова – это одно- и многокомпо-нентные лексические группы, отражающие содер-жание документа [9]. Автоматическое извлечение ключевых слов представляет собой необходимый этап обработки текста в таких важных приложени-ях как системы автоматического информационного поиска, аннотирования, реферирования и т. д. Од-нако, несмотря на достаточно большое количество исследований, автоматическое извлечение ключе-вых слов представляет собой проблему, которая до сих пор не решена [5, 7, 27, 28]. Проблематичным является автоматическое извлечение многокомпо-нентных ключевых слов, особенно, если делается попытка автоматически извлечь определенные ти-пы лексических групп, например, именные груп-пы. При всех методиках алгоритм верхнего уровня извлечения ключевых слов универсален и включа-ет этапы: а) формирования множества «кандида-тов» в ключевые слова и б) фильтрации этого множества для получения результирующего списка ключевых слов. Достаточно часто до извлечения ключевых слов из текста удаляются стоп-слова. Стоп-слова – это слова, которые не несут никакой смысловой нагрузки (артикли, предлоги, союзы, частицы, местоимения, вводные слова, междоме-тия и т. д.). Различие методик определяется проце-дурами обработки текста на каждом из этапов и количеством необходимых для этих процедур лин-гвистических знаний. Основные типы методов и моделей автоматического извлечения ключевых слов можно разделить на чисто статистические и гибридные. В рамках указанных подходов можно выделить методы, требующие наличия корпуса текстов одной тематики и методы, не требующие такого корпуса текстов.

1.Статистические модели автоматического извлечения ключевых слов

Наиболее простой статистический метод из-влечения ключевых слов предполагает построение множества кандидатов ключевых слов путем ран-жирования всех словоформ или лексем документа по частоте. Фильтрация заключается в отборе в качестве ключевых определенного количества наиболее частотных лексем. Этот метод является первым методом автоматического извлечения клю-чевых слов. Он разрабатывался, например, в рабо-тах Г.П. Луна [23], Р.Г. Пиотровского [3] и широко используется до сих пор. Распространенность ме-тода отбора ключевых слов исключительно на ос-нове частот лексем объясняется его простотой.

При использовании частоты слова в докумен-те в качестве единственного параметра для автома-тического извлечения ключевых слов подсчет об-щей частоты словоформ из парадигмы одной лек-семы чаще всего осуществляется следующим образом: общая частота ключевых слов подсчиты-вается путем сравнения словоформ, нормализо-ванных к одной форме, как правило, к основе или лемме. Автоматическая нормализация словоформы по сути дела представляет собой задачу морфоло-гического анализа и достаточно проблематична сама по себе.

При статистических подходах к извлечению ключевых слов используются простые эвристиче-ские алгоритмы, чаще всего нормализующие сло-воформу к ее квази-основе, отсекая от словоформы определенное количество букв. Такие алгоритмы называют стемминг-алгоритмами, наиболее из-вестным из которых является стемминг-алгоритм Портера [30]. Нормализованные словоформы ран-жируются по частоте и те из них, чья частота выше заданного порога, считаются ключевыми. Ключевые слова, как правило, выдаются в усеченном виде квази-основ. Статистические методы извле-чения многокомпонентных ключевых слов в каче-стве необходимого этапа построения множества кандидатов включают вычисление n-грам [16, 34].

С одной стороны, частота употребления слова несомненно характеризует важность слова для данного документа, но, с другой стороны, ключе-вые слова, как подчеркивали исследователи груп-пы «Статистика речи» Р.Г. Пиотровского, и другие, не всегда являются самыми частотными [2, 32]. Часто именно уникальные термины более точно сигнализируют о теме документа, например, о но-визне изобретения в патентных документах.

Для учета параметров частотности и уникаль-ности лексем текста, для вычисления релевантно-сти ключевых слов документа широко использует-ся метод TF-IDF [17, 31] с применением корпуса одинаковых по тематике документов. Релевант-ность ключевых слов в данном случае определяет-ся как произведение двух мер: частоты слова в до-кументе (TF = Term Frequency) и обратной частоты слова в коллекции документов (IDF = Inverse Document Frequency). Последнее означает количе-ство документов в корпусе, где термин употреблен по крайней мере один раз.

Использование корпуса текстов для повыше-ния корректности извлечения ключевых слов по-лучило достаточно широкое распространение, од-нако отсутствие таких корпусов для каждой кон-кретной предметной области в реальной жизни делает применение таких корпусных моделей и методов весьма проблематичным.

В стремлении более точно отразить содержа-ние документа разрабатываются методики, исполь-зующие в качестве меры релевантности вес лексе-мы, складывающийся из некоторой комбинации значений различных параметров лексем, например, частоты лексемы в документе, расположения в определенной части текста (например, в заголовке или начале параграфа), статистики совместной встречаемости слов в документе/корпусе и их дис-персии [24, 36] или отношения логарифмического правдоподобия [10].

Преимуществами чисто статистического под-хода являются универсальность алгоритмов извле-чения ключевых слов и отсутствие необходимости в трудоемких и времязатратных процедурах по-строения лингвистических баз знаний. Несмотря на указанные преимущества статистических мето-дов извлечения ключевых слов, чисто статистиче-ские методы часто не обеспечивают удовлетвори-тельного качества результатов. При этом область их применения ограничена языками с бедной мор-фологией, такими как английский, где частотность словоформ одной лексемы велика. Чисто статисти-ческие модели извлечения ключевых слов, удовле-творительно работающие, например, на материале английского языка, не пригодны для естественных языков с богатой морфологией, в частности, длярусского языка, где каждая лексема характеризует-ся большим количеством словоформ с низкой час-тотностью в каждом конкретном тексте.

2.Гибридные модели автоматического извлечения ключевыхслов

Для повышения корректности автоматического извлечения ключевых слов используются гибридные методики, в которых статистические методы обра-ботки документов дополняются одной или несколь-кими лингвистическими процедурами (морфологи-ческим, синтаксическим, и семантическим анализа-ми) и лингвистическими базами знаний различной глубины (словарями, онтологиями, грамматиками, лингвистическими правилами и т. д.).

Гибридные методы извлечения ключевых слов из документа, также как и статистические, могут требовать или не требовать корпуса текстов. Не требующие корпуса гибридные методы извлечения ключевых именных групп описаны, например, в работах [6, 14, 20, 35]. Метод Кена Баркера и др., представленный в [6], включает поиск в тексте документа базовых именных групп (БИГ) с ис-пользованием морфо-синтаксического анализа на основе словарей и вычисление релевантности БИГ. Ключевыми считаются именные группы с показа-телем релевантности выше заданного порога.

Гибридный метод извлечения ключевых именных фраз, разработанный С.О. Шереметьевой [35] для английского языка, не требует наличия корпуса текстов, предусматривает построение множества кандидатов посредством вычисления всех n-грам документа и фильтрацию этого множе-ства с помощью правил удаления n-грам, не яв-ляющихся именными фразами, и вычисления ре-левантности «уцелевших» n-грам-именных групп (см. более подробное описание в следующем раз-деле).

В гибридных методах извлечения ключевых слов на основе графов [11, 21, 25, 29], а также в работах Р. Михальцеа [26], Д. Усталова [4] основ-ной процедурой является построение взвешенного графа, в вершинах которого стоят лексемы-кандидаты в ключевые слова, а дуги взвешены в соответствии со степенью близости кандидатов-вершин. Ключевые слова отбираются в процессе обработки графа алгоритмами из теории графов. Различие между этими методами заключается в способах отбора множества кандидатов-вершин и определения близости отдельных кандидатов, ко-торые, наряду со статистическими параметрами отбора (например, близостью расположения в тек-сте, вычисляемой по количеству слов между двумя терминами), основаны на морфологическом, син-таксическом, а иногда и семантическом анализе, например, с помощью статей Википедии (чему посвящены, например, работы Гриневой [1, 12].

К числу гибридных методов извлечения клю-чевых слов можно отнести методы на основе ма-шинного обучения, где задача извлечения ключевых слов рассматривается как задача классифика-ции. Методы на основе машинного обучения для создания обучающей выборки и построения моде-ли-классификатора, как правило, требуют корпуса документов с размеченными ключевыми словами. Помеченные ключевые слова считаются положи-тельным примером, остальные слова – отрица-тельным примером. Далее высчитывается реле-вантность каждого слова тренировочного текста путем сопоставления ему вектора значений раз-личных параметров, например, меры TF-IDF, дли-ны слова, части речи, положения слова в заголов-ке, положения слова в первом абзаце, последнем абзаце, в списках литературы и т. д. Фиксируются отличие значений векторов этих параметров для ключевых слов и не ключевых. Далее вычисляется вероятность отнесения каждого слова к группе ключевых и задается ее порог, т. е. модель обуча-ется. Извлечение ключевых слов из нового доку-мента происходит путем вычисления релевантно-сти слов и их вероятности отнесения к ключевым в соответствии с построенной моделью.

Среди методов на основе машинного обучения можно отметить:

Анализ существующих методов автоматиче-ского извлечения ключевых слов показывает, что для создания эффективных экстракторов ключевых слов следует учитывать, лингвистические типы естественных языков (аналитический, флектив-ный, агглютинативный, изолирующий), предмет-ную область (подъязык) и наличие необходимых лингвистических и программных ресурсов.

3. Экстрактор ключевых слов

При разработке экстрактора ключевых слов для текстов на русском языке нашей целью было разработать модель с последующей программной реализацией, которая была бы доста-точно универсальной и позволяла настройку на извлечение различных лексических групп и тексты различных предметных областей. При этом модель должна отвечать следующим требованиям:

При разработке экстрактора LanAKey_Ru мы повторно использовали программную оболочку и методику извлечения ключевых слов, созданную С.О. Шереметьевой для извлечения номинативных многокомпонентных ключевых слов из патентов на английском языке [35]. Преимуществами этой мо-дели является то, что она

Процедура извлечения ключевых слов состоит из следующих этапов:

  1. Вычисление n-грам (n=1,2,3,4) из исходного документа (статьи).
  2. Удаление n-грам, которые не могут быть лексическими группами требуемого типа, с ис-пользованием стоп-лексиконов и правил исключе-ния и получение списка словоформ кандидатов-именных групп.
  3. Нормализация словоформ к одной лексеме 4. Вычисление релевантности каждой извлеченной лексической группы.
  4. Выдача списка ключевых слов, удовлетво-ряющего определенному порогу релевантности или всех лексических (например, именных) групп.

Первая экстраполяция английского экстрак-тора на русский язык сделана для извлечения но-минативной терминологии, т. е. именных групп (ИГ), в том числе и ключевых, для подъязыка математического моделирования. Именные груп-пы считаются наиболее релевантными ключевы-ми словами, поскольку они наиболее близко от-ражают содержание документа [39]. Процедура экстраполяции заключалась в замене английских стоп-листов русскими с учетом грамматики рус-ской именной группы и выборе вектора реле-вантности для отбора из всех извлеченных имен-ных групп ключевых.

База знаний (стоп-листы) этого экстрактора построена на основе статистического анализа кор-пуса научных статей по математическому модели-рованию объемом 140 000 словоупотреблений. Для нормализации словоформ-кандидатов ИГ разрабо-тан упрощенный алгоритм на основе совпадения определенного количества знаков слов. Вектор релевантности ключевых именных групп R = (F, N, n, T, M, U) вычисляется по эмпирически опреде-ленной формуле:

R = (FN ·30 + n·30+U +TMn,

где R – релевантность ИГ, F – частота ИГ, N – сред-няя частота ИГ определенной длины, n – длина ИГ (1–4 компонента), T – количество самых частотных слов, содержащихся в ИГ; наиболее частотными считаются 30 % 1-грам (слов) с наиболее высокой частотой; M – сумма частот слов, входящих в ИГ, U – уникальность; этот параметр показывает, что этот кандидат функционирует индивидуально, а не в составе более длинной именной группы. Уни-кальность вычисляется как разность между часто-той данной именной группы и суммой частот бо-лее длинных именных групп, содержащих данную.

В качестве ключевых извлекаются первые де-сять наиболее релевантных именных групп. Экс-трактор допускает извлечение именных групп в текстовой форме и в основной форме с кумулятив-ной релевантностью.

Описанный экстрактор экстраполирован на другие предметные области русского языка и адап-тирован для извлечения других лексических групп.

Заключение

Основные типы методов и моделей автомати-ческого извлечения ключевых слов делятся на чис-то статистические и гибридные. Преимуществами чисто статистического подхода являются универ-сальность алгоритмов извлечения ключевых слов и отсутствие необходимости в трудоемких и время-затратных процедурах построения лингвистиче-ских баз знаний. Однако статистические методы часто не обеспечивают удовлетворительного каче-ства результатов. При этом область эффективного применения статистических моделей ограничена языками с бедной морфологией, они, как правило, не пригодны для естественных языков с богатой морфологией, в частности, для русского языка.

Большим потенциалом обладают гибридные методики, в которых статистические методы обра-ботки документов дополняются одной или не-

сколькими лингвистическими процедурами и лин-гвистическими базами знаний различной глубины. Не всегда возможным оказывается использование методик с использованием корпусов текстов в свя-зи с отсутствием таковых для каждой конкретной предметной области.

Анализ существующих методов автоматиче-ского извлечения ключевых слов показывает, что для создания эффективных экстракторов ключевых слов следует учитывать лингвистические типы естественных языков (аналитический, флектив-ный, агглютинативный, изолирующий), предмет-ную область (подъязык) и наличие необходимых лингвистических и программных ресурсов, что иллюстрируется на примере разработки экстракто-ра LanAKey_Ru.

Литература

1. Гринева М., Гринев М. Анализ текстовых документов для извлечения тематически сгруппи-рованных ключевых терминов. Труды ИСП РАН. 2009. Т. 16. С. 155–165. [Grineva M. Analiz teksto-vykh dokumentov dlya izvlecheniya tematicheski sgruppirovannykh klyuchevykh terminov(Analysis of Text Documents for Extraction of the Thematically Grouped Keyterms). TrudyISPRAN (Proceeding of ISP RAS). 2009, vol. 16, pp. 155–165.]

2. Алексеев П.М., Герман-Прозорова Л.П., Пиотровский Р.Г., Шепетова О.П. Основы стати-стической оптимизации преподавания иностранных языков. Статистика речи и автоматический анализ текста. Л., 1974. С. 195–234. [Alekseev P.M., Ger-man-Prozorova L.P., Piotrovskii R.G., Shepetova O.P. Osnovy statisticheskoy optimizatsii prepodavaniya in-ostrannykh yazykov (Basics of the Statistical Optimiza-tion of Foreign Languages Teaching). Statistikarechiiavtomaticheskiyanalizteksta (Statistics of Speech and Automatic Analysis of the Text). Leningrad, 1974, pp. 195–234.]

3. Пиотровский Р.Г., Бектаев К.Б., Пиотров-ская А.А. Математическая лингвистика: учеб. по-собие для пед. институтов. М.: Высшая школа, 1977. 383 с. [Piotrovskiy R.G.., Bektaev K.B., Pio-trovskaya A.A. Matematicheskayalingvistika. (Ma-thematical Linguistics). Moscow, Vysshaya shkola, 1977, 383 p.]

4. Усталов Д. Извлечение терминов из рус-скоязычных текстов при помощи графовых моде-лей. http://koost.eveel.ru/science/ CSEDays2012. pdf (дата обращения: 30.11.2014). [Ustalov D. Izvleche-nieterminovizrusskoyazychnykhtekstovpripomosh-chigrafovykhmodeley (Term Extraction by Means of Graph Model from Russian texts). Available at: http://koost.eveel.ru/science/CSEDays2012.pdf (ac-cessed: 30.11.2014)]

5. Liu Z., Huang W., Zheng Y., Sun M. Auto-matic keyphrase extraction via topic decomposition. Proceedingsofthe2010ConferenceonEmpiricalMethodsinNaturalLanguageProcessing. Cambridge, Massachusetts, 2010, pp. 366–376.

6. Barker K. Cornacchia N. Using Noun Phrase Heads to Extract Document Keyphrases. AdvancesinArtificialIntelligence. 2000, vol. 1822, pp. 40–52.

7. Piao S.S., Rayson P., Archer D., McEnery T. Comparing and Combining a Semantic Tagger and a Statistical Tool for MWE Extraction. ComputerSpeech&Language. 2005, vol. 19, no. 4, pp. 378–397.

8. Frank E., Paynter G.W., Witten I.H., Gut-win C, Nevill-Manning C.G.. Domain-Specific Keyp-hrase Extraction. Proceedingof16thInternationalJointConferenceonArtificialIntelligence. Stockholm, Sweden, 1999, pp. 668–673.

9. Dostal M. Automatic Keyphrase Extraction Based on NLP and Statistical Methods. ProceedingsoftheDateso2011:AnnualInternationalWorkshoponDatabases,Texts,SpecificationsandObjects. Pisek, Czech Republic, 2011, pp. 140–145.

10. Dunning T. Accurate Methods for the Sta-tistics of Surprise and Coincidence. ComputationalLinguistics–SpecialIssueonUsingLargeCorpora. 1993, vol. 19, no. 1, pp. 61–74.

11. Girish K.P. Keyword Extraction from a Single Document Using Centrality Measures. PatternRecognitionandMachineIntelligence. Springer Ber-lin Heidelberg, 2007, pp. 503–510.

12. Grineva M. Effective Extraction of Themat-ically Grouped Key Terms From Text. Available at: http://www.aaai.org/Papers/Symposia/Spring/2009/ SS-09-08/SS09-08-010.pdf (accessed 30.11.2014)

13. Herbrich R. LargeMarginRankBoundariesforOrdinalRegression.AdvancesinLargeMarginClassifiers. MIT Press, 2000, pp. 115–132.

14. Hulth A. Improved Automatic Keyword Ex-traction Given More Linguistic Knowledge. Proceed-ingsofthe2003ConferenceonEmpiricalMethodsinNaturalLanguageProcessing. Sapporo, July, 2003, pp. 216–223.

15. Jiang X. A Ranking Approach to Keyphrase Extraction. Proceedingsofthe32ndInternationalACMSIGIRConferenceonResearchandDevelop-mentinInformationRetrieval. Boston, MA, USA, 2009, pp. 756–757.

16. Jiao H. Chinese Keyword Extraction Based on N-Gram and Word Co-occurrence. Proceeding CISW '07 Proceedings of the 2007 International Con-ference on Computational Intelligence and Security Workshops. Harbin, 2007. pp. 152–155.

17. Jones K.S. A Statistical Interpretation of Term Specificity and its Application in Retrieval. JournalofDocumentation. 2004, vol. 60, no. 5, pp. 493–502.

18. KEA: Practical Automatic Keyphrase Ex-traction. I.H. Witten, G. W. Paynter, G. W. Paynter, E. Frank, C. Gutwin, C. G. Nevill-Manning. DL'99Pro-ceedingsoftheFourthACMConferenceonDigitalLibraries. Berkeley, CA, USA, 1999, pp. 254–255.

19. Keyword Extraction Using Support Vector Machine. K. Zhang, H. Xu, J. Tang, J. Li. Advances in Web-Age Information Management. SpringerBer-linHeidelberg, 2006, pp. 85–96.

80

20. Krulwich B. Learning User Information In-terests through Extraction of Semantically Significant Phrases. Available at: http://www.aaai.org/ Pa-pers/Symposia/Spring/1996/SS-96-05/SS96-05-018. pdf (accessed: 30.11.2014).

21. Litvak M. Graph-based Keyword Extrac-tion for Single-Document Summarization. Proceed-ingsoftheWorkshoponMulti-sourceMultilingualInformationExtractionandSummarization. Manches-ter, United Kingdom, 2008, pp. 17–24.

22. Lopez P. HUMB: Automatic Key Term Ex-traction from Scientific Articles in GROBID. Pro-ceedingsofthe5thInternationalWorkshoponSeman-ticEvaluation. Uppsala, Sweden, 2010, pp. 248–251.

23. Luhn H.P. A Statistical Approach to Mecha-nized Encoding and Searching of Literary Informa-tion. IBMJournalofResearchandDevelopment. 1957, vol. 1, no. 4, pp. 309–317.

24. Matsuo Y. Keyword Extraction from a Sin-gle Document Using Word co-occurrence Statistical Information. InternationalJournalonArtificialIntel-ligenceTools. 2004. V. 13, no. 1, pp. 157–169.

25. Matsuo Y. KeyWorld: Extracting Keywords from Document s Small World. DiscoveryScience. Springer Berlin Heidelberg, 2001, pp. 271–281.

26. Mihalcea R. TextRank: Bringing Order into Texts. ProceedingsofEMNLP2004.Barcelona, Spain, 2004, pp. 404–411.

27. Multiword Expressions: A Pain in the Neck for NLP. I.A. Sag, T. Baldwin, F. Bond, A. Copestake, D. Flickinger. ProceedingsoftheThirdInternationalConferenceonComputationalLinguisticsandIntelli-gentTextProcessingCICLing’02. London, UK. 2002, pp. 1–15.

28. Nallapati R. Extraction of Key Words from News Stories. Available at: https://sites.google.com/ site/nmramesh77/research-papers/2002_synthesis_ report.pdf?attredirects=0 (accessed: 30.11.2014).

29. Ohsawa Y. KeyGraph: Automatic Indexing by co-occurrence Graph Based on Building Construc-tion Metaphor. ADL'98ProceedingsoftheAdvancesinDigitalLibrariesConference. Santa Barbara, CA, USA, 1998, pp. 12–18.

30. Porter M.F. An Algorithm for Suffix Strip-ping. Readings in Information Retrieval. Morgan Kaufmann Publishers Inc., 1997, pp. 313–316.

31. Salton G.A Vector Space Model for Auto-matic Indexing. CommunicationsoftheACM. 1975, vol. 18, no. 11, pp. 613–620.

32. Salton G. On the Specification of Term Val-ues in Automatic Indexing. Journal of Documentation. 1973, vol. 29, no. 4, pp. 351–372.

33. Sarkar K., Nasipuri M., Ghose S. A New Approach to Keyphrase Extraction Using Neural Net-works. International Journal of Computer Science Issues. 2010, vol. 7, no. 2, pp. 16–25.

34. Sarkar, K. An N-Gram Based Method for Bengali Keyphrase Extraction / K. Sarkar // Informa-tion Systems for Indian Languages. Springer Berlin Heidelberg, 2011, pp. 36–41.

35. Sheremetyeva S. An efficient patent keyword extractor as translation resource. MT Summit XII: Third Workshop on Patent Translation. Ottawa, 2009. Pp. 25–32.

36. Smadja F. Retrieving collocations from text: Xtract. Computational Linguistics – Special issue on using large corpora: I. 1993, vol. 19, no. 1, pp. 143– 177.

37. Turney P.D. Learning Algorithms for Keyp-hrase Extraction. Information Retrieval. 2000, vol. 2, no. 4, pp. 303–336.

38.Uzun Y. Keyword Extraction Using Naive Bayes. Available at: http://www.cs.bilkent.edu.tr/

Методыимоделиавтоматическогоизвлеченияключевыхслов

~guvenir/courses/CS550/Workshop/Yasin_Uzun.pdf (accessed: 30.11.2014).

39. Vadas D. Statistical Parsing of Noun Phrase Structure. Available at: http://sydney.edu.au/ engineer-ing/it/~dvadas1/papers/vadas09_phd_thesis. pdf (ac-cessed 30.11.2014).

40. Wang J., Peng H., Hu J.-S. Automatic Keyp-hrases Extraction from Document Using Neural Net-work. Advances in Machine Learning and Cybernetics. Springer Berlin Heidelberg, 2006, pp. 633–641.

41. Wasserman S., Faust K.. Social Network Analysis: Methods and Applications. Cambridge: Cambridge University Press, 1995. 857 p.