Автоматическое реферирование текста

Авторы: Karel Jezek, Josef Steinberger

Источник:http://textmining.zcu.cz/publications/Z08.pdf

Перевод с английского: Мащенко Никита

Введение

Огромное увеличение и легкая доступность информации во Всемирной Паутине недавно привели к обновлению классической задачи лингвистики - конденсации информации текстовых документов. Эта задача - процесс обработки данных. Этот процесс вручную используется с незапамятных времен, и впервые с помощью компьютера использовался в конце 50-х. Приведенная информация должна строиться по подбору и обобщению или на основе важного содержания и выводов в оригинальном тексте. Последние научные знания и более мощные компьютеры формируют новую проблему, дающую шанс решить информационную проблему перегрузки или по крайней мере отложить ее решение и уменьшить ее негативное воздействие.

Есть множество различных определений что в действительности означает реферирование текстов. Например:

краткое, но точное представление содержания документа;
дистилляция наиболее важной информации из источника, чтобы произвести сокращенную версию для конкретного пользователя/пользователей и задачи/задач;

Количественные особенности, которые могут характеризовать основную информацию, включают:

семантическая информативность (можно рассматривать как меру способности к перестройке из основной информации оригинального текста);
последовательность (показывает как части резюме создают вместе интегрированную последовательность);
степень сжатия.

История автоматического то есть компьютеризированного реферирования началась 50 лет назад. Метод Луна использует термин частот, чтобы оценить приемлемость предложений для основной информации. Его главная идея основана на знании, что существенные слова, несущие большую часть информации, не слишком часто и не слишком редко повторяются в тексте. Установление границ значения слов при помощи их частот было бы вопросом опыта. Следующим шагом является ранжирование предложений, отражающее количество значимых слов и их расстояние в предложении. После этого остается только выбрать один ил несколько более значимых результатов. Следует отметить, что мотивацией Луна служила информационная перегрузка.

Следующий значительный прогресс был сделан десять лет спустя. Работа Эдмандсона ввела гипотезу относительно высокой информационной ценности фраз, предложений с начала и от заключения статьи, предложения, содержащие слова реплики и фразы как "важную", “результаты”, “ статье рассматриваются” и т.д. Даже если следующие годы принесли дальнейшие результаты, возрождение этой области и значительный прогресс произошел в 90-е. Это время более широкого использования методов искусственного интеллекта в этой области и сочетание различных методов в гибридных системах. В новом тысячелетии в связи с расширением WWW сместился интерес к исследованиям обобщения групп документов, мультимедийных документов и применение новых алгебраический методов сокращения данных.

1. Краткий обзор методов, основанных на классических принципах

1.1 Новаторские работы

Первые подходы автоматического текстового реферирования использовали только простой (поверхностный уровень) показателя решений, какие части текста включить в основной текст. В 1958 был разработан самый старый алгоритм значимости предложения Основная идея состояла в том, что писатель будет повторять определенные слова, когда пишет о той или иной теме. Значение терминов, считается пропорциональной их частоте в полученных в итоге документах. Другие показатели релевантности используется документах при наличии определенных слов реплик (т. е. таких слов, как "важно" или "соответствующий") или слов, содержащихся в названии. Комбинация слов реплик, слов названий и положения предложений использовались чтобы произвести извлечения и было продемонстрировано их подобие с человеческим написание реферата.

1.2 Статистические методы

В []4 был доказан, что уместность условий документа обратно пропорциональна числу документов в корпусе, содержащем термин. Формула для оценки уместности термина дана tfi x idfi, где tfi - частота термина i в документе, и idfi - частота документов, содержащих этот термин. Предложения могут быть впоследствии выбраны, например, путем суммирования релевантности терминов в предложении.

Внедрение более изобретательного статистического метода было описано в [3]. Внедрение более изобретательного статистического метода было описано в [3]. Он использует байесовский классификатор для вычисления вероятности того, что предложение в первоисточнике должно быть включено в основной текст. Для обучения классификатора авторы использовали свод 188 пар документов в полном объеме.

Альтернативный путь, как измерить уместность термина, был предложен в [6]. Вместо грубого термина подсчета авторы использовали понятие релевантности, которые могут быть определены с использованием WordNet. Например возникновение понятия «автомобиль» засчитывается, если слово "автомобиль" найдено, а также, когда, например, слова "автомобиль", "шины" или "тормоза" будут найдены. Альтернативный путь, как измерить уместность термина, был предложен в [6]. Вместо грубого термина подсчета авторы использовали понятие релевантности, которые могут быть определены с использованием WordNet. Например возникновение понятия «автомобиль» засчитывается, если слово "автомобиль" найдено, а также, когда, например, слова "автомобиль", "шины" или "тормоза" будут найдены.

1.3 Методы, основанные на возможности соединения текста.

Анафорические выражения, которые относятся к ранее упомянутым частям текста, должны знать своих предшественников, чтобы быть понятыми. Добавляющие методы могут не отражать отношения между понятиями в тексте. Если предложение, содержащее анафорическую связь, извлечено без предыдущего контекста, основной текст может стать непонятным. Связные свойства включают отношения между выражениями текста. Они были исследованы различными подходами реферирования.

Давайте вспомним метод Лексической цепи, который был представлен в [7]. Это использует тезаурус WordNet для того, чтобы определить связные отношения между условиями (то есть, повторение, синонимия, антонимия, hypernymy, и holonymy) и составляет цепи по связанным условиям. Их множество определено на основе числа и типа отношений в цепи. Только те предложения, где самые сильные цепи чрезвычайно сконцентрированы, отобраны для основного текста. Подобный метод, где предложения выбраны согласно объектам был представлен в [8]. Объекты идентифицированы co-справочной системой резолюции. Справочная резолюция определяет, относятся ли два выражения на естественном языке к тому же самому объекту. Предложения, где возникновение часто упоминаемых объектов преодолевает заданный предел, включены в основной текст.

В группу методов, основанных на возможности соединения текста, мы можем включить использование метода Rhetorical Structure Theory (RST). RST - теория о текстовой организации. Она состоит из многих риторических отношений, которые соединяют вместе текстовые единицы. Отношения связывают ядро – которое является главным в цели писателя. Из соотношений состоит древовидное представление, которое используется для извлечения текстовой единицы из основного текста. Окончательная оценка предложения дана суммой весов от корня к предложению. В [10], каждый родительский узел идентифицирует своих ядерных детей как существенные. Дети способствуют родительскому уровню. Этот процесс является рекурсивным по древовидной. Счет единицы дан уровнем, который он получил после поощрения.

1.4 Методы повторяющегося графа

Повторяющиеся алгоритмы графа, такие как HITS [11] или Google PageRank [12] были первоначально разработаны как исследование инструментов структуры связи, для оценивания Веб-страниц. Позже анафорическое выражение - слово или фраза, которая вернулась к некоторому ранее выраженному слову или фразе (как правило, местоимения такой как сама, себе, он, она) успешно использовались в других областях, например, анализе цитаты, социальных сетях и т.д. В алгоритмах ранжирования графа, важность вершины в пределах графа вычисляется. В [13] основанная модель графа была применена к обработке естественного языка, приводящей к алгоритму под названием TextRank. Те же самые основанные на графе принципы ранжирования были применены в реферировании [14]. Граф строится добавляя вершину для каждого предложения в тексте. Ребра между вершинами установлены, используя взаимосвязи предложения. Эти связи определены при использовании отношения подобия, где подобие измерено как функция наложения. Наложение двух предложений может быть определено как число общих символов между лексическими представлениями. Повторяющаяся часть алгоритма следовательно применена на графы предложений. Когда обработка закончена, вершины (предложения) сортированы по их множеству. Вершина заняла место, предложения включены в результат.

1.5 Приближенные к тезисам

Есть существенное отличие между текстом, произведенными текущим автоматическим реферированием и текстом, написанными человеческими референтами. Компьютерные системы могут идентифицировать важные статьи с ограниченной точностью. Другой фактор - то, что в большинстве случаев реферирование полагается на извлечение ключевых предложений или параграфов. Однако, если извлеченные предложения разъединены в оригинальной статье, и они связаны вместе, результат может быть несвязным и иногда даже вводящим в заблуждение. Вместо воспроизведения целых предложений из текста, эти методы либо сжимают предложения [15, 16, 17, 18], либо повторно генерируют новые предложения с нуля [19]. В [20] была предложена стратегия Вырезания и вклейки. Авторы идентифицировали шесть операций по редактированию в человеческом реферировании: (i) приговаривают сокращение; (ii) комбинация предложения; (iii) синтаксическое преобразование; (iv) лексическое перефразирование; (v) обобщение и спецификация; и (vi) переупорядочение. Однако, если в итоге должен быть получен большой текст, извлечение предложения - более эффективный метод. Извлечение надежно ко всем неисправностям входного текста. Оно защищенное от неудачи и менее языковозависимое.

Заключение

Мы представили историю и состояние автоматической области исследования реферирования текста. Обратили большую часть внимания на подходы, основанные на алгебраических методах сокращения. Их особенность состоит в том, что они работают только с контекстом условий, и таким образом они не зависят от особого языка. У оценки методов реферирования есть та же самая важность как собственное подведение итогов. Ежегодная конференция по оценке реферирования DUC (Document Understanding Conference) установила руководство в процесс оценки текста. Тем не менее единственный полностью автоматический метод реферирования - ROUGE [32], который сравнивает написанные человеком статьи и системные тексты в соответствии n-граммов. Мы планируем участвовать в DUC ’08 с нашим новым методом реферирования, ядро которого будет основано на тензоре LSA. Вместо двух измерений будут использоваться три – условия, предложения и документы. Три измерения, вместо два, будут использоваться – условия, предложения и документы. Идея метода состоит в том, что два предложения будут спроектированы близко друг к другу по смыслу.

Список источников

Luhn, H.P.: The Automatic Creation of Literature Abstracts. In IBM Journal of Research Development 2(2). (1958) 159–165.
Edmundson, H.P.: New Methods in Automatic Extracting. In Journal of the Association for Computing Machinery 16(2). (1969) 264–285.
Kupiec, J., Pedersen, J.O., Chen, F.: A Trainable Document Summarizer. In Research and Development in Information Retrieval. (1995) 68–73.
Salton, G.: Automatic Text Processing. Addison-Wesley Publishing Company, (1988).
Baxendale, P.B.: Man-made Index for Technical Literature - an experiment. In IBM Journal of Research Development, 2(4), 1958, pp. 354–361.
Hovy, E., Lin, C-Y.: Automated Text Summarization in SUMMARIST. In I. Mani and M.T. Maybury, eds., Advances in Automatic Text Summarization, 1999, The MIT Press, pp. 81–94.
Barzilay, R., Elhadad, M.: Using Lexical Chains for Text Summarization. In Proceedings of the ACL/EACL’97 Workshop on Intelligent Scalable Text Summarization, Madrid, Spain, 1997, pp. 10–17.
Boguraev, B., Kennedy, C.: Salience-based content characterization of text documents. In I. Mani and M.T. Maybury, eds., Advances in Automatic Text Summarization, 1999, The MIT Press.
Ono, K., Sumita, K., Miike, S.: Abstract Generation Based on Rhetorical Structure Extraction. In Proceedings of the International Conference on Computational Linguistics, Kyoto, Japan, 1994, pp. 344-348.
Marcu, D.: From Discourse Structures to Text Summaries. In Proceedings of the ACL97/EACL97 Workshop on Intelligent Scalable Text Summarization, Madrid, Spain, 1997, pp. 82–88.
Kleinberg, J.M.: Authoritative sources in a hyper-linked environment. In Journal of the ACM, 46(5), 1999, pp. 604-632.
Brin, S., Page, L.: The anatomy of a large-scale hypertextual Web search engine. In Computer Networks and ISDN Systems, 30, 1998, pp. 1–7.
Mihalcea, R., Tarau, P.: Text-rank - bringing order into texts. In Proceeding of the Conference on Empirical Methods in Natural Language Processing, Barcelona, Spain, 2004.
Mihalcea, R., Tarau, P.: An Algorithm for Language Independent Single and Multiple Document Summarization. In Proceedings of the International Joint Konference on Natural Language Processing, Korea, 2005.
Jing, H.: Sentence Reduction for Automatic Text Summarization. In Proceedings of the 6th Applied Natural Language Processing Conference, Seattle, USA, 2000, pp. 310–315.
Knight, K., Marcu, D.: Statistics-Based Summarization Step One: Sentence Compression. In Proceeding of The 17th National Conference of the American Association for Artificial Intelligence, 2000, pp. 703–710.
Sporleder, C., Lapata, M.: Discourse chunking and its application to sentence compression. In Proceedings of HLT/EMNLP, Vancouver, Canada, 2005, pp. 257–264.
Steinberger, J., Jezek, K.: Sentence Compression for the LSA-based Summarizer. In Proceedings of the 7th International Conference on Information Systems Implementation and Modelling, Prerov, Czech Republic, 2006, pp. 141–148.
McKeown, K., Klavans, J., Hatzivassiloglou, V., Barzilay, R., Eskin, E.: From Discourse Structures to Text Summaries. In Towards Multidocument Summarization by Reformulation: Progress and Prospects, AAAI/IAAI, 1999, pp. 453–460.
Jing, H., McKeown, K.: Cut and Paste Based Text Summarization. In Proceedings of the 1st Meeting of the North American Chapter of the Association for Computational Linguistics, Seattle, USA, 2000, pp. 178–185.
Landauer, T.K., Dumais, S.T.: A solution to platos problem: The latent semantic analysis theory of the acquisition, induction, and representation of knowledge. In Psychological Review, 104, 1997, pp. 211–240.
Lee, D.D., Seung, H.S.:. Learning the parts of objects by non-negative matrix factorization. In Nature, 401 (6755), 1999 pp. 788–791.
Kolda, T.G., O’Leary, D.P.: A semidiscrete matrix decomposition for latent semantic indexing information retrieval. In ACM Transactions on Information Systems 16(4), 1998, pp. 322–346.
Berry, M.W., Dumais, S.T., O’Brien., G.W.: Using linear algebra for intelligent IR. In SIAM Review, 37(4), 1995.
Ding, Ch.: A probabilistic model for latent semantic indexing. In Journal of the American Society for Information Science and Technology, 56(6), 2005, pp. 597–608.
Yihong Gong, Xin Liu: Generic text summarization using relevance measure and latent semantic analysis. In Proceedings of ACM SIGIR. New Orleans, USA, 2002.
Steinberger, J., Jezek, K.: Text Summarization and Singular Value Decomposition. In Lecture Notes for Computer Science vol. 2457, Springer-Verlag, 2004, pp. 245-254.
Murray, G., Renals, S., Carletta J.: Extractive Summarization of Meeting Recordings. In Proceedings of Interspeech, Lisboa, Portugal, 2005.
Yeh, J.-Y., Ke, H.-R., Yang, W.-P, Meng, I-H.: Text summarization using a trainable summarizer and latent semantic analysis. In Special issue of Information Processing and Management on An Asian digital libraries perspective, 41(1), 2005, pp. 75–95.
Steinberger, J., Kristan, M.: LSA-Based Multi-Document Summarization. Proceedings of 8th International PhD Workshop on Systems and Control, Balatonfured, Hungary, 2007.
B. Hachey, G. Murray, and D. Reitter. The embra system at duc 2005: Query-oriented multi-document summarization with a very large latent semantic space. In Proceedings of the Document Understanding Conference (DUC) 2005, Vancouver, Canada, 2005.
Lin, Ch.: Rouge: a package for automatic evaluation of summaries. In Proceedings of the Workshop on Text Summarization Branches Out, Barcelona, Spain, 2004.