Назад в библиотеку

Лингвистическая модель для компьютерного анализа тональности публикаций СМИ

Автор: Ермаков А. Е., Киселёв С. Л.
Источник: А.Е. Ермаков, С.Л. Киселев. Лингвистическая модель для компьютерного анализа тональности публикаций СМИ // Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог’2005. – Москва, Наука, 2005 http://www.dialog-21.ru/media/5068/_-dialog2020scopus.pdf


Аннотация

Доклад освещает опыт практического решения задачи определения тональности текста по отношению к заданному объекту. Систематизируются средства, используемые автором текста для формирования тонально окрашенного образа объекта, и строится лингвистическая модель для выделения всех составляющих этого образа. Описывается схема оценки тональности позитив/негатив с учетом тех мест, которые занимают в составе пропозиций тональные и нейтральные слова, средства выражения отрицания и инверсии смысла.

Введение

Речь пойдет о задаче компьютерного анализа тональности текста (публикации СМИ) по отношению к заданному объекту – персоне или организации. Эта задача оказалась востребованной на рынке в связи с активным развитием политтехнологий и технологий компьютерной разведки. Оперативное исследование субъективного образа объекта, естественно возникающего или намеренно формируемого в информационном поле СМИ, является важнейшей составляющей обеспечения эффективной политики и безопасности бизнеса, оценки эффективности ПР-компаний и прочих видов манипуляций информационно обусловленным общественным сознанием в современном мире.

В рассматриваемой здесь постановке под тональностью текста понимается позитивное или негативное отношение его автора к заданному объекту, фигурирующему в тексте.

Интуитивно понятно, что оценка тональности требует анализа смысла, заложенного автором в текст. С лингвистической точки зрения смысл текста (его субъективное содержание) характеризуется следующими группами факторов:

Вся остальная информация в тексте, с точки текста лингвистики, представляет его объективное содержание – совокупность семантических отношений между объектами (предметами, событиями и их свойствами) в описанном фрагменте внеязыковой действительности, которые автор пожелал отразить. При этом лингвистика не рассматривает возможность искажения описанной ситуации или ее подмены другой ситуацией, хотя в этих случаях именно содержание, переставшее быть объективным, отражает смысл, что сплошь и рядом наблюдается в текстах СМИ. В итоге, за рамками лингвистических моделей остаются глубинные факторы экстралингвистической природы, связанные со способом формирования самого содержания текста, отбором тех ситуаций для включения в текст, которые, внешне не получив тональной окраски и смысловой обработки, тем не менее формируют тональность текста благодаря своей семантике, набору вызываемых коннотаций. Сюда относятся фразы типа Ельцинские реформы привели народ к потере своих сбережений. Такие способы выражения тональности очень часто встречаются в тексте, особенно при выражении негатива. Ориентируясь на модель восприятия текста целевой аудиторией, автор связывает с объектом описание таких событий или метафорических образов, восприятие которых вызывает эмоциональную реакцию и формирует негативное или позитивное отношение к самому объекту.

Из сказанного выше интуитивно понятно, что в общем случае никакими машинными методами невозможно разделить объективное и субъективное содержание текста – объективную констатацию фактов, пускай даже тонально окрашенных, и намеренное искажение действительности, в том числе сознательное выведение в фокус внимания определенных ее сторон на фоне замалчивания других. К счастью для разработчиков, жизнь позволяет считать, что данной проблемы просто не существует, и заказной характер публикаций СМИ дает нам право отождествить со смыслом любое вызывающее эмоциональную реакцию содержание, исходя из принципа раз это пишется – значит это кому-то нужно.

Будем называть тонально-окрашенными или просто тональными такие элементы текста (слова, синтагмы, фразы), которые несут в себе оценочную семантику, например: превосходный, бессовестно, робкие действия, медлительность, олигарх, вор, режим, бюрократизация, наглеть.

Будем называть эмоционально-коннотативными такие элементы текста, семантика которых при восприятии вызывает эмоциональную реакцию вида хорошо/плохо. Строго говоря, такими элементами являются синтагмы, содержащие в себе событийный предикат вместе с его распространителем (борьба с преступностью, повышение цен, пенсионеры голодают), однако дальше мы будем называть эмоционально-коннотативными и отдельные элементы таких синтагм (преступник, рост), не забывая при этом, что окончательный эмоциональный коннотат хорошо или плохо они формируют только в сочетаниях друг с другом.

Окончательно, мы рассматриваем задачу оценки тональности в конструктивной постановке как процесс проведения следующих операций с текстом:

  1. Распознавание всех упоминаний о целевом объекте в тексте, включая его полные, краткие, косвенные, местоименные и другие обозначения (необходимость в этом этапе отсутствует, если известно, что весь текст посвящен только целевому объекту);
  2. Отсев и полный синтаксический разбор тех конструкций, в которых отражаются все ситуации (события и признаки), связанные с целевым объектом;
  3. Выделение и классификация тех пропозиций, в которых явно выражается тональность, и тех пропозиций, которые описывают эмоционально-коннотативные ситуации.
  4. Для каждой пропозиции принятие решения о тональности позитив/негатив с учетом тех мест, которые занимают в ее составе эмоционально-коннотативные, тональные и нейтральные слова, средства выражения отрицания.

Заключительный шаг – оценка общей тональности текста на основе тональности всех входящих в него пропозиций – является утилитарной задачей и зависит от целей, которые преследует конкретная прикладная система. Так, с точки зрения наших заказчиков, появление одного негатива в тексте перечеркивает весь позитив. Тот факт, что под видом позитива в тексте может с иронией подаваться махровый негатив, распознать который машина в принципе не способна, подтверждает основательность данной точки зрения.

Проведение операций (1) и (2) требует наличия технических средств для проведения полного синтаксического анализа текста, выделения и отождествления наименований, которые к настоящему моменту разработаны в нашей компании [2,3]. Операции (3) и (4) относятся собственно к лингвистической модели оценки тональности и описываются далее.

Фильтрация и разбор пропозиций для оценки тональности

Технологически отбор пропозиций происходит как поиск в сети синтактико-семантических отношений (результат синтаксического анализа предложения) всех подсетей, изоморфных заданным лингвистических схемам-графам [2]. При нахождении подсети, удовлетворяющей заданной схеме, происходит отбор тех ее узлов, которые соответствуют важным для оценки тональности участникам ситуации, а также связанных с ними узлов, содержащих дополнительных информацию (частицы, наречия, прилагательные, служебные глаголы). На основании класса, к которому отнесена пропозиция, лексического состава участников ситуации с учетом их ролей и семантики дополнительных слов принимается решение о тональности.

Отбор пропозиций, связанных с объектом мониторинга и используемых при оценке тональности, производится в соответствии с описанными ниже схемами.

Явная тональная характеристика

Ситуации класса объект или инициированное им событие наделяется признаком, имеющим оценочную семантику. Выделяются участники в следующих ролях:

Объект оценки – целевой объект;

Атрибут – существительное или именная группа, прилагательное, наречие, тонально окрашенный предикат-глагол.

Ниже перечислены типовые пропозиции, которыми выражаются ситуации этого класса, в которых курсивом выделены тонально окрашенные участники.