Настроения. Классификация методов машинного обучения

Автор: B. Pang, L. Lee

Перевод: А.А. Прокапович

Аннотация

Рассмотрим задачу классификации документов не по теме, а общую тональность, например, определение, является ли отзыв положительным или отрицательным. Использовав обзоры фильмов как данные, мы видим, что стандартные методы машиного обучения окончательно превзошли человека по производству исходных данных. Однако три метода машинного обучения которые мы использовали (Байеса, максимум энтропии классификация и опорных векторов) не выполняются целиком, а настроение классификации как и традиционные темы основаны на категоризации. Мы пришли к выводу, исследуя факторы, которые делают классификацию настроений, что определение тональности является проблемой более сложной.

Введение

Сегодня очень большие объемы информации доступны в он-лайн документах. В рамках усилий, направленных на улучшение организации информации для пользователей, исследователями активно изучаются проблема автоматической текст категоризации. Основная часть такой работы была сосредоточена на местной категоризации, попытке сортировки документов в соответствии с категорией информации в них (например, спортивного против политики).

Тем не менее, в последние годы наблюдается быстрый рост в он–лайн дискуссионных группах и обзорных сайтах (например, Книги веб–страницы The New York Times), где одним из важнейших характеристик размещенных статей является их настроение, или общее мнение по отношению к предмету — например: обзор продукта, является ли положительный или отрицательным. Маркировка этих статьй с их настроениями обеспечивают краткие резюме для читателей, обзоры фильмов, которые не содержат явные показатели рейтинга и нормализует различные схемы тарификации, что отдельные рецензенты используют. Классификация настроения также очень полезно в приложениях бизнес–аналитики (например MindfulEye 'SLexant система1 ) и рекомендательные системы (например,Terveen др. (1997), Tatemura (2000 )), где пользователь вхождения и обратная связь может быть быстро сведены; действительно, в общем, в свободной форме ответов на опрос приведены в формате естественного языка и может быть обработан с помощью тональности категоризации. В этой статье мы рассмотрим эффективность применения методов машинного обучения на тональность задачи классификации. Сложным фактором является то, что для того чтобы отличить традиционные темы на основе классификации, когда обычные темы часто идентифицируют по ключевым словам, настроение может быть выражено в более тонком образе.

Описание ранее изданой работы

В этом разделе кратко обследуется предыдущая работа по nontopic–текстовым категоризациям. Одним из направлений исследований концентрируется на классификации документов в соответствии с их источниками или стилем исходного, со статистически–обнаруженного стилистической вариации (Бибер, 1988), выступающей в качестве важного. Примеры включают в себя автора, издателя (например, Нью–Йорк Таймс против Daily News), на родном языке. Другой, более связанный с этим направлением исследований является то, что определение жанра текстов; субъективные жанры,такие как передовой, часто являются одним из возможных категорий(Карлгрену и резки, 1994; Кесслер и др.др., 1997.; Finn соавт., 2002). В то время как методы для жанра категоризация и выявление субъективностм может помочь нам распознать документы, которые выражают свое мнение, они не затрагивают нашу конкретную классификацию, задачей определения того, что такое мнение на самом деле.

Одни из первых исследований на настроениях на основе классификации были, по крайней мере частично, основанной на знаниях. Часть этой работы направлена на классификации семантической ориентации отдельных слов или фраз, используя лингвистические эвристики или предварительно выбранный набор семян словами (Hatzivassiloglou и Мак–Каун, 1997; Терни и Литтман, 2002). Последняя работа на настроении основана на категоризации целых документов часто участвующих либо использовани моделей вдохновления когнитивной лингвистики (Херст, 1992; Мешок, 1994) или ручной или полуавтоматический обучении словарей дискриминант — слов (Huettner и Субашич, 2000; Дас и Чэнь, 2001; Тонг, 2001). Интересно, что наши базовые эксперименты, показывают, что люди не всегда могут обладать лучшей интуицией для выбора дискриминирующие слов. Терни (2002) работа над классификацией отзывов является, пожалуй, ближе всего к нашей. Он применил специфическую технику обучения на основе взаимного обмена информацией между фразами документов и слова «отлично» и «плохо», где взаимная информация вычисляется с использованием счетчиков, поисковой системой. В отличие от этого, мы используем несколько полностью до — знания без контролируемого машиной метода обучения, с целью понимания сложности присущей этой задачи.

Домен кино–отзыв

Для наших экспериментов мы решили работать с кино отзывами. Этот домен является экспериментальным и удобным потому что есть большие он–лайн коллекции таких обзоров, и потому что рецензенты часто суммируют общее настроение с рейтингом экстрагируемых индикаторов, например, ряда звезд. Таким образом, нам не нужно вручную вводить данные для контролируемого обучения или оценки. Отметим также, что Терни (2002) обнаружил что обзоры фильмов, наиболее затруднительные так как они состоят из нескольких доменов для настроений классификации, отчетности точности 65,83 % на 120 — набор документов (производительность случайных выбор: 50%). Но мы подчеркиваем, что методы машинного обучения и возможности, которые мы используем не являются специфическими для обзора фильмов, и должны быть легко применимы к другим доменам, если только достаточные данные обучение существует. Наш источник данных был Internet Movie Database( IMDb ) Архив из rec.arts.movies.reviewsnewsgroup. Мы выбрали только отзывы, где автор выражал рейтинг либо со звездами или некоторыми численными значениями (другие конвенции изменяться слишком широко для автоматической обработки). Рейтинги были автоматически извлечены и преобразованы в один из трех категорий : положительные, отрицательные или нейтральные. Для работы, описанной в этой статье, мы сосредоточили только на различиях между положительными и отрицательными настроениями.

Более подробное описание проблемы

Эксперт по использованию машиного обучения для категоризации текста прогнозирует относительно низкую производительность для автоматических методов. Нам с другой стороны, кажется, что различить положительные от негативных отзывов относительно легко для человека, особенно по сравнению со стандартной категоризацией текста. Проблема возникает, там где темы могут быть тесно связаны. Можно было бы также предсказать, что есть определенные слова которые люди склонны использовать, чтобы выразить сильные чувства, поэтому для этого может быть достаточно, чтобы просто составить список таких слова по интроспекции и полагаться на них в одиночку классифицировать тексты. Чтобы проверить эту последнюю гипотезу, мы попросили двух студентов выпускников в информатике в (независимо)занести хороший индикатор слова для положительного и отрицательного настроения в обзоры фильмов. Их выборы, показаны на рисунке 1, кажется интуитивно правдоподобным. Затем мы преобразуем свои ответы на простые решения процедуры, которые подсчитывают количество предлагаемых положительных и отрицательных слов в данном документе. Мы применили эти процедуры для равномерно — распределенных данных, так чтобы произошел случайный выбор исходный результат будет 50%. Как показано на рис.1, точность — процент документов, классифицированных правильно — для классификаторов человека на основе были 58% и 64%, соответственно. Процентная доля документов, где два настроения были оценены с одинаковой вероятностью — довольно высоки. Хотя если предположить, что краткость списков которые сделал человек является фактором относительно плохого результата производительности, это не тот случай, когда размерности точности обязательно пределы. Основываясь на очень предварительном изучение частоты рассчитывается весь корпус (в том числе тестовых данных), а также самоанализ, мы создали список из семи положительных и семи отрицательный слов (в том числе знаки препинания), рисунок 2. После использования изменений показатели подняли точность до 69%. Кроме того, мы наблюдаем, что некоторые из пунктов в этом третьем списке, например, « ? » или « еще», вероятно, не были предложены, насколько это возможно кандидаты просто с помощью интроспекции. Мы пришли к выводу смотря на предварительные эксперименты, что стоит изучить методы корпус основе, а не полагаться на предыдущие итерации, чтобы выбрать хорошие черты индикатора и выполнять классификацию настроения в целом. Эти эксперименты также обеспечивают нам с базовым уровнем, для экспериментального сравнения;в частности, третий базовый 69% может на самом деле считаться несколько трудно воспринимаемым, так как это было достигнуто за счет экспертизы тестовых данных (хотя наша экспертиза была довольно беглой; мы не утверждаем, что наш список был оптимальным набором для четырнадцати слов).

	Предложенный список слов	Точность	Связи
Студент 1	Положительные: ослепительно, блестящие, феноменальный, отлично, фантастично Негативные: ужасно, бесполезно, несмотрибельно, отвратительный	58%	75%
Студент 2	Положительные: завораживает, захватывающий, классный, волнующим, тревожущий, отлично, интересно Негативные: плохо, клише, скучно, глупо, медленно	64%	39%

Рисунок 1 – Исходные результаты для списков

	Предложенный список слов	Точность	Связи
Студент 3 +статистика	Положительные: любовь, замечательный, лучший, отличный, превосходный, красивая Негативные: плохо, что хуже, глупо, отходы, скучно,?,!	69%	16%

Рисунок 2 – Результаты для базовой линии с использованием самоанализа и простой статистики данных

Заключение

Чем объясняется эти два различия — трудность и типы информации которые трудно доказал свою полезность — между темой и настроением классификации, и как мы могли бы улучшить последнее? Чтобы ответить на эти вопросы, мы рассмотрели данные дальше. Как оказалось, обычное явление в документах было своего рода перечеркивают ожидания повествования,где автор устанавливает преднамеренное контраст к более раннему обсуждению. Человек может легко обнаружить истинное настроение обзора, но по сути это — функции классификатора, предположительно, найти эти случаи затруднительно, так как есть много слов, указывающих противоположное настроение. Кажется, что некоторые формы дискурсаанализ необходимы,или, по крайней мере, некоторые из способов определения фокуса каждого. Кроме того, вполне вероятно, что риторический прием появится во многих типах текстов(например, редакционные статьи) посвящен выражая общее мнение о какой–то теме. Таким образом, мы считаем, что следующим важным шагом является определение особенностей указывающих приговоры на тему (что своего рода совместное справочной проблемы); мы с нетерпением ждем решения этой проблемы в дальнейшей работе.

Литература

1. Shlomo Argamon–Engelson, Moshe Koppel, and Galit Avneri. 1998. Style–based text categorization: What newspaper am I reading? In Proc. of the AAAI Workshop on Text Categorization, pages 1–4.

2. Adam L. Berger, Stephen A. Della Pietra, and Vincent J. Della Pietra. 1996. A maximum entropy approach to natural language processing. Computational Linguistics, 22(1):39–71.

3. Douglas Biber. 1988. Variation across Speech and Writing. Cambridge University Press.

4. Stanley Chen and Ronald Rosenfeld. 2000. A survey of smoothing techniques for ME models. IEEE Trans. Speech and Audio Processing, 8(1):37–50.

5. Sanjiv Das and Mike Chen. 2001. Yahoo! for Amazon: Extracting market sentiment from stock message boards. In Proc. of the 8th Asia Pacific Finance Association Annual Conference (APFA 2001).

6. Stephen Della Pietra, Vincent Della Pietra, and John Lafferty. 1997. Inducing features of random fields. IEEE Transactions on Pattern Analysis and Machine Intelligence, 19(4):380–393.

7. Pedro Domingos and Michael J. Pazzani. 1997. On the optimality of the simple Bayesian classifier under zero–one loss. Machine Learning, 29(2–3):103– 130.

8. Aidan Finn, Nicholas Kushmerick, and Barry Smyth. 2002. Genre classification and domain transfer for information filtering. In Proc. of the European Colloquium on Information Retrieval Research, pages 353–362, Glasgow.

9. Vasileios Hatzivassiloglou and Kathleen McKeown. 1997. Predicting the semantic orientation of adjectives. In Proc. of the 35th ACL/8th EACL, pages 174–181.

10. Marti Hearst. 1992. Direction–based text interpretation as an information access refinement. In Paul Jacobs, editor, Text–Based Intelligent Systems. Lawrence Erlbaum Associates.

11. Alison Huettner and Pero Subasic. 2000. Fuzzy typing for document management. In ACL 2000 Companion Volume: Tutorial Abstracts and Demonstration Notes, pages 26–27.

вверх