Перевод. Бойко И.Б. - Многокритериальная классификация музыки по эмоциям.

1. Введение

По своей природе люди эмоционально зависимы от музыки. Кто может поспорить со знаменитым выражением немецкого философа Фридриха Ницше: «без музыки жизнь была бы ошибкой». С каждым днем базы данных музыкальных произведений увеличиваются, и вопрос о классификации музыки по эмоциям становится важной задачей для приложений, таких как определение музыки в мобильных телефонах, системы рекомендации музыки, для теле- и радиопередач.

Прошлые подходы к автоматическому обнаружению эмоций в музыке сформировали основные задачи исследований в этой области, такие как однокомпонентная классификация, регресс и классификация множественных меток (компонентов). Музыка может вызывать не только одну, но и несколько эмоций одновременно. Нам бы хотелось достичь возможности получать эмоции из любого участка музыкального произведения. Однокомпонентная классификация и регресс не могут обеспечить данную многозадачность. Поэтому, данная статья будет посвящена многокритериальной классификации.

Основной вклад этой статьи двояк:

1. Приводится сравнительная характеристика четырех многокритериальных алгоритмов классификации данных, использую различные критерии оценки. Предыдущие исследования проводили эксперименты только с одним из приведенных алгоритмов.

2. Предлагается новый метод многокритериального отбора. Данных метод экспериментально сравнивается с двумя другими ранее предложенными. Результат сравнения показал, что данный метод улучшает использование классификации множественных меток, не принимая во внимание особенности значений.

2. Многокритериальная классификация

Традиционная однокомпонентная классификация связана с обучением на примерах, которые связаны с компонентом l из множества пересекающихся критериев L, |L| > 1.

2.1 Обучающие алгоритмы

Методы многокритериальной классификации можно условно разделить на две различные группы:

1) методы проблем трансформации

2) методы алгоритмической адаптации

Первая группа содержит методы, которые алгоритмически не зависят друг от друга. Они трансформируют задачу многокритериальной классификации в ряд однокритериальных задач, таких как регрессия. Вторая группа содержит методы, которые расширяют обычные алгоритмы обучения для работы с метаданными напрямую.

2.2 Критерии оценки

Для многокритериальной классификации необходимы иные меры оценки, чем для однокритериальной. Таксономия мер оценки многокритериальной классификации приведена в [15]. В ней рассматриваются два основных категории оценок. Третья категория оценок, которая напрямую не применялась к многокритериальной классификации, но часто используется в теоретическом описании, это оценки основанные на ранжировании. Данная категория хорошо описана в работе [21]

3 Музыка и эмоции

Хевнер[4] был первым, кто начал изучать зависимости между музыкой и эмоциями. Он обнаружил 8 основных классов, которые описывают музыкальные эмоции, и создал эмоциональный круг данных классов. Классы Хевнера были переосмыслены и перегруппированы Фарнсворсом в 10 новых классов[2].

Рисунок 1 - Эмоциональная модель Тайера

4 Набор данных

Набор данных, используемый в этой работе, состоит из 10 композиций, каждая из которых принадлежит к одному из семи жанров: классика, регги, рок, поп, хип-хоп, техно и джаз. Данная коллекция была создана из 233 музыкальных альбомов по 3 песни из каждого альбома. Из каждой песни был отобран 30 фрагмент после 30 секундного вступления.

4.1 Извлеченение информации

Для извлечения информации были использованы the Marsyas tool [16]. Извлекаемая информация делилась на 2 категории: ритмическая и тембральная.

4.1.1 Ритмическое извлечение

Ритмические закономерности были получены путем извлечения периодических изменений из гистограммы ударов. Был применен алгоритм, который определяет пики путем автокорреляции. Для анализа выбирались два наиболее высоких пика и считались их амплитуды, удары в минуту, и отношение от высоких к низким. 3 критерия были рассчитаны путем суммирования гистограмм в диапазоне 40-90, 90-140 и 140-250 ударов в минуту.

4.1.2 Тембровое извлечение

Mel Frequency Cepstral Coefficients (MFCCs) используется для распознавания речи и музыкального моделирования[8]. Для получения MFCCs особенностей, сигнал был поделен на кадры и спектр амплитуды был рассчитан для каждого такого кадра. Далее был взят его логарифм и приведен в систему измерений Mel. Для исследований мы брали первые 13 MFCCs.

4.2 Классификация эмоций

Вышеописанная модель была использования для присвоения данным эмоций. Мы решили использовать эту модель, так как эмоциональное пространство музыки абстрактно и музыкальное приложение, основанное на эмоциях должно объединять в себе сразу серию однотипных эмоций. Для достижения поставленной задачи без использования огромного числа меток, мы решили оставить только 6 основных эмоциональных кластеров. Соответствующие им метки отображены на рисунке 2.

Рисунок 2 - Описание эмоциональных кластеров

Звуковые клипы были аннотированы тремя мужчинами экспертами в возрасте 20, 25 и 30 лет из института музыкальных исследований в нашем университете. Только композиции с абсолютно идентичными метками были отобраны для последующих экспериментов. Данный процесс привел к окончательному аннотированию 593 композиций. Потенциальной причиной для такого непредвиденно высокого уровня согласия экспертов является короткая продолжительность музыкальных треков (30 сек).

5 Заключение

В статье была рассмотрена задача поиска эмоций в музыкальных композициях с помощью метода многокритериальной классификации. Также была произведена оценка четырех известных алгоритмов классификации. В целом, интеллектуальная производительность методов является высокой, что призывает к дальнейшему их улучшению. Однако субъективность назначенных меток может быть влияющим фактором в выборе эмоций.

Также был предложен новый метод многокритериальной классификации, который, по результатам исследований, работает лучше, чем известные до этого алгоритмы.

Список литературы

Rui Cai, Chao Zhang, Chong Wang, Lei Zhang, and Wei-Ying Ma. Musicsense: contextual music recommendation using emotional allocation modeling. In MULTIMEDIA ’07: Proceedings of the 15th international conference on Multimedia, pages 553–556, 2007.
P Farnsworth. The social psychology of music. The Dryden Press, 1958.
R. Fiebrink and I. Fujinaga. Feature selection pitfalls and music classification. In Proceedings of the International Conference on Music Information Retrieval (ISMIR 2006), pages 340–341, 2006.
K. Hevner. Experimental studies of the elements of expression in music. American Journal of Psychology, 48:246–268, 1936.
X Hu and J.S. Downie. Exploring mood metadata: relationships with genre, artist and usage metadata. In Proceedings of the 8th International Conference on Music Information Retrieval (ISMIR 2007), pages 67–72, 2007.
T. Li and M. Ogihara. Detecting emotion in music. In Proceedings of the International Symposium on Music Information Retrieval, pages 239–240, Washington D.C., USA, 2003.
T. Li and M. Ogihara. Toward intelligent music information retrieval. IEEE Transactions on Multimedia, 8(3):564–574, 2006.
B. Logan. Mel frequency cepstral coefficients for music modeling. In Proceedings of the 1st International Symposium on Music Information Retrieval (ISMIR 2000), Plymouth, Massachusetts, 2000.
L. Lu, D. Liu, and H.-J. Zhang. Automatic mood detection and tracking of music audio signals. IEEE Transactions on Audio, Speech, and Language Processing, 14(1):5–18, January 2006.
E. Schubert. Measurement and Time Series Analysis of Emotion in Music. PhD thesis, University of New South Wales, 1999.
A. Tellegen, D. Watson, and L.A. Clark. On the dimensional and hierarchical structure of affect. Psychological Science, 10(4):297–303, July 1999.
R.E. Thayer. The Biopsychology of Mood and Arousal. Oxford University Press, 1989.
M. Tolos, R. Tato, and T. Kemp. Mood-based navigation through large collections of musical data. In 2nd IEEE Consumer Communications and Networking Conference (CCNC 2005), pages 71–75, 3-6 Jan. 2005.
G. Tsoumakas and I. Katakis. Multi-label classification: An overview. International Journal of Data Warehousing and Mining, 3(3):1–13, 2007.
G. Tsoumakas and I. Vlahavas. Random k-labelsets: An ensemble method for multilabel classification. In Proceedings of the 18th European Conference on Machine Learning (ECML 2007), pages 406–417, Warsaw, Poland, September 17-21 2007.
G. Tzanetakis and P. Cook. Musical genre classification of audio signals. IEEE Transactions on Speech and Audio Processing, 10(5):293–302, July 2002.
A.Wieczorkowska, P. Synak, and Z.W. Ras. Multi-label classification of emotions in music. In Proceedings of the 2006 International Conference on Intelligent Information Processing and Web Mining (IIPWM’06), pages 307–315, 2006.
D. Yang andW. Lee. Disambiguating music emotion using software agents. In Proceedings of the 5th International Conference on Music Information Retrieval (ISMIR’ 04), Barcelona, Spain, 2004.
Y.-H. Yang, Y.-C. Lin, Y.-F. Su, and H.-H. Chen. A regression approach to music emotion recognition. IEEE Transactions on Audio, Speech and Language Processing (TASLP), 16(2):448–457, February 2008.
Y.-H. Yang, C.-C. Liu, and H.-H. Chen. Music emotion classification: A fuzzy approach. In Proceedings of ACM Multimedia 2006 (MM’06), pages 81–84, Santa Barbara, CA, USA, 2006.
M-L Zhang and Z-H Zhou. Ml-knn: A lazy learning approach to multi-label learning. Pattern Recognition, 40(7):2038–2048, 2007.