Динамическая кластеризация временных рядов с использованием агрегированных показателей

Авторы: Полосухин Илья

Источник: http://escalibro.com
 

Введение.

Успешное решение задачи прогнозирования рядов в значительной мере определяется соответствием выбранной модели истинной структуре ряда. Задача выбора вида модели не имеет формального решения и в значительной мере опирается на эвристические соображения в сочетании со статистическими методами оценивания параметров модели и последующей проверкой ее адекватности. Очевидно, что решение указанной задачи существенно облегчается, если предварительно сгруппировать исследуемые временные ряды в группы, содержащие ряды, в определенном смысле близкие по структуре. Для решения этой вспомогательной задачи можно использовать известные методы кластеризации, однако при этом возникает проблема выбора обоснованных показателей «близости» временных рядов на основе вычисляемых статистических характеристик.

Проблема кластеризации временных рядов. Различные походы к решению задачи кластеризации временных рядов рассматривались в ряде работ . При этом для решении задачи использовались такие методы кластеризации, как перегруппированная кластеризация (relocation clustering), агломеративная иерархическая кластеризация, метод k–среднего, метод нечеткого c–среднее и другие.

В рассмотрены вопросы классификация временных рядов цен на акции по индустриальным категориям, таким как Media, IT, и др. и проведен анализ движения цен акций между различными категориями. При этом использовались следующие показатели:

Для решения задачи использовалась иерархическая конгломеративная кластеризация с функциями стоимости Single link (min), Complete link (max), average link, ward’s method. В качестве метрики была выбрано Евклидовое расстояние.

Основные подходы к задаче кластеризации временных рядов рассмотрены в . Таким образом, основная проблема состоит в выборе системы показателей временного ряда, обеспечивающих формирование критериев их подобия (близости) и соответствующего метода кластеризации.

Выбор перечня показателей. Для решения задачи кластеризации были в работе выбраны следующие показатели временного ряда :

Показатель, основанный на использовании коэффициентов разложения ряда по методу главных компонент. Для расчетов целесообразно воспользоваться методов «Гусеницы» (Singular Spectrum Analysis)» . Расчеты производятся на основе использования так называемой «траекторной» матрицы, вычисленной на интервале времени.

Далее выполняется сингулярное разложение матрицы V: , где — диагональная матрица размера с неотрицательными вещественными числами по диагонали. Эти числа и используются в качестве коэффициентов разложения по методу «Гусеницы».

Показатель Хёрста — показатель стохастичности ряда, позволяющий оценить, является ли ряд стохастичным, белым шумом или же имеет место наличие тренда.

Выбор алгоритма кластеризации и метрики. В работе был использован известный метод кластеризации k–среднее. В качестве метрики было выбрано Евклидово расстояние в пространстве оцениваемых показателей.

Вычислительный эксперимент. Для вычислительного эксперимента были использованы временные ряды цен на акции на бирже NASDAQ за последние 5 лет. Был проведен эксперимент, на 500 временных рядах, которые разбивались на 10 групп. В приведенной ниже Таблице 1, указаны среднее расстояние, заданное формулой (7), между временными рядами внутри одной группы.

Как видно из таблицы, группы № 1–6 имеют сравнительно малое среднее расстояния между временными рядами. Группы №№ 7–10 в таблице не приведены, так как среднее расстояние в них на порядок больше, что означает, что эти группы — содержат выбросы. Подсчёт среднего расстояния между центрами кластеров показал, что они удалены друг от друга, так как расстояние превышает.

Заключение

В перспективе, для лучшей кластеризации, можно использовать другие методы. Например, c–среднее — нечеткая кластеризация, которая позволит определить с какой степенью тот или иной ряд относится к какому–то кластеру. Целесообразно также использовать методы иерархической кластеризации, которые не требуют задания исходного числа кластеров, а позволяют найти их в процессе выполнения процедуры кластеризации. Так же для процедуры c–среднего можно использовать метрику относительного расстояния, вычисленную через корреляционный коэффициент Пирсона.

Представляет интерес так же использование других показателей, таких как коэффициенты разложения на прототипы функций (вейвлеты), коэффициенты разложения Фурье и другие возможные разложения, что, возможно, позволит повысить точность кластеризации.

Список литературы:

  1. Todd Wittman. Time–Series Clustering and Association Analysis of Financial Data : сайт математического факультета Университета Калифорнии
  2. T.Warren Liao. Clustering of time series data
  3. Показатель Хёрста : международная интернет энциклопедия