Источник: http://www.gistatgroup.com/gus/book1/index.html
Метод "Гусеница": базовый алгоритм.
Описание базового алгоритмаРассмотрим временной ряд {xi}Ni=1, образованный последовательностью N равноотстоящих значений некоторой (возможно, случайной) функции f(t): xi = f((i-1)Dt), где i=1,2,…,N. Отметим, что существует несколько вариантов базового алгоритма, здесь мы опишем лишь минимальный. Базовый алгоритм метода "Гусеница" можно разбить на четыре этапа. Этап 1. ( Развертка одномерного ряда в многомерный ) Выберем некоторое число M<N , называемое длиной гусеницы, и представим первые M значений последовательности f в качестве первой строки матрицы X . В качестве второй строки матрицы берем значения последовательности с x2 по xM+1. Последней строкой с номером k = N – M + 1 будут последние M элементов последовательности. Эту матрицу, элементы которой равны xij = xi+j-1, можно рассматривать как M – мерную выборку объема k или M – мерный временной ряд, которому соответствует M – мерная траектория (ломаная в M – мерном пространстве из k-1 звена. Отметим, что матрица X (будем называть ее матрицей ряда) представлена в традиционном для прикладной статистики виде "строка – индивид, столбец – признак". При изложении теоретических аспектов естественным является сопоставление индивиду столбца. Далее по обычной схеме (за исключением стандартизации признаков) проводится анализ главных компонент (АГК). Этап 2. ( Анализ главных компонент: сингулярное разложение выборочной ковариационной матрицы ) Сначала вычисляется матрица V = (1/k)XTX. Несмотря на то, что ее элементы не центрированы, мы будем называть ее ковариационной матрицей, иногда добавляя слово "нецентральная". Следующий шаг, как обычно в АГК, состоит в вычислении собственных чисел и собственных векторов матрицы V , т.е. разложение ее V = PLPT, где L – диагональная матрица, на диагонали которой стоят упорядоченные по убыванию собственные числа, а P – ортогональная матрица собственных векторов матрицы V. Матрицы L и P совместно имеют множество интерпретаций, основанных на АГК. В частности, матрицу P можно рассматривать как матрицу перехода к главным компонентам XP = Y = (y1,y2,...,yM). Если изучается выборка из случайной совокупности, то собственные числа матрицы V являются выборочными дисперсиями соответствующих главных компонент, а квадратные корни из них – выборочными стандартами. Графическое представление собственных чисел и некоторых функций от них в АГК традиционно используется для выявления структуры исследуемой совокупности и отбора и интерпретации главных компонент. Заметим также, что при выборе длины гусеницы, равной N-M+1 , собственные вектора и главные компоненты (с точностью до нормировки) просто меняются местами. Этап 3. ( Отбор главных компонент ) В силу свойств матрицы P мы можем представить матрицу ряда X как X = Y PT. Таким образом, мы получаем разложение матрицы ряда по ортогональным составляющим (главным компонентам). В то же время преобразование yj = X pj является линейным преобразованием исходного процесса с помощью дискретного оператора свертки, т.е. yj [l] = SMq=1 xlq pjq=SMq=1 xl+q-1 pjq. Таким образом, процедура "Гусеница" порождает набор линейных фильтров, настроенных на составляющие исходного процесса. При этом собственные векторы матрицы V выступают в роли переходных функций соответствующих фильтров. Визуальное и аналитическое изучение как собственных векторов, так и главных компонент, полученных в результате линейной фильтрации, может дать много интересной информации о структуре изучаемого процесса и свойствах составляющих его слагаемых. В частности, среди главных компонент можно выделить
Для нахождения периодических составляющих чрезвычайно большую визуальную информацию дает изучение двумерных графиков, аналогичных фигурам Лиссажу, когда по осям x и y откладываются различные пары собственных векторов или главных компонент. Известно, что, если по осям откладывать значения синусоиды одной и той же той же частоты, но с разными фазами, то на плоскости получается эллипс. Из ортогональности собственных векторов и главных компонент следует, что сдвиг фаз между такими парами обязательно будет равен ±p/2 и эллипс переходит в окружность. Этап 4 . ( Восстановление одномерного ряда ) Следующим ключевым элементом метода "Гусеница" является процедура восстановления. Эта процедура основана на разложении X = Y PT. Будем говорить, что восстановление проводится по данному набору главным компонентам, если при применении формулы восстановления X = Y* PT матрица Y* получена из матрицы Y обнулением всех не входящих в набор главных компонент. Таким образом, мы можем получить интересующее нас приближение матрицы ряда или интерпретируемую часть этой матрицы. Переход к исходному ряду формально может быть осуществлен усреднением матрицы ряда по побочным диагоналям и может привести к некоторому искажению полученной структуры. Отметим сразу одну очень важную особенность описанного метода – его интерактивность, то есть использование диалога исследователя и ЭВМ в процессе применения метода. Причем эта интерактивность не должна рассматриваться как следствие общей тенденции развития современного программного обеспечения персональных ЭВМ. Скорее, наоборот, эффективная реализация алгоритма стала возможной только благодаря возможностям современных ПК. Его интерактивность связана с типично статистическим свойством алгоритма – необходимостью интерпретации промежуточных результатов и управлением работой алгоритма в процессе многоэтапной процедуры обработки. Опыт многолетнего использования различных реализаций алгоритма на ЭВМ разных поколений показал, что чем больше промежуточных результатов удается "увидеть", тем более полным оказывается решение поставленной задачи. Заметим, что при программной реализации этапы приведенного выше алгоритма не воспроизводятся непосредственно. Например, этап построения матрицы X отсутствует, а формулы преобразованы к виду удобному для проведения ускоренных вычислений. Выбор параметров при применении метода "Гусеница"Как видно из описания метода, основным управляющим параметром метода является M – длина гусеницы. При геометрической интерпретации этот параметр является размерностью пространства, в котором исследуется траектория многомерной ломаной линии, в которую переводится исходный временной ряд процедурой гусеница. Естественным условием является M<N/2 , так как размерность множества k точек (вершин ломаной) в M -мерном пространстве не превосходит min(M,k-1). Этот подход тесно связан с аналитической интерпретацией метода гусеница как аппроксимацией решения уравнения в конечных разностях с l коэффициентами. Можно сказать, что l – это число степеней свободы функции f(t), а следовательно, и соответствующего ей временного ряда. В процедуре "Гусеница" это выразится в том, что при M>l у ковариационной матрицы окажется только l ненулевых собственных чисел (учитывая ограниченную точность вычислений, остальные M-l будут почти нулевые). Однако, в реальных исследованиях эта ситуация достаточно редкая. В общем случае выбор длины гусеницы существенно зависит от задачи, решаемой этим методом. Рассмотрим три наиболее типичных и исследованных разработчиками случая.
Напомним, однако, что метод чрезвычайно устойчив относительно изменения длины гусеницы, и, поэтому, когда речь идет о выборе M , то следует понимать, что проявляется резонансный эффект относительно длины гусеницы не столько в количественном, сколько в качественном смысле. Следующим элементом методики проведения анализа методом "Гусеница", который не может быть выполнен априори, является отбор главных компонент, информативных в том или ином смысле. Для этих двух представлений имеется 4 набора интерпретируемых объектов:
Еще раз отметим два крайних случая, где логика отбора несколько отличается:
|