вверх
Назад в библиотеку

 

Разработка и анализ алгоритмов сегментации временных рядов

Авторы: А.М. Мирошниченко, Е.С. Шагаева

Источник: Информационно-управляющие системы и компьютерный мониторинг / Материалы IV международной научно-технической конференции студентов, аспирантов и молодых ученых. — Донецк, ДонНТУ — 2013, секция 8.

Аннотация: Шагаева Е.С., Мирошниченко А.М. Разработка и анализ алгоритмов сегментации временных рядов. Выполнен анализ существующего состояния научных исследований в области статистики и прогнозирования для последующей разработки алгоритма сегментации временных рядов. Сформулированы основные требования к предварительным преобразованиям временных рядов, необходимые для уменьшения ошибки прогноза методов прогнозирования.

Ключевые слова: алгоритмы сегментации временных рядов, предварительные преобразования временных рядов, уменьшение ошибки прогноза.

 

Постановка проблемы

Одной из актуальных проблем на сегодняшний день можно выделить задачу прогнозирования. От качества прогноза, зачастую, зависит многое. На данный момент существует огромное количество алгоритмов прогнозирования, результат которых напрямую зависит от входных данных, т.е. выборок, сформированных из временных рядов.

Временные ряды имеют огромное значение для выявления и изучения складывающихся закономерностей в развитии явлений экономической, политической и культурной жизни общества. Ввиду наличия сложных закономерностей во временном ряду, которые сложно или нельзя обнаружить линейными методами, данные задачи также часто решаются с использованием нейронных сетей. Одним из самых важных этапов решения задачи нейросетевого прогнозирования является формирование обучающей выборки. Именно от ее качества (состава, полноты и т.п.) зависят как время обучения нейронной сети, так и качество прогноза в целом.

Многие алгоритмы прогнозирования дают хорошие результаты при условии достаточно небольшого количества входных данных. Если количество значений во временном ряду очень велико, его следует сократить таким образом, что бы отобразить все его свойства в полном объеме – сделать выборку или сегментацию временного ряда без потери «смысла».

Так как не существует единого оптимального алгоритма, удовлетворяющего всем задачам и требованиям, возникает необходимость разработать алгоритм сегментации временных рядов для корректного формирования выборок.

Цель статьи

Провести анализ существующего состояния научных исследований в области статистики и прогнозирования для последующей разработки алгоритма сегментации временных рядов. Сформулировать основные требования к предварительным преобразованиям временных рядов, необходимых для уменьшения ошибки методов прогнозирования.

Постановка задачи исследования

Метод прогнозирования – способ создания прогноза через практические и теоретические действия. Существует большое количество методов прогнозирования. Единой классификации методов прогнозирования не существует [1].

Прогнозирование временного ряда – вычисление величины его будущих значений либо характеристик, позволяющих определить эту величину, на основании анализа известных значений. Величина, подлежащая прогнозу, называется прогнозируемой величиной (ПВ) [2].

Данные, представленные в виде временных рядов, интерпретируются в качестве последовательностей измерений, упорядоченных в неслучайные моменты времени. В отличие от анализа случайных выборок, анализ временных рядов основывается на предположении, что последовательные значения данных наблюдаются через равные промежутки времени (тогда как в других методах не важна и часто неинтересна привязка наблюдений ко времени). Задача прогнозирования временных рядов заключается в предсказании будущего поведения системы (вычисления будущих, неизвестных значений того или иного временного ряда) по имеющейся последовательности ее предыдущих состояний.

Прогнозирование временных рядов является важной научно-технической проблемой, т.к. позволяет предсказать поведение различных факторов в экологических, экономических, социальных и иных системах. Таким образом, основной целью любого прогнозирования является создание некой «машины времени», которая позволяет заглянуть в будущее и оценить тенденции в изменениях того или иного фактора. Такая «машина времени» в большинстве случаев базируется на методах математического моделирования, в частности, на построении модельной авторегрессии, скользящей по временному ряду и позволяющей осуществлять экстраполирование на несколько шагов вперед.

Если временной ряд порождается динамической системой, т.е. значения {a(t)} – произвольная функция состояния такой системы, существует такое число d, что d предыдущих значений временного ряда однозначно определяет следующее значение. На практике большинство прогнозируемых временных рядов порождаются сложными динамическими системами, для которых велико значение d. Кроме того, в самом временном ряде может присутствовать случайная составляющая. Поэтому на этапе предварительных преобразований выполняются предварительные преобразования исходных данных, позволяющие уменьшить ошибку прогнозирования [2].

Предварительные преобразования (ПП) – получение для момента времени ti набора из определяющих факторов и соответствующего им значения ПВ. Определяющие факторы представляют собой некую функцию от прошлых значений временного рядя. После выполнения ПП для различных моментов времени t, временной ряд представляется в виде множества значений функции зависимости от определяющих факторов. Из множества полученных наборов выделяются два непересекающиеся подмножества. Одно из них представляет собой исходные данные (обучающую выборку). Другое подмножество представляет собой контрольную выборку, используется для проверки качества прогноза. Таким образом, прогнозирование временного ряда сводится к задаче интерполяции функции многих переменных. Система прогнозирования используется для восстановления этой функции по множеству наборов, входящих в состав обучающей выборки [2].

Определенной сложностью является формирование обучающей выборки, которая должна выполнять требования к полноте (выборка не должна содержать пропуски, должна содержать все допустимые примеры исследуемого диапазона) и непротиворечивости (выборка не должна содержать противоречивых примеров). Для проверки обучающей выборки на соответствие требованиям необходима оценка их качества, непосредственно определение понятий качества выборки, критериев оценки качества и разработки математического аппарата для их однозначной оценки. Для повышения прогностической способности допустимы (иногда необходимы) дополнительные преобразования, такие как методы фильтрации и восстановления данных (например, вейвлет-преобразование) [3].

Очевидно, с увеличением количества входных переменных погрешность растет. Также следует отметить, что погрешность слабо разнится у систем с одинаковой размерностью входных. Несмотря на достаточно высокие показатели погрешности, целесообразно проверить полученные результаты на тестовой выборке и сравнить с реальными показателями.

Например, искусственная нейронная сеть показывают хорошие результаты, когда размер обучающей выборки имеет приблизительно 200-300 значений. В случаях, когда временной ряд содержит тысячи, десятки тысяч значений, оптимальным было бы сократить его до нужного размера, при этом, не потеряв эго значимости, отразив всю нужную информацию.

К сожалению, в работах большинства авторов основное внимание уделено выбору архитектуры алгоритма, способу обучения нейронных сетей, а этап ПП рассматривается лишь в контексте конкретной практической задачи, либо не рассматривается вообще. Как правило приводится описание определенного типа ПП и результатов, полученных от его использования в той или иной области, а сравнительного анализа с другими типами ПП и критериев, по которым можно было бы их сравнить, не приводится. Тем не менее, ПП влияет на результат решения задачи прогнозирования, т.к. результат ПП является исходными данными для алгоритмов прогнозирования. Корректно проведенный этап ПП может значительно уменьшить ошибку прогноза. Использование в качестве предварительного преобразования сверток исходных данных позволит описать ситуацию меньшим количеством признаков без потери или с допустимой потерей точности. Это также приводит к сокращению времени обучения нейронной сети [2].

Итак, необходимо разработать алгоритм, который позволит сформировать выборку по временному ряду таким образом, что потеря точности будет в допустимых пределах, а уменьшение количества значений не повлечет за собой увеличение ошибки алгоритма прогнозирования. Следовательно, входными данными будет являться временной ряд, выходными – выборка, которая в последствии будет являться входными данными для алгоритмов прогнозирования.

Решение задач и результаты исследований

В процессе исследования данной области знаний было установлено, что не существует единого оптимального метода по решению задач прогнозирования временных рядов.

В дальнейшем планируется разработка и реализация алгоритма формирования обучающей выборки из временного ряда для прогнозирования временных рядов в задачах прогнозирования.

Данный алгоритм должен удовлетворять следующим требованиям:

Выводы

Проведен анализ существующего состояния научных исследований в области статистики и прогнозирования для последующей разработки алгоритма сегментации временных рядов. Установлено, что на сегодняшний день ведутся разработки алгоритмов прогнозирования временных рядов. Но не уделяется должного внимания предварительным преобразованиям, таким, как формирование обучающей выборки, которые способны уменьшить ошибку прогноза. Сформулированы основные требования к предварительным преобразованиям временных рядов, необходимые для уменьшения ошибки методов прогнозирования. Основным требованием для разрабатываемого алгоритма можно назвать возможность описания ситуации меньшим количеством признаков без потери или с допустимой потерей точности.

Список литературы

  1. Афанасьев В.Н. Анализ временных рядов и прогнозирование: Учебник / В.Н. Афанасьев, М.М. Юзбашев. – М.: Финансы и статистика, 2001.
  2. Крисилов В.А. Представление исходных данных в задачах нейросетевого прогнозирования / В.А. Крисилов, К.В. Чумичкин, А.В. Кондратюк // Научная сессия мифи-2003. – М.: МИФИ, 2003. – С 184–191.
  3. Востров Н.Г. Моделирование временных рядовс использованием вейвлет-сетей / Н.Г. Востров, В.В. Любченко, М.В. Полякова // Искусственный интеллект. – Донецк – 2000. – №3. – С 207–214.

 

Назад в библиотеку