вверх
 
ДонНТУ   Портал магистров

Реферат по теме выпускной работы

Содержание

Введение

Общественные явления можно изучать в двух разрезах: в статическом и динамическом. Ряды распределения, которые получают в результате сводки и группировки статистических данных, относятся к одному периоду или моменту времени и изучаются в статистике. Здесь время участвует в пассивной форме. Если же данные относятся к различным периодам или моментам, большой интерес представляет сравнение данных во времени, которое приобретает здесь решающее значение. Известно, что любое явление может быть правильно понято, если его изучать в движении и развитии. При решении любого вопроса, при анализе любого явления важно знать, как оно возникло, развивалось и развивается. Только при этих условиях можно решить вопрос о перспективах его развития. В процессе развития меняются размеры, состав, объем, структура конкретных общественных явлений. Поэтому одной из важнейших задач статистики является изучение этих изменений: процесса их развития, их динамика. Эту задачу статистика решает путем построения и анализа временных рядов.

Временные ряды имеют огромное значение для выявления и изучения складывающихся закономерностей в развитии явлений экономической, политической и культурной жизни общества.

С их помощью решается актуальная по сегодняшний день задача прогнозирования.

Осуществление преобразования временного ряда в обучающую выборку – актуальная и малоизученная область. Эти преобразования напрямую зависят от характеристик самого временного ряда.

Целью магистерской работы является разработка алгоритма сегментации временных рядов и программная реализация разработанного метода.

1. Цель и задачи исследования

Целью исследования является анализ существующего состояния научных исследований в области статистики и прогнозирования для последующей разработки алгоритма сегментации временных рядов.

Основной задачей является формулирование основных требований к предварительным преобразованиям временных рядов, необходимых для уменьшения ошибки методов прогнозирования. В выпускной работе магистра планируется разработка и программная реализация алгоритма формирования обучающей выборки из временного ряда для прогнозирования временных рядов в задачах прогнозирования.

Объектом исследования является временной ряд.

Предметом исследования выступают предварительные преобразования временного ряда в задачах прогнозирования.

2. Актуальность темы

Одной из актуальных проблем на сегодняшний день можно выделить задачу прогнозирования. От качества прогноза, зачастую, зависит многое. На данный момент существует огромное количество алгоритмов прогнозирования, результат которых напрямую зависит от входных данных, т.е. выборок, сформированных из временных рядов.

Временные ряды имеют огромное значение для выявления и изучения складывающихся закономерностей в развитии явлений экономической, политической и культурной жизни общества. Ввиду наличия сложных закономерностей во временном ряду, которые сложно или нельзя обнаружить линейными методами, данные задачи также часто решаются с использованием нейронных сетей. Одним из самых важных этапов решения задачи нейросетевого прогнозирования является формирование обучающей выборки. Именно от ее качества (состава, полноты и т.п.) зависят как время обучения нейронной сети, так и качество прогноза в целом.

Многие алгоритмы прогнозирования дают хорошие результаты при условии достаточно небольшого количества входных данных. Если количество значений во временном ряду очень велико, его следует сократить таким образом, что бы отобразить все его свойства в полном объеме – сделать выборку или сегментацию временного ряда без потери «смысла» [1].

Так как не существует единого оптимального алгоритма, удовлетворяющего всем задачам и требованиям, возникает необходимость разработать алгоритм сегментации временных рядов для корректного формирования выборок.

3. Предполагаемая научная новизна

Научной новизной данной работы является разработка алгоритма сегментации временных рядов – нового направления в предобработке временных рядов большого объема и формировании на их основе обучающих выборок, эффективно решающего проблемы предобработки данных в задачах прогнозирования.

4. Общие сведения о временных рядах

Временным рядом называется ряд наблюдений за значениями некоторого показателя (признака), упорядоченный в хронологической последовательности, т.е. в порядке возрастания переменной t-временного параметра [2].

Динамические ряды – понятие, относящееся к тем рядам уровней, в которых содержится тенденция изменения, а временные ряды – более общее понятие, включающее как динамические, так и статические последовательности уровней какого-либо показателя [2,3].

Таким образом, временной ряд представляет собой ряд расположенных в хронологической последовательности числовых значений статистического показателя, характеризующих изменение общественных явлений во времени.

Временные ряды – это ряд числовых значений статистического показателя, расположенных в хронологической последовательности. В каждом временном ряду присутствуют два основных элемента: время и конкретное значение показателя (уровень ряда). Временные ряды, как правило, представляют в виде таблицы или графика. Например, в таблице 1 приведены данные, отражающие спрос на некоторый товар за 8-летний период, т. е. временной ряд спроса Yt.

Таблица 4.1 – Данные спроса на некоторый товар за 8-летний период

Год t 1 2 3 4 5 6 7 8
Спрос Yt 213 171 291 309 317 362 351 361

Временной ряд можно изобразить графически (рис. 4.1).

Рисунок 4.1 – Графическое представление временного ряда

Рисунок 4.1 – Графическое представление временного ряда

Как и каждый анализ – анализ временных рядов предполагает решение конкретных задач, таких как: измеряет абсолютную и относительную скорость роста либо снижения уровня за отдельные промежутки времени; дает обобщающие характеристики уровня и скорости его изменения за тот или иной период; выявляет и численно характеризует основные тенденции развития явлений на отдельных этапах; выявляет факторы, обусловливающие изменение изучаемого явления во времени; делает прогнозы развития явления в будущем (экстраполяция и интерполяция).

В каждом временном ряду имеются два основных элемента: время t и конкретное значение показателя (уровень ряда) у.

Уровни ряда – это показатели, числовые значения которых составляют динамический ряд, т.е. они отображают количественную оценку (меру) развития во времени изучаемого явления. Время – это моменты или периоды, к которым относятся уровни [3].

Важнейшим условием правильного формирования временных рядов является сопоставимость уровней, образующих ряд. Уровни ряда, подлежащие изучению, должны быть однородны по экономическому содержанию и учитывать существо изучаемого явления и цель исследования. Каждый уровень временного ряда формируется под воздействием большого числа факторов, которые условно можно подразделить на три группы:

Большинство временных рядов экономических показателей имеют тенденцию, характеризующую совокупное долговременное воздействие множества факторов на динамику изучаемого показателя. Все эти факторы, взятые в отдельности, могут оказывать разнонаправленное воздействие на исследуемый показатель. Однако в совокупности они формируют его возрастающую или убывающую тенденцию. На рис. 4.2 показан гипотетический временной ряд, содержащий возрастающую тенденцию.

Рисунок 4.2 – Гипотетический временной ряд, содержащий возрастающую тенденцию

Рисунок 4.2 – Гипотетический временной ряд, содержащий возрастающую тенденцию

Также изучаемый показатель может быть подвержен циклическим колебаниям. Эти колебания могут носить сезонный характер, поскольку экономическая деятельность ряда отраслей экономики зависит от времени года (например, цены на сельскохозяйственную продукцию в летний период выше, чем в зимний; уровень безработицы в курортных городах в зимний период выше по сравнению с летним). При наличии больших массивов данных за длительные промежутки времени можно выявить циклические колебания, связанные с общей динамикой конъюнктуры рынка. На рис. 4.3 представлен гипотетический временной ряд, содержащий только сезонную компоненту.

Рисунок 4.3 – Гипотетический временной ряд, содержащий только сезонную компоненту

Рисунок 4.3 – Гипотетический временной ряд, содержащий только сезонную компоненту

Некоторые временные ряды не содержат тенденции и циклической компоненты, а каждый следующий их уровень образуется как сумма среднего уровня ряда и некоторой (положительной или отрицательной) случайной компоненты. Пример ряда, содержащего только случайную компоненту, приведен на рис. 4.4.

Рисунок 4.4 – Гипотетический временной ряд, содержащий только случайную компоненту

Рисунок 4.4 – Гипотетический временной ряд, содержащий только случайную компоненту

Очевидно, что реальные данные не следуют целиком и полностью из каких-либо описанных выше моделей. Чаще всего они содержат все три компоненты. Каждый их уровень формируется под воздействием тенденции, сезонных колебаний и случайной компоненты.

Статистические данные, представленные в виде временных рядов, должны быть сопоставимы по территории, кругу охватываемых объектов, единицам измерения, моменту регистрации, методике расчета, ценам, достоверности.

Построение и анализ рядов динамики позволяют выявить и измерить закономерности развития общественных явлений во времени. Эти закономерности не проявляются четко на каждом конкретном уровне, а лишь в тенденции, в достаточно длительной динамике. На основную закономерность динамики накладываются другие, прежде всего случайные, иногда сезонные влияния. Выявление основной тенденции в изменении уровней, именуемой трендом, является одной из главных задач анализа рядов динамики [4].

5. Предварительные преобразования временных рядов в задачах прогнозирования

Метод прогнозирования – способ создания прогноза через практические и теоретические действия. Существует большое количество методов прогнозирования. Единой классификации методов прогнозирования не существует [5].

Прогнозирование временного ряда – вычисление величины его будущих значений либо характеристик, позволяющих определить эту величину, на основании анализа известных значений. Величина, подлежащая прогнозу, называется прогнозируемой величиной (ПВ) [5, 6].

Данные, представленные в виде временных рядов, интерпретируются в качестве последовательностей измерений, упорядоченных в неслучайные моменты времени. В отличие от анализа случайных выборок, анализ временных рядов основывается на предположении, что последовательные значения данных наблюдаются через равные промежутки времени (тогда как в других методах не важна и часто неинтересна привязка наблюдений ко времени). Задача прогнозирования временных рядов заключается в предсказании будущего поведения системы (вычисления будущих, неизвестных значений того или иного временного ряда) по имеющейся последовательности ее предыдущих состояний.

Прогнозирование временных рядов является важной научно-технической проблемой, т.к. позволяет предсказать поведение различных факторов в экологических, экономических, социальных и иных системах. Таким образом, основной целью любого прогнозирования является создание некой «машины времени», которая позволяет заглянуть в будущее и оценить тенденции в изменениях того или иного фактора. Такая «машина времени» в большинстве случаев базируется на методах математического моделирования, в частности, на построении модельной авторегрессии, скользящей по временному ряду и позволяющей осуществлять экстраполирование на несколько шагов вперед.

Существует множество методов прогнозирования. Одним из них является многослойный персептрон. Многослойный персептрон – это полносвязная модель без обратных связей. Количество слоев и нейронов в них обычно обусловлено постановкой задачи и вычислительными способностями ЭВМ.

Схему решения задачи прогнозирования можно представить в виде последовательности этапов (рис. 5.1).

Рисунок 5.1 – Схема решения задачи прогнозирования

Рисунок 5.1 – Схема решения задачи прогнозирования

Если временной ряд порождается динамической системой, т.е. значения {a(t)} – произвольная функция состояния такой системы, существует такое число d, что d предыдущих значений временного ряда однозначно определяет следующее значение. На практике большинство прогнозируемых временных рядов порождаются сложными динамическими системами, для которых велико значение d. Кроме того, в самом временном ряде может присутствовать случайная составляющая. Поэтому на этапе предварительных преобразований выполняются предварительные преобразования исходных данных, позволяющие уменьшить ошибку прогнозирования [6].

Предварительные преобразования (ПП) – получение для момента времени ti набора из определяющих факторов и соответствующего им значения ПВ. Определяющие факторы представляют собой некую функцию от прошлых значений временного рядя. После выполнения ПП для различных моментов времени t, временной ряд представляется в виде множества значений функции зависимости от определяющих факторов. Из множества полученных наборов выделяются два непересекающиеся подмножества. Одно из них представляет собой исходные данные (обучающую выборку). Другое подмножество представляет собой контрольную выборку, используется для проверки качества прогноза. Таким образом, прогнозирование временного ряда сводится к задаче интерполяции функции многих переменных. Система прогнозирования используется для восстановления этой функции по множеству наборов, входящих в состав обучающей выборки [6].

Определенной сложностью является формирование обучающей выборки, которая должна выполнять требования к полноте (выборка не должна содержать пропуски, должна содержать все допустимые примеры исследуемого диапазона) и непротиворечивости (выборка не должна содержать противоречивых примеров). Для проверки обучающей выборки на соответствие требованиям необходима оценка их качества, непосредственно определение понятий качества выборки, критериев оценки качества и разработки математического аппарата для их однозначной оценки. Для повышения прогностической способности допустимы (иногда необходимы) дополнительные преобразования, такие как методы фильтрации и восстановления данных (например, вейвлет-преобразование) [7].

Очевидно, с увеличением количества входных переменных погрешность растет. Также следует отметить, что погрешность слабо разнится у систем с одинаковой размерностью входных данных. Несмотря на достаточно высокие показатели погрешности, целесообразно проверить полученные результаты на тестовой выборке и сравнить с реальными показателями.

Например, искусственная нейронная сеть показывают хорошие результаты, когда размер обучающей выборки имеет приблизительно 200-300 значений. В случаях, когда временной ряд содержит тысячи, десятки тысяч значений, оптимальным было бы сократить его до нужного размера, при этом, не потеряв его значимости, отразив всю нужную информацию, т.е. осуществить сегментацию таким образом, чтобы временной ряд имел более компактное представление, но при этом ошибка прогноза по преобразованным данным не была недопустимой [8] (рис. 5.2).

Рисунок 5.2 – Прогнозирование временного ряда после предварительных преобразований

Рисунок 5.2 – Прогнозирование временного ряда после предварительных преобразований
(анимация: 5 кадров, 7 циклов повторения, 36 килобайт)

К сожалению, в работах большинства авторов основное внимание уделено выбору архитектуры алгоритма, способу обучения нейронных сетей, а этап ПП рассматривается лишь в контексте конкретной практической задачи, либо не рассматривается вообще. Как правило приводится описание определенного типа ПП и результатов, полученных от его использования в той или иной области, а сравнительного анализа с другими типами ПП и критериев, по которым можно было бы их сравнить, не приводится. Тем не менее, ПП влияет на результат решения задачи прогнозирования, т.к. результат ПП является исходными данными для алгоритмов прогнозирования. Корректно проведенный этап ПП может значительно уменьшить ошибку прогноза. Использование в качестве предварительного преобразования сверток исходных данных позволит описать ситуацию меньшим количеством признаков без потери или с допустимой потерей точности. Это также приводит к сокращению времени обучения нейронной сети [6].

Итак, необходимо разработать алгоритм, который позволит сформировать выборку по временному ряду таким образом, что потеря точности будет в допустимых пределах, а уменьшение количества значений не повлечет за собой увеличение ошибки алгоритма прогнозирования. Следовательно, входными данными будет являться временной ряд, выходными – выборка, которая в последствии будет являться входными данными для алгоритмов прогнозирования.

Данный алгоритм должен удовлетворять следующим требованиям:

6. Обзор исследований и разработок по теме

Проведен анализ существующего состояния научных исследований в области статистики и прогнозирования для последующей разработки алгоритма сегментации временных рядов. Установлено, что на сегодняшний день ведутся разработки алгоритмов прогнозирования временных рядов. Но не уделяется должного внимания предварительным преобразованиям, таким, как формирование обучающей выборки, которые способны уменьшить ошибку прогноза [9-11].

Выводы

В ходе проведения исследований было проанализировано существующее состояние научных исследований в области статистики и прогнозирования для последующей разработки алгоритма сегментации временных рядов.

Была рассмотрена актуальная проблема формирования обучающей выборки из временного ряда для прогнозирования временных рядов в задачах нейросетевого прогнозирования. Были рассмотрены вопросы предварительных преобразований данных в задачах прогнозирования временных рядов посредствам нейронных сетей.

Были сформированы требования к алгоритму, который будет разрабатываться в выпускной работе магистра.

Основным требованием для разрабатываемого алгоритма можно назвать возможность описания ситуации меньшим количеством признаков без потери или с допустимой потерей точности.

Таким образом, реализация алгоритма сегментации исходных данных временных рядов для формирования обучающей выборки, который обеспечивает улучшение результативности задачи прогнозирования, является актуальной задачей.

Проведенный анализ показывает, что новый алгоритм будет обеспечивать сокращение времени обучения нейронной сети или влиять на результат решения задачи прогнозирования, т.к. результат работы алгоритма – это исходные данные для задачи прогнозирования.

Важное замечание

При написании данного автореферата магистерская работа еще не завершена. Предположительная дата завершения – 10 декабря 2013 г. Полный текст работы, а также материалы по теме могут быть получены у автора или его руководителя после указанной даты.

Список источников

  1. Тарасенко Р.А. Предварительная оценка качества обучающей выборки для нейронных сетей в задачах прогнозирования временных рядов / Р.А. Тарасенко, В.А. Крисилов, // Труды Одесского политехнического университета – Одесса – 2001. – №1. – С. 90.
  2. Гусаров В.М. Статистика: Учебное пособие для вузов / В.М. Гусаров. – М. : ЮНИТИ – ДАНА, 2001.
  3. Новиков М.М. Статистика. Показатели и методы анализа: Учебное пособие / М.М. Новиков. – М. : Современная школа, 2005.
  4. Бокс Дж. Анализ временных рядов. Прогноз и управление / Дж. Бокс, Г. Дженкинс М. : Мир, 1974.
  5. Афанасьев В.Н. Анализ временных рядов и прогнозирование: Учебник / В.Н. Афанасьев, М.М. Юзбашев. – М.: Финансы и статистика, 2001.
  6. Крисилов В.А. Представление исходных данных в задачах нейросетевого прогнозирования / В.А. Крисилов, К.В. Чумичкин, А.В. Кондратюк // Научная сессия мифи – 2003. – М.: МИФИ, 2003. – С 184–191.
  7. Востров Н.Г. Моделирование временных рядов с использованием вейвлет-сетей / Н.Г. Востров, В.В. Любченко, М.В. Полякова // Искусственный интеллект. – Донецк – 2000. – №3. – С 207–214.
  8. Technologic by newwpthemes [Электронный ресурс]. – Режим доступа: http://nejroseti.ru/category/predstavlenie-ishodnyh-dannyh-v-zadachah/page/2/.
  9. Тарасенко Р.А. Метод анализа и повышения качества обучающих выборок нейронных сетей для прогнозирования временных рядов. / Р.А. Тарасенко – ОНПУ, 2001.
  10. Козадаев А.С. Прогнозирование временных рядов с помощью аппарата искусственных нейронных сетей. Краткосрочный прогноз температуры воздуха / А.С. Козадаев, А.А. Арзамасцев. – Естественные и технические науки, 2006.
  11. Зайцев П.Н. Нечеткая сегментация временных рядов / П.Н. Зайцев // Вестник ВГУ – Воронеж – 2009. – №1. – С 60–67.