Реферат - Розробка та аналіз алгоритмів сегментації часових рядів

Реферат за темою випускної роботи

Содержание

Вступ
1. Мета і завдання дослідження
2. Актуальність теми
3. Передбачувана наукова новизна
4. Загальні відомості про часові ряди
5. Попередні перетворення часових рядів в задачах прогнозування
6. Огляд досліджень і розробок по темі
Висновки
Важливе зауваження
Список літератури

Вступ

Суспільні явища можна вивчати в двох розрізах: у статичному і динамічному. Ряди розподілиння, які отримують в результаті зведення й угруповання статистичних даних, відносяться до одного періоду або моменту часу і вивчаються в статистиці. Тут час бере участь в пасивній формі. Якщо ж дані відносяться до різних періодів або моментів, великий інтерес представляє порівняння даних у часі, яке набуває тут вирішальне значення. Відомо, що будь-яке явище може бути правильно зрозуміло, якщо його вивчати в русі та розвитку. При вирішенні будь-якого питання, при аналізі будь-якого явища важливо знати, як воно виникло, розвивалося і розвивається. Тільки за цих умов можна вирішити питання про перспективи його розвитку. У процесі розвитку змінюються розміри, склад, обсяг, структура конкретних суспільних явищ. Тому одним з найважливіших завдань статистики є вивчення цих змін: процесу їх розвитку, їх динаміка. Це завдання статистика вирішує шляхом побудови та аналізу часових рядів.

Часові ряди мають величезне значення для виявлення і вивчення закономірностей, що складаються у розвитку явищ економічного, політичного і культурного життя суспільства.

З їх допомогою вирішується актуальна по сьогоднішній день задача прогнозування.

Здійснення перетворення часового ряду в навчальну вибірку – актуальна і маловивчена область. Ці перетворення безпосередньо залежать від характеристик самого часового ряду.

Метою магістерської роботи є розробка алгоритму сегментації часових рядів і програмна реалізація розробленого методу.

1. Мета і завдання дослідження

Метою дослідження є аналіз існуючого стану наукових досліджень в галузі статистики та прогнозування для подальшої розробки алгоритму сегментації часових рядів.

Основним завданням є формулювання основних вимог до попередніх перетворень часових рядів, необхідних для зменшення помилки методів прогнозування. У випускний роботі магістра планується розробка і програмна реалізація алгоритму формування навчальної вибірки з часового ряду для прогнозування часових рядів у задачах прогнозування.

Об’єктом дослідження є часовий ряд.

Предметом дослідження виступають попередні перетворення часового ряду в задачах прогнозування.

2. Актуальність теми

Однією з актуальних проблем на сьогоднішній день є задача прогнозування. Від якості прогнозу, найчастіше, залежить багато чого. На даний момент існує величезна кількість алгоритмів прогнозування, результат яких напряму залежить від вхідних даних, тобто вибірок, сформованих з часових рядів.

Часові ряди мають величезне значення для виявлення і вивчення закономірностей, що складаються у розвитку явищ економічного, політичного і культурного життя суспільства. Зважаючи на наявність складних закономірностей у часовому ряду, які складно або не можна виявити лінійними методами, дані завдання також часто вирішуються з використанням нейронних мереж. Одним з найважливіших етапів вирішення задачі нейромережного прогнозування є формування навчальної вибірки. Саме від її якості (складу, повноти і т.п.) залежать як час навчання нейронної мережі, так і якість прогнозу в цілому.

Багато алгоритми прогнозування дають хороші результати за умови досить невеликої кількості вхідних даних. Якщо кількість значень в часовому ряду дуже велика, його слід скоротити таким чином, що б відобразити всі його властивості в повному обсязі – зробити вибірку або сегментацію часового ряду без втрати «сенсу» [1].

Оскільки не існує єдиного оптимального алгоритму, що задовольняє всім завданням і вимогам, виникає необхідність розробити алгоритм сегментації часових рядів для коректного формування вибірок.

3. Передбачувана наукова новизна

Науковою новизною даної роботи є розробка алгоритму сегментації часових рядів – нового напрямку в передобробці часових рядів великого об’єму і формуванні на його основі навчальних вибірок, що ефективно вирішує проблеми предобработки даних в задачах прогнозування.

4. Загальні відомості про часові ряди

Часовим рядом називається ряд спостережень за значеннями деякого показника (ознаки), упорядкований у хронологічній послідовності, тобто у порядку зростання змінного t-часового параметра [2].

Динамічні ряди – поняття, що відноситься до тих рядів рівнів, в яких міститься тенденція зміни, а часові ряди – більш загальне поняття, що включає як динамічні, так і статичні послідовності рівнів якого завгодно показника [2,3].

Таким чином, часовий ряд являє собою ряд розташованих у хронологічній послідовності числових значень статистичного показника, що характеризують зміну суспільних явищ у часі.

Часові ряди – це ряди числових значень статистичного показника, розташованих у хронологічній послідовності. У кожному часовому ряду присутні два основних елементи: час і конкретне значення показника (рівень ряду). Тимчасові ряди, як правило, представляються у вигляді таблиці або графіка. Наприклад, у таблиці 1 наведені дані, що відображають попит на деякий товар за 8-річний період, тобто часовий ряд попиту Yt.

Таблиця 4.1 – Дані попиту на деякий товар за 8-річний період

Рік t	1	2	3	4	5	6	7	8
Попит Y^t	213	171	291	309	317	362	351	361

Часовий ряд можно зобразити графічно (рис. 4.1).

Рисунок 4.1 – Графічне зображення часового ряду

Як і кожен аналіз – аналіз часових рядів передбачає вирішення конкретних завдань, таких як: вимірює абсолютну і відносну швидкість росту або зниження рівня за окремі проміжки часу; дає узагальнюючі характеристики рівня і швидкості його зміни за той чи інший період; виявляє і чисельно характеризує основні тенденції розвитку явищ на окремих етапах; виявляє фактори, що обумовлюють зміну досліджуваного явища в часі; робить прогнози розвитку явища в майбутньому (екстраполяція і інтерполяція).

У кожному часовому ряду є два основних елементи: час t і конкретне значення показника (рівень ряду) у.

Рівні ряду – це показники, числові значення яких складають динамічний ряд, тобто вони відображають кількісну оцінку (міру) розвитку в часі досліджуваного явища. Час – це моменти або періоди, до яких відносяться рівні [3].

Найважливішою умовою правильного формування часових рядів є порівнянність рівнів, що утворюють ряд. Рівні ряду, що підлягають вивченню, повинні бути однорідні за економічним змістом і враховувати суть досліджуваного явища і мету дослідження. Кожен рівень часового ряду формується під впливом великої кількості факторів, які умовно можна поділити на три групи:

— чинники, що формують тенденцію ряду;
— чинники, що формують циклічні коливання ряду;
— випадкові чинники.

Більшість часових рядів економічних показників мають тенденцію, що характеризує сукупний довгостроковий вплив безлічі факторів на динаміку досліджуваного показника. Всі ці фактори, взяті окремо, можуть надавати різноспрямований вплив на досліджуваний показник. Однак у сукупності вони формують його зростаючу або спадаючу тенденцію. На рис. 4.2 показаний гіпотетичний часовий ряд, що містить зростаючу тенденцію.

Рисунок 4.2 – Гіпотетичний часовий ряд, що містить зростаючу тенденцію

Також досліджуваний показник може бути підданий циклічним коливанням. Ці коливання можуть носити сезонний характер, оскільки економічна діяльність ряду галузей економіки залежить від пори року (наприклад, ціни на сільськогосподарську продукцію в літній період вище, ніж у зимовий; рівень безробіття в курортних містах у зимовий період вище в порівнянні з літнім). За наявності великих масивів даних за тривалі проміжки часу можна виявити циклічні коливання, пов’язані із загальною динамікою кон’юнктури ринку. На рис. 4.3 представлений гіпотетичний часовий ряд, який містить лише сезонну компоненту.

Рисунок 4.3 – Гіпотетичний часовий ряд, який містить лише сезонну компоненту

Деякі часові ряди не містять тенденції і циклічної компоненти, а кожен наступний їх рівень утворюється як сума середнього рівня ряду і деякої (позитивної або негативної) випадкової компоненти. Приклад ряду, який містить тільки випадкову компоненту, наведено на рис. 4.4.

Рисунок 4.4 – Гіпотетичний часовий ряд, який містить лише випадкову компоненту

Очевидно, що реальні дані не слідують цілком і повністю з будь-яких описаних вище моделей. Найчастіше вони містять всі три компоненти. Кожен їхній рівень формується під впливом тенденції, сезонних коливань і випадкової компоненти.

Статистичні дані, представлені у вигляді часових рядів, повинні бути порівняні по території, колу охоплених об’єктів, одиницям вимірювання, моменту реєстрації, методикою розрахунку, цінами, достовірності.

Побудова та аналіз рядів динаміки дозволяють виявити і виміряти закономірності розвитку суспільних явищ у часі. Ці закономірності не виявляються чітко на кожному конкретному рівні, а лише в тенденції, в досить тривалої динаміці. На основну закономірність динаміки накладається інший, перш за все випадковий, іноді сезонний вплив. Виявлення основної тенденції у зміні рівнів, іменованої трендом, є однією з головних завдань аналізу рядів динаміки [4].

5. Попередні перетворення часових рядів в задачах прогнозування

Метод прогнозування – спосіб створення прогнозу через практичні та теоретичні дії. Існує велика кількість методів прогнозування. Єдиної класифікації методів прогнозування не існує [5].

Прогнозування часового ряду – обчислення величини його майбутніх значень чи характеристик, що дозволяють визначити цю величину, на підставі аналізу відомих значень. Величина, що підлягає прогнозу, називається прогнозованою величиною (ПВ) [5, 6].

Дані, представлені у вигляді часових рядів, інтерпретуються в якості послідовностей вимірювань, упорядкованих у невипадкові моменти часу. На відміну від аналізу випадкових вибірок, аналіз часових рядів грунтується на припущенні, що послідовні значення даних спостерігаються через рівні проміжки часу (тоді як в інших методах не важлива і часто нецікава прив’язка спостережень до часу). Завдання прогнозування часових рядів полягає у передбаченні майбутньої поведінки системи (обчислення майбутніх, невідомих значень того чи іншого часового ряду) за наявною послідовності її попередніх станів.

Прогнозування часових рядів є важливою науково-технічною проблемою, тому що дозволяє передбачити поведінку різних факторів в екологічних, економічних, соціальних та інших системах. Таким чином, основною метою будь-якого прогнозування є створення якоїсь «машини часу», яка дозволяє заглянути в майбутнє і оцінити тенденції у змінах того чи іншого чинника. Така «машина часу» в більшості випадків базується на методах математичного моделювання, зокрема, на побудові модельної авторегресії, що ковзає по тимчасовому ряду і дозволє здійснювати екстраполіровання на кілька кроків вперед.

Існує безліч методів прогнозування. Одним з них є багатошаровий перцептрон. Багатошаровий перцептрон – це повнозв’язна модель без зворотних зв’язків. Кількість шарів і нейронів у них зазвичай обумовлено постановкою завдання і обчислювальними здібностями ЕОМ.

Схему вирішення задачі прогнозування можна представити у вигляді послідовності етапів (рис. 5.1).

Рисунок 5.1 – Схема рішення задачі прогнозування

Якщо часовий ряд породжується динамічною системою, тобто значення {a (t)} – довільна функція стану такої системи, існує таке число d, що d попередніх значень часового ряду однозначно визначає наступне значення. На практиці більшість прогнозованих часових рядів породжуються складними динамічними системами, для яких велике значення d. Крім того, в самому тимчасовому ряді може бути присутнім випадкова складова. Тому на етапі попередніх перетворень виконуються попередні перетворення початкових даних, що дозволяють зменшити помилку прогнозування [6].

Попередні перетворення (ПП) – отримання на моменту часу ti набору з визначальних факторів і відповідного їм значення ПВ. Визначальні фактори являють собою якусь функцію від минулих значень тимчасового ряду. Після виконання ПП для різних моментів часу t, часовий ряд представляється у вигляді безлічі значень функції залежності від визначальних чинників. З безлічі отриманих наборів виділяються дві непересічні підмножини. Одна з них являє собою початкові дані (навчальну вибірку). Інша підмножина являє собою контрольну вибірку, використовується для перевірки якості прогнозу. Таким чином, прогнозування часового ряду зводиться до задачі інтерполяції функції багатьох змінних. Система прогнозування використовується для відновлення цієї функції по безлічі наборів, що входять до складу навчальної вибірки [6].

Певною складністю є формування навчальної вибірки, яка має виконувати вимоги до повноти (вибірка не повинна містити пропуски, повинна містити всі допустимі приклади досліджуваного діапазону) і несуперечності (вибірка не повинна містити суперечливих прикладів). Для перевірки навчальної вибірки на відповідність вимогам необхідна оцінка їх якості, безпосередньо визначення понять якості вибірки, критеріїв оцінки якості та розробки математичного апарату для їх однозначної оцінки. Для підвищення прогностичної здатності припустимі (іноді необхідні) додаткові перетворення, такі як методи фільтрації і відновлення даних (наприклад, вейвлет-перетворення) [7].

Очевидно, зі збільшенням кількості вхідних змінних помилка зростає. Також слід зазначити, що помилка слабо різниться у систем з однаковою розмірністю вхідних даних. Незважаючи на досить високі показники помилки, доцільно перевірити отримані результати на тестовій вибірці і порівняти з реальними показниками.

Наприклад, штучна нейронна мережа показуює хороші результати, коли розмір навчальної вибірки має приблизно 200-300 значень. У випадках, коли часовий ряд містить тисячі, десятки тисяч значень, оптимальним було б скоротити його до потрібного розміру, при цьому, не втративши його значущості, відобразивши всю потрібну інформацію, тобто здійснити сегментацію таким чином, щоб часовий ряд мав більш компактне представлення, але при цьому помилка прогнозу за даними, що були перетворені, не була неприпустимою [8] (рис. 5.2).

Рисунок 5.2 – Прогнозування часового ряду після попередніх перетворень

Рисунок 5.2 – Прогнозування часового ряду після попередніх перетворень
(анімація: 5 кадрів, 7 циклів повторення, 36 кілобайт)

На жаль, в роботах більшості авторів основну увагу приділено вибору архітектури алгоритму, способу навчання нейронних мереж, а етап ПП розглядається лише в контексті конкретної практичної задачі, або не розглядається взагалі. Як правило наводиться опис певного типу ПП і результатів, отриманих від його використання в тій чи іншій області, а порівняльного аналізу з іншими типами ПП та критеріїв, за якими можна було б їх порівняти, не наводиться. Проте, ПП впливає на результат вирішення задачі прогнозування, тому що результат ПП є початковими даними для алгоритмів прогнозування. Коректно проведений етап ПП може значно зменшити помилку прогнозу. Використання в якості попереднього перетворення згорток початкових даних дозволить описати ситуацію меншою кількістю ознак без втрати або з допустимою втратою точності. Це також призводить до скорочення часу навчання нейронної мережі [6].

Отже, необхідно розробити алгоритм, який дозволить сформувати вибірку по часовому ряду таким чином, що втрата точності буде в допустимих межах, а зменшення кількості значень не спричинить за собою збільшення помилки алгоритму прогнозування. Отже, вхідними даними буде часовий ряд, вихідними – вибірка, яка надалі буде вхідними даними для алгоритмів прогнозування.

Даний алгоритм повинен відповідати таким вимогам:

— можливість відновлення майбутніх значень часового ряду з необхідною точністю;
— описувати ситуацію меншою кількістю ознак без втрати або з допустимою втратою точності;
— виключати надмірність;
— забезпечувати стаціонарність ряду ознак;
— забезпечити несуперечливість ряду ознак.

6. Огляд досліджень і розробок по темі

Проведено аналіз існуючого стану наукових досліджень в галузі статистики та прогнозування для подальшої розробки алгоритму сегментації часових рядів. Встановлено, що на сьогоднішній день ведуться розробки алгоритмів прогнозування часових рядів. Але не приділяється належної уваги попередніх перетворенням, таким, як формування навчальної вибірки, які здатні зменшити помилку прогнозу [9-11].

Висновки

У ході проведення досліджень було проаналізовано існуючий стан наукових досліджень у галузі статистики та прогнозування для подальшої розробки алгоритму сегментації часових рядів.

Була розглянута актуальна проблема формування навчальної вибірки з часового ряду для прогнозування часових рядів у задачах нейромережного прогнозування. Були розглянуті питання попередніх перетворень даних у задачах прогнозування часових рядів за допомогою нейронних мереж.

Були сформульовані вимоги до алгоритму, який буде розроблятися в випускній роботі магістра.

Основною вимогою для розроблюваного алгоритму можна назвати можливість опису ситуації меншою кількістю ознак без втрати або з допустимою втратою точності.

Таким чином, реалізація алгоритму сегментації початкових даних часових рядів для формування навчальної вибірки, який забезпечує поліпшення результативності задачі прогнозування, є актуальним завданням.

Проведений аналіз показує, що новий алгоритм буде забезпечувати скорочення часу навчання нейронної мережі або впливати на результат рішення задачі прогнозування, тому що результат роботи алгоритму – це початкові дані для задачі прогнозування.

Важливе зауваження

При написанні даного автореферату магістерська робота ще не завершена. Імовірна дата завершення – 10 грудня 2013 Повний текст роботи, а також матеріали по темі можуть бути отримані у автора або його керівника після зазначеної дати.

Список літератури

Тарасенко Р.А. Предварительная оценка качества обучающей выборки для нейронных сетей в задачах прогнозирования временных рядов / Р.А. Тарасенко, В.А. Крисилов, // Труды Одесского политехнического университета – Одесса – 2001. – №1. – С. 90.
Гусаров В.М. Статистика: Учебное пособие для вузов / В.М. Гусаров. – М. : ЮНИТИ – ДАНА, 2001.
Новиков М.М. Статистика. Показатели и методы анализа: Учебное пособие / М.М. Новиков. – М. : Современная школа, 2005.
Бокс Дж. Анализ временных рядов. Прогноз и управление / Дж. Бокс, Г. Дженкинс М. : Мир, 1974.
Афанасьев В.Н. Анализ временных рядов и прогнозирование: Учебник / В.Н. Афанасьев, М.М. Юзбашев. – М.: Финансы и статистика, 2001.
Крисилов В.А. Представление исходных данных в задачах нейросетевого прогнозирования / В.А. Крисилов, К.В. Чумичкин, А.В. Кондратюк // Научная сессия мифи – 2003. – М.: МИФИ, 2003. – С 184–191.
Востров Н.Г. Моделирование временных рядов с использованием вейвлет-сетей / Н.Г. Востров, В.В. Любченко, М.В. Полякова // Искусственный интеллект. – Донецк – 2000. – №3. – С 207–214.
Technologic by newwpthemes [Электронный ресурс]. – Режим доступа: http://nejroseti.ru/category/predstavlenie-ishodnyh-dannyh-v-zadachah/page/2/.
Тарасенко Р.А. Метод анализа и повышения качества обучающих выборок нейронных сетей для прогнозирования временных рядов. / Р.А. Тарасенко – ОНПУ, 2001.
Козадаев А.С. Прогнозирование временных рядов с помощью аппарата искусственных нейронных сетей. Краткосрочный прогноз температуры воздуха / А.С. Козадаев, А.А. Арзамасцев. – Естественные и технические науки, 2006.
Зайцев П.Н. Нечеткая сегментация временных рядов / П.Н. Зайцев // Вестник ВГУ – Воронеж – 2009. – №1. – С 60–67.

Шагаєва Олена Сергіївна

Факультет комп'ютерних наук та технологій

Кафедра програмного забезпечення інтелектуальних систем

Спеціальність „Програмне забезпечення систем“

Розробка та аналіз алгоритмів сегментації часових рядів

Науковий керівник: д.ф.-м.н., проф. Барашко Анатолій Сергійович

Консультант: ас. Мірошниченко Ганна Михайлівна