Помінчука Є.В. Дослідження методу інтелектуального аналізу даних, прецедентів для прогнозування метеорологічних параметрів

Реферат з теми випускної роботи

Дослідження методу інтелектуального аналізу даних, прецедентів для прогнозування метеорологічних параметрів

Актуальність теми

Необхідність передбачення ймовірного розвитку подій на майбутнє в Україні, ніколи раніше не була такою важливою як зараз. Рішення, що приймаються сьогодні, спираються на ознаки розвитку явищ. У свою чергу, вони більш-менш впливають на це в майбутньому. Саме тому, дослідження моделей прогнозування часових рядів в умовах недостатньої інформації допоможе уникнути принципових помилок при прийнятті будь-яких рішень. Вивчення цієї проблеми є актуальним як для теорії, так і для практики.

Загальна постановка проблеми

При сучасному рівні розвитку інформаційних технологій і, більш конкретно, систем підтримки прийняття рішень розрізняють два напрямки в розвитку логічного висновку знань:

- розвиток систем логічного висновку, заснованого на правилах;

- розвиток систем логічного висновку, заснованого на прецедентах.

Практично всі ранні експертні системи моделювали хід прийняття рішення експертом як суто дедуктивний процес з використанням логічного висновку, заснованого на правилах. Це означало, що в систему закладалася сукупність правил виду "якщо ... то ...", згідно з якими на підставі вхідних даних генерувалося те чи інше висновок з проблеми. Обрана модель була основою для створення експертних систем перших поколінь, які були досить зручні як для розробників, так і для користувачів-експертів. Проте з плином часу було усвідомлено, що дедуктивна модель моделює один з найбільш рідкісних підходів, якому слід експерт при вирішенні проблеми.

Насправді, замість того, щоб вирішувати кожну задачу, виходячи з первинних принципів, експерт часто аналізує ситуацію в цілому і згадує, які рішення приймалися раніше в подібних ситуаціях. Потім він використовує ці рішення або ж адаптує їх до обставин, що змінилися для конкретної проблеми.

Моделювання такого підходу до вирішення проблем, заснованого на досвіді минулих ситуацій, призвело до появи технології логічного висновку, заснованого на прецедентах (по-англійськи - Case-Based Reasoning, або CBR), і надалі - до створення програмних продуктів, що реалізують цю технологію.

У ряді ситуацій метод виведення по прецедентах має серйозні переваги в порівнянні з висновком, заснованим на правилах, і особливо ефективний, коли:

- основним джерелом знань про завдання є досвід, а не теорія,

- рішення не унікальні для конкретної ситуації і можуть бути використані в інших випадках;

- метою є не гарантоване вірне рішення, а краще з можливих.

Таким чином, висновок, заснований на прецедентах, являє собою метод побудови експертних систем, які роблять висновки щодо даної проблеми або ситуації за результатами пошуку аналогій, що зберігаються в базі прецедентів.

Системи виведення по прецедентах показують дуже гарні результати в найрізноманітніших задачах, але мають ряд істотних недоліків.

По-перше, вони взагалі не створюють будь-яких моделей або правил, узагальнюючих попередній досвід, - у виборі рішення вони грунтуються на всьому масиві доступних історичних даних, тому неможливо сказати, на основі яких конкретно факторів системи виведення по прецедентах будують свої конкретні відповіді.

Можна виділити дві основні проблеми, з якими стикаються подібні системи: пошук найбільш придатних прецедентів і подальша адаптація рішення.

В основі всіх підходів до відбору прецедентів лежить той чи інший спосіб вимірювання ступеня близькості прецеденту і поточного випадку. За таких вимірах обчислюється чисельне значення деякої міри, що визначає склад безлічі прецедентів, які потрібно обробити для досягнення задовільної класифікації або прогнозу. Основним недоліком таких систем є свавілля, яке допускають системи при виборі міри близькості. Крім того, безпідставним виглядає поширення загальної міри близькості на вибірку даних в цілому.

Ще один недолік методу пов'язаний з конструкцією прецедентів і призначення доречних ваг їх атрибутам, що зменшує їх застосовність (універсальність).

У більшості випадків методи пошуку прецедентів зводяться до індукції дерев рішень або до алгоритму "найближчого сусіда", доповненому, може бути, використанням знань про предметну область. Що стосується адаптації та використання знайденого рішення, це завдання до цих пір залишається недостатньо формалізованої і сильно залежить від предметної області.

Обидві проблеми - пошук прецедентів і адаптація обраного рішення - вирішуються (повністю або частково) із залученням фонового знання, іншими словами, знання про предметну область (domain knowledge). Існують різні способи отримання інформації про предметну область:

- залучення експертного знання. Воно може виражатися, наприклад, в обмеженнях, що накладаються на діапазони змін ознак об'єктів, або ж у формулюванні набору правил для розбиття бази прецедентів на класи.

- отримання необхідних знань з набору наявних даних методами видобутку даних (по-англійськи - Data Mining). Сюди відносяться всі методи виявлення відносин у даних, зокрема, кластеризація, регресія, пошук асоціацій. Використання методів видобутку даних може виділити вузьку групу показників, від яких залежить цікавить дослідника характеристика, і представити виявлену закономірність в аналітичній формі.

- формування знань на основі навчальної вибірки, представленої експертом (навчання з учителем). Цей спосіб включає в себе обидва перших.

Спочатку в системах виведення по прецедентах як джерела фонового знання виступали експерти - висококваліфіковані фахівці предметних областей, а також текстові матеріали - від підручників до протоколів, і, зрозуміло, бази даних. Роль експерта полягала у вербалізації, тобто перекладі таких джерел у експліцитну форму. Враховуючи, що найважливішим завданням в процесі формалізації вилучення знань є мінімізація ролі експерта, його роль повинні взяти на себе засоби видобутку даних.

Серед видобутих закономірностей на практиці найчастіше зустрічаються відносини еквівалентності і порядку. Перші притаманні, зокрема, завданням класифікації, діагностики та розпізнавання образів. З іншого боку, відносини порядку властиві завданням шкалювання, прогнозування і т.п.

Ідея алгоритму

Умовно, алгоритм включає наступні етапи:

Введення тимчасового ряду для деякої змінної;
Вибір «поточної дати» і числа «k» найближчих сусідів;
Визначення відстаней від значення поточної дати до значень попередніх дат;
Сортування відстаней за зростанням;
Відбір «k» перших відстаней після сортування;
Формування масиву «наступних значень»;
Адаптація та аналіз значень, наприклад, пошук арифметичне середнього, мінімального або максимального значення;
Висновок отриманого значення як результат прогнозу;

На малюнку 1 представлена діаграма модулів, що розробляються.

Рисунок 1 - Анімація діаграми модулів системи, що розробляється (Розмір анімації: 58,8 Кб; Кількість кадрів: 5; Кількість циклів: 5)

Мета алгоритму

Спрогнозувати значення часового ряду для майбутнього тимчасового періоду на основі закономірностей і зв'язків виявлених в БД містить значення (вимірювання) даного ряду по пройшов періоду.

Висновок

Переваги розроблюваного алгоритму є можливість його використання для прогнозування динамічних показників та факторів з будь-якої галузі знань і сфери діяльності людини. Наприклад, для прогнозування метеорологічних параметрів і стану погоди, динаміка курсів акцій і валют, Прогнозування споживчого попиту, прогнозування обсягів кредитування на наступний звітний період, прогнозування врожайності і багато іншого.

Література

Журавлев Ю.М. История развития методов интеллектуального анализа данных – Data Mining. Интернет-ресурс. - Режим доступа: http://azfor.ucoz.ru/publ/3-1-0-3.
Обучение на примерах. Интернет-ресурс. - Режим доступа: http://ru.wikipedia.org/wiki/Обучение_по_прецедентам.
Машинное обучение. Интернет-ресурс. - Режим доступа: http://www.machinelearning.ru/wiki/index.php?title=Машинное_обучение.
Задачи прогнозирования. Интернет-ресурс. - Режим доступа: http://ru.wikipedia.org/wiki/Задачи_прогнозирования
Torgeir Dingsоyr. Integration of Data Mining and Case-Based Reasoning. Интернет-ресурс. - Режим доступа: http://www.idi.ntnu.no/~dingsoyr/diploma/
A. Aamodt, H. A. Sandtorv, O. M. Winnem. Combining Case Based Reasoning and Data Mining - A way of revealing and reusing RAMS experience. A. Aamodt - NTNU/SINTEF, Dep. of Computer and Information Science, Trondheim, Norway; H. A. Sandtorv - SINTEF Industrial Management, Safety and Reliability, Trondheim, Norway; O. M. Winnem - SINTEF Telecom and Informatics, Trondheim, Norway
A Hybrid Data Mining and Case-Based Reasoning User Modeling System Architecture. Proceedings of the World Congress on Engineering 2008 Vol IWCE 2008, July 2 - 4, 2008, London, U.K.
Прецедент. Интернет-ресурс. - Режим доступа: http://ru.wikipedia.org/wiki/Прецедент
Марина Шапот. Интеллектуальный анализ данных в системах поддержки принятия решений. Интернет-ресурс. - Режим доступа: http://www.osp.ru/os/1998/01/179360/
Data Mining - интеллектуальный анализ данных. Электронный-ресурс. - Режим доступа: http://www.iteam.ru/publications/it/section_92/article_1448/

Головна Реферат Автобіографія

Помінчук Євген Валерійович

Факультет комп'ютерних наук і технологій

Кафедра комп'ютерних систем моніторинга

Спеціальність: Комп'ютерний еколого-економічний моніторинг

Тема випускної роботи:

Дослідження методу інтелектуального аналізу даних, прецедентів для прогнозування метеорологічних параметрів

Керівник: Аверін Геннадій Вікторович

Реферат з теми випускної роботи

Дослідження методу інтелектуального аналізу даних, прецедентів для прогнозування метеорологічних параметрів

Література