ДонНТУ   Портал магістрів

Реферат за темою випускної роботи

Зміст

1. Актуальність теми

В даний час дослідження соціально-економічного розвитку країн світу є надзвичайно актуальним і доцільним завданням оскільки, по-перше, існують і постійно поповнюються великі бази даних індикаторів розвитку країн світу, по-друге дослідження і розуміння закономірностей того що було в минулому і того що ми маємо на сьогодні ключ до стабільного розвитку в майбутньому. Знаючи певні закономірності поведінки країни на тлі інших можна коригувати рішення, що приймаються на рівні держави або окремих її регіонів з метою досягнення кращого розвитку.

2. Формулювання завдань

Мета магістерської роботи – розробити систему дослідження і виявлення закономірностей в індикаторах розвитку країн світу у вигляді програмного продукту, що включає в себе систему підготовки даних, інтелектуального аналізу даних і візуалізації за допомогою графіків і діаграм.

Об'єктом дослідження є індикатори розвитку країн світу які надаються всесвітнім банком даних.

Предмет дослідження – методи інтелектуального аналізу даних, методи візуалізації та попередньої обробки даних.

Гіпотеза дослідження – процес дослідження залежностей в індикаторах розвитку країни може показати нові раніше невідомі закономірності в даних за таких умов:

  1. Використання сучасних методів аналізу даних при роботі з індикаторами розвитку, таких як класифікація [1], кластеризація [2], асоціативний аналіз [3], дерева рішень [4], багатовимірна візуалізація даних [8];
  2. Огляд існуючих методів і підходів, що використовуються для аналізу даних: виявлення достоїнств і недоліків; пропозиція власної методики (композиція методів);
  3. Програмна реалізація, впровадження у використання отриманого програмного продукту в дослідницьких колах.

Таким чином, завданнями магістерської роботи є:

  1. Вивчення існуючих методів попередньої підготовки і аналізу даних, і впровадження їх у розроблюваний програмний продукт [5];
  2. Виконати огляд існуючих методів і підходів в аналізі та візуалізації даних [8];
  3. Розробити модифікацію (композицію) методів аналізу даних;
  4. Провести апробацію розробленого методу до даних надаються світовим банком даних [9];
  5. Реалізувати програмно запропонований метод аналізу і візуалізацію до його результатів;
  6. Забезпечити інформаційний захист програмного продукту з метою недопущення незаконного заволодіння алгоритмами [10].

3. Наукова значимість роботи

Виходячи з мети проведення аналізу індикаторів розвитку країн світу, важливе значення має його достовірність, яка, частково, визначається надійністю вихідних даних, важливим є завдання попереднього аналізу даних, з метою виключення, по можливості, випадкових величин або, навпаки, заповнення відсутніх даних [5 ].

Наукова значимість (новизна) роботи з'являється у двох випадках:

  1. Рішення поставленої задачі з використанням інтелектуального аналізу даних [6];
  2. Рішення поставленої задачі з використанням статистичних методів аналізу даних [11].

Наукова значимість даної роботи полягає у використанні інтелектуального аналізу даних, зокрема використання:

  1. Метод класифікації – виявлення ознак, що характеризують групу, до якої належить той чи інший об'єкт. Це робиться за допомогою аналізу вже класифікованих об'єктів і формулювання деякого набору правил [1];
  2. Метод кластеризації (або кластерний аналіз) – завдання розбиття множини об'єктів на групи, звані кластерами [2];
  3. Асоціативні правила – метод дозволяє знаходити закономірності між пов'язаними подіями [3].

Результати реалізації використаних в роботі підходів планується порівняти з результатами, отриманими при здійсненні аналізу та візуалізації, здійснюваної світовим банком даних [9].

Вагомість перерахованих явищ на кінцеві результати аналізу досить істотна, тому нижче на базі відомих методів формулюються тези про практичної цінності магістерської роботи.

4. Передбачувана практична цінність результатів роботи

Передбачувана практична цінність роботи полягає в тому, що одержувані результати мають практичну спрямованість. У даній магістерській роботі такої практичної завданням є пошук закономірностей і візуалізація даних.

Так, при проведенні чисельних експериментів з попередньої підготовки індикаторів розвитку, залежно від набору вихідних даних, відносна кількість прогалин у вихідних даних становить порядку 15% - 90%. Попередня підготовка є першим етапом аналізу даних світового банку, і дозволяє підвищити точність досліджень внаслідок відсутності прогалин в даних індикаторів розвитку країн світу.

Розроблювані і пропоновані методики обробки індикаторів, пропоновані способи відшукання закономірностей, в кінцевому рахунку, спрямовані на підвищення якості кінцевого результату. Практична цінність полягає у вирішенні задачі, що має практичну спрямованість, а саме: підвищення якості візуалізації та відшукання закономірностей в базі даних світового банку.

5. Огляд досліджень і розробок

5.1. Огляд досліджень по темі в ДонНТУ

Побудова графіків, багатовимірна візуалізація та пошук закономірностей в базі даних світового банку здійснюється на основі даних наданих світовим банком даних. Дана база даних надає 1239 індикаторів розвитку країн світу, для 240 країн та їх об'єднань, а також за 50 років починаючи з 1960 року.

На даний момент на кафедрі КСМ проводяться дослідження з використанням інтелектуального аналізу даних стосовно до навколишнього природного середовища. Проводить дослідження аспірант кафедри Родрігес Залепінос Рамон Антоніо [12].

За темою магістерської роботи в даній предметній області проводилися дослідження в ДонНТУ і в попередні роки магістрами спеціальності КЕМ:

  1. Пающик Юлія Валеріївна «Аналіз Інтернет-трафіку з використанням інтелектуального аналізу даних» (2011 рік). Науковий керівник проф. Аверін Геннадій Вікторович, консультант ас. Родрігес Залепінос Рамон Антоніо [13];
  2. Поминчук Євген Валерійович «Дослідження методу інтелектуального аналізу даних, прецедентів для прогнозування метеорологічних параметрів» (2011 рік). Науковий керівник Аверін Геннадій Вікторович [14];
  3. Приходько Анна Сергіївна «Розробка інформаційної системи візуалізації просторових даних» (2011 рік). Науковий керівник Телятников Олександр Олегович [15];
  4. Серік Максим Олександрович «Методи інтерактивної візуалізації геоінформаційних даних складної структури» (2010 рік). Науковий керівник Бабков Віктор Світозарович [16].

5.2. Огляд міжнародних джерел

Розвиток комп'ютерних технологій сприяє значному збільшенню обсягу збережених даних. Це в свою чергу призвело до того, що людині стало все важче проаналізувати їх. Хоча необхідність проведення такого аналізу цілком очевидна, адже в цих 'сирих даних' укладені знання, які можуть бути використані при прийнятті рішень. Тому стали розвиватися методи, що дозволяють проводити автоматичний аналіз даних.

Найбільш відомі наступні методи інтелектуального аналізу даних:

  1. асоціативні правила – метод дозволяє знаходити закономірності між пов'язаними подіями. Прикладом такого правила, служить твердження, що покупець, що придбає 'Хліб', придбає і 'Молоко' з вірогідністю 72% [3];
  2. кластеризація (або кластерний аналіз) – це завдання розбиття множини об'єктів на групи, звані кластерами [2]. Усередині кожної групи повинні виявитися «схожі» об'єкти, а об'єкти різних групи повинні бути як можна більш відмінні. Головна відмінність кластеризації від класифікації полягає в тому, що перелік груп чітко не заданий і визначається в процесі роботи алгоритму. Застосування кластерного аналізу в загальному вигляді зводиться до наступних етапів:

    – відбір вибірки об'єктів для кластеризації;

    – визначення безлічі змінних, за якими будуть оцінюватися об'єкти у вибірці. При необхідності нормалізація значень змінних;

    – обчислення значень міри схожості між об'єктами;

    – застосування методу кластерного аналізу для створення груп схожих об'єктів (кластерів);

    – представлення результатів аналізу.

  3. завдання класифікації – формалізована задача, в якій є безліч об'єктів (ситуацій), розділених деяким чином на класи. Визначається кінцева множина об'єктів, для яких відомо, до яких класів вони відносяться. Ця множина називається вибіркою. Класова приналежність інших об'єктів не відома. Потрібно побудувати алгоритм, здатний класифікувати довільний об'єкт з вихідної множини [1];

6. Зміст роботи по етапах

6.1. Етап 1

Дані знаходяться на Web ресурсі світового банку даних [9]. Дані доступні у вигляді архіву у форматі zip (рис. 1). В архіві міститься документ MS Excel формату xlsx. Даний формат підтримується всіма видами MS Excel починаючи з версії 2007 року. Внаслідок сказаного стоїть завдання завантаження даних з мережі Інтернет і їх розпакування.

6.2. Етап 2

Типово дані зберігаються у вигляді двовимірної таблиці і мають наступний формат:

– перший заголовок рядка (1-й стовпець) країни;

– другий заголовок рядка (2-й стовпець) індикатори;

– заголовки стовпців – роки.

Як видно з формату даних вони мають тривимірний характер, тому стоїть завдання перетворення даних в безліч двовимірних таблиць (рис. 1).

Этапи магістерської роботи

Рисунок 1 – Етапи магістерської роботи
(анімація: 7 кадрів, множина циклів повторів, 91 кілобайт)

Зручний для подальшої роботи формат даних – документ MS Excel з безліччю листів – індикаторів. Кожен лист таблиці містить по рядках країни і за стовпцями роки. Внаслідок усього сказаного є необхідність розробки, ПО яке буде виконувати трансформацію даних.

6.3. Етап 3

База даних, отримана на другому етапі роботи буде містити прогалини в даних (рис. 1). Найчастіше розподіл прогалин в таблиці піддається такими правилами:

– мало або немає даних для окремої країни;

– відсутні дані для певного року;

– спостерігаються прогалини одиничної або ~ 10% довжини.

Для першого або другого типів прогалин потрібно видаляти країни або роки відповідно. Для третього типу передбачається заповнювати прогалини за допомогою лінійної інтерполяції типів «вперед», «назад», «нейтральна» [5].

6.4. Етап 4

На даному етапі передбачається згладжування даних (рис. 1). Згладжування можна проводити з використанням методу експоненціального згладжування стосовно отриманої, в результаті третього етапу виконання таблиці. При згладжуванні, значенням поточного згладженого значення Yt'' була функція від поточного не згладженого значення Yt і попереднього згладженого Yt-1'': Yt'' = alpha * Yt + (1 + alpha) * Yt-1'', де alpha – параметр згладжування, причому 0 менше alpha менше 1 [12].

6.5. Етап 5

На даному етапі передбачається застосування методів інтелектуального аналізу даних описаних у пункті огляд предметної області досліджень у світі або ж їх композиції (рис. 1).

6.6. Етап 6

Візуалізація даних – завдання, з якою стикається у своїй роботі будь-який дослідник. До задачі візуалізації даних зводиться проблема подання в наочній формі даних експерименту або результатів теоретичного дослідження (рис. 1).

Знання, отримані на п'ятому етапі роботи планується візуалізувати за допомогою графіків і діаграм.

Висновки

В якості дослідження соціально-економічного розвитку країн світу було прийняте завдання написання програмного забезпечення, що дозволяє поетапно виконати всі дії по обробці, аналізу та візуалізації даних. В результаті роботи був проведений аналіз літератури з методів попередньої підготовки та аналізу даних. Були програмно реалізовані перший і другий етапи магістерської роботи, а також проведено ряд перетворень вихідної бази даних.

При написанні даного автореферату магістерська робота ще не завершена. Термін остаточної готовності роботи – грудень 2013 року. Повний текст роботи та матеріали по темі можуть бути отримані у автора або його керівника після зазначеної дати.

Список джерел

  1. Метод класифікації [Електронний ресурс, режим доступу]: http://www.inftech.webservis.ru/it/database/datamining/ar2.html (10.04.2013);
  2. Метод кластеризації [Електронний ресурс, режим доступу]: http://habrahabr.ru/post/101338/ (15.04.2013);
  3. Метод асоціацій [Електронний ресурс, режим доступу]: http://www.inftech.webservis.ru/it/database/datamining/
    ar1.html#Ассоциация(21.04.2013);
  4. Метод дерев рішень [Електронний ресурс, режим доступу]: http://www.inftech.webservis.ru/it/database/datamining/ar2.html#
    4.5. Деревья решений (decision trees) (27.04.2013);
  5. Вікіпедія: вільна енциклопедія. [Електронний ресурс, режим доступу]: http://ru.wikipedia.org/wiki/Линейная_интерполяция (2.05.2013);
  6. Дата Майнінг [Електронний ресурс, режим доступу]: http://compit.by/upload/Data_Mining.pdf (2.05.2013);
  7. Дата Майнінг [Електронний ресурс, режим доступу]: http://www.iteam.ru/publications/it/section_92/article_1448/ (5.05.2013);
  8. Багатовимірна візуалізація [Електронний ресурс, режим доступу]: http://pca.narod.ru/ZINANN.htm (6.05.2013);
  9. Світовий банк даних [Електронний ресурс, режим доступу]: http://data.worldbank.org (9.05.2013);
  10. Захист програмного забезпечення [Електронний ресурс, режим доступу]: ru.wikipedia.org/wiki/Защита_программного_обеспечения (12.05.2013);
  11. Про статистичні методи аналізу даних [Електронний ресурс, режим доступу]: www.omsu.ru/file.php?id=4948 (13.05.2013);
  12. Роботи Родрігеса Рамон Антоніо [Електронний ресурс, режим доступу]: http://ea.donntu.ru:8080/jspui/
    browse?type=author&value=%D0%A0%D0%BE%D0%B4%D1%80%D0%B8%D0%B3%D0%B5%D1%81+%D0%97%D0%B0%

    D0%BB%D0%B5%D0%BF%D0%B8%D0%BD%D0%BE%D1%81%2C+%D0%A0%D0%B0%D0%BC%D0%BE
    %D0%BD+%D0%90%D0%BD%D1%82%D0%BE%D0%BD%D0%B8%D0%BE (15.05.2013);
  13. Аналіз Інтернет-трафіку з використанням інтелектуального аналізу даних [Електронний ресурс, режим доступу]: http://masters.donntu.ru/2012/fknt/paushchik/links/index.htm (15.05.2013);
  14. Методи інтелектуального аналізу даних [Електронний ресурс, режим доступу]: http://masters.donntu.ru/2011/fknt/pominchuk/library/tez1.htm (20.05.2013);
  15. Огляд методів відображення просторових даних за допомогою кластеризації [Електронний ресурс, режим доступу]: http://masters.donntu.ru/2012/fknt/prikhodko/library/article1.htm (22.05.2013);
  16. Методи інтерактивної візуалізації геоінформаційних даних складної структури [Електронний ресурс, режим доступу]: http://masters.donntu.ru/2011/fknt/serik/index.htm (23.05.2013).