ДонНТУ   Портал магистров

Реферат по теме выпускной работы

Содержание

1. Актуальность темы

В настоящее время исследование социально-экономического развития стран мира является чрезвычайно актуальной и целесообразной задачей поскольку, во-первых, существуют и постоянно пополняются большие базы данных индикаторов развития стран мира, во-вторых исследование и понимание закономерностей того что было в прошлом и того что мы имеем на сегодня ключ к стабильному развитию в будущем. Зная определённые закономерности поведения страны на фоне остальных можно корректировать решения, принимаемые на уровне государства или отдельные его регионов с целью достижения лучшего развития.

2. Формулирование задач

Цель магистерской работы – разработать систему исследования и выявления закономерностей в индикаторах развития стран мира в виде программного продукта, включающего в себя систему подготовки данных, интеллектуального анализа данных и визуализации с помощью графиков и диаграмм.

Объектом исследования являются индикаторы развития стран мира предоставляемые всемирным банком данных.

Предметы исследования – методы интеллектуального анализа данных, методы визуализации и предварительной обработки данных.

Гипотеза исследования – процесс исследования зависимостей в индикаторах развития страны может показать новые ранее неизвестные закономерности в данных при следующих условиях:

  1. Использование современных методов анализа данных при работе с индикаторами развития, таких как классификация [1], кластеризация [2], ассоциативный анализ [3], деревья решений [4], многомерная визуализация данных [8];
  2. Обзор существующих методов и подходов, используемых для анализа данных: выявление достоинств и недостатков; предложение собственной методики (композиция методов);
  3. Программная реализация, внедрение в использование полученного программного продукта в исследовательских кругах.

Таким образом, задачами магистерской работы являются:

  1. Изучить существующие методы предварительной подготовки и анализа данных, и внедрить их в разрабатываемый программный продукт [5];
  2. Выполнить обзор существующих методов и подходов в анализе и визуализации данных [8];
  3. Разработать модификацию (композицию) методов анализа данных;
  4. Провести апробацию разработанного метода к данным предоставляемым мировым банком данных [9];
  5. Реализовать программно предложенный метод анализа и визуализацию к его результатам;
  6. Обеспечить информационную защиту программного продукта с целью недопущения незаконного завладения алгоритмами [10].

3. Научная значимость работы

Исходя из цели проведения анализа индикаторов развития стран мира, немаловажное значение имеет его достоверность, которая, отчасти, определяется надежностью исходных данных, важной является задача предварительного анализа данных, с целью исключения, по возможности, случайных помех или, наоборот, заполнения отсутствующих данных [5]. Научная значимость (новизна) работы появляется в двух случаях:

  1. Решение поставленной задачи с использованием интеллектуального анализа данных [6];
  2. Решение поставленной задачи с использованием статистических методов анализа данных [11].

Научная значимость данной работы заключается в использовании интеллектуального анализа данных, в частности использование:

  1. Метод классификации – выявление признаков, характеризующих группу, к которой принадлежит тот или иной объект. Это делается посредством анализа уже классифицированных объектов и формулирования некоторого набора правил [1];
  2. Метод кластеризации (или кластерный анализ) – это задача разбиения множества объектов на группы, называемые кластерами [2];
  3. Ассоциативные правила – метод позволяющий находить закономерности между связанными событиями [3].

Результаты реализации использованных в работе подходов планируется сравнить с результатами, полученными при осуществлении анализа и визуализации, осуществляемой мировым банком данных [9].

Весомость перечисленных явлений на конечные результаты анализа весьма существенна, поэтому ниже на базе известных методов формулируются тезисы о практической ценности магистерской работы.

4. Предполагаемая практическая ценность результатов работы

Предполагаемая практическая ценность работы заключается в том, что получаемые результаты имеют практическую направленность. В данной магистерской работе такой практической задачей является поиск закономерностей и визуализация данных.

Так, при проведении численных экспериментов по предварительной подготовке индикаторов развития, в зависимости от набора исходных данных, относительное количество пробелов в исходных данных составляет порядка 15% - 90%. Предварительная подготовка является первым этапом анализа данных мирового банка, и позволяет повысить точность исследований вследствие отсутствия пробелов в данных индикаторов развития стран мира.

Разрабатываемые и предлагаемые методики обработки индикаторов, предлагаемые способы отыскания закономерностей, в конечном счете, направлены на повышение качества конечного результата. Практическая ценность заключается в решении задачи, имеющей практическую направленность, а именно: повышение качества визуализации и отыскания закономерностей в базе данных мирового банка.

5. Обзор исследований и разработок

5.1. Обзор исследований по теме в ДонНТУ

Построение графиков, многомерная визуализация и поиск закономерностей в базе данных мирового банка осуществляется на основе данных предоставляемых мировым банком данных. Данная база данных предоставляет 1239 индикаторов развития стран мира, для 240 стран и их объединений, а также за 50 лет начиная с 1960 года.

На данный момент на кафедре КСМ проводятся исследования с использованием интеллектуального анализа данных применительно к окружающей природной среде. Проводит исследования аспирант кафедры КСМ Родригес Залепинос Рамон Антонио [12].

По теме магистерской работы в данной предметной области проводились исследования в ДонНТУ и в предыдущие года магистрами специальности КЭМ:

  1. Пающик Юлия Валериевна «Анализ Интернет-трафика с использованием интеллектуального анализа данных» (2011 год). Научный руководитель проф. Аверин Геннадий Викторович, консультант асс. Родригес Залепинос Рамон Антонио [13];
  2. Поминчук Евгений Валериевич «Исследование метода интеллектуального анализа данных, прецедентов для прогнозирования метеорологических параметров» (2011 год). Научный руководитель Аверин Геннадий Викторович [14];
  3. Приходько Анна Сергеевна «Разработка информационной системывизуализации пространственных данных» (2011 год). Научный руководитель Телятников Александр Олегович [15];
  4. Серик Максим Александрович «Методы интерактивной визуализации геоинформационных данных сложной структуры» (2010 год). Научный руководитель Бабков Виктор Светозарович [16].

5.2 Обзор международных источников

Развитие компьютерных технологий послужило значительному увеличению объема хранимых данных. Это в свою очередь привело к тому, что человеку стало все труднее проанализировать их. Хотя необходимость проведения такого анализа вполне очевидна, ведь в этих 'сырых данных' заключены знания, которые могут быть использованы при принятии решений. Поэтому стали развиваться методы, позволяющие проводить автоматический анализ данных.

Наиболее известны следующие методы интеллектуального анализа данных:

  1. Ассоциативные правила – метод позволяющий находить закономерности между связанными событиями. Примером такого правила, служит утверждение, что покупатель, приобретающий 'Хлеб', приобретет и 'Молоко' с вероятностью 72% [3];
  2. Кластеризация (или кластерный анализ) – это задача разбиения множества объектов на группы, называемые кластерами [2]. Внутри каждой группы должны оказаться «похожие» объекты, а объекты разных группы должны быть как можно более отличны. Главное отличие кластеризации от классификации состоит в том, что перечень групп четко не задан и определяется в процессе работы алгоритма. Применение кластерного анализа в общем виде сводится к следующим этапам:

    – отбор выборки объектов для кластеризации;

    – определение множества переменных, по которым будут оцениваться объекты в выборке. При необходимости нормализация значений переменных;

    – вычисление значений меры сходства между объектами;

    – применение метода кластерного анализа для создания групп сходных объектов (кластеров);

    – представление результатов анализа.

  3. Задача классификации – формализованная задача, в которой имеется множество объектов (ситуаций), разделённых некоторым образом на классы. Задано конечное множество объектов, для которых известно, к каким классам они относятся. Это множество называется выборкой. Классовая принадлежность остальных объектов не известна. Требуется построить алгоритм, способный классифицировать произвольный объект из исходного множества [1];

6. Содержание работы по этапам

6.1. Этап 1

Данные находятся на Web ресурсе мирового банка данных [9]. Данные доступны в виде архива в формате zip (рис. 1). В архиве содержится документ MS Excel формата xlsx. Данный формат поддерживается всеми видами MS Excel начиная с версии 2007 года. Вследствие сказанного стоит задача загрузки данных из сети Интернет и их распаковки.

6.2. Этап 2

По умолчанию данные хранятся в виде двумерной таблицы и имеют следующий формат:

  1. Первый заголовок строки (1-й столбец) страны;
  2. Второй заголовок строки (2-й столбец) индикатор;
  3. Заголовки столбцов – года.

Как видно из формата данных они имеют трёхмерный характер, поэтому стоит задача преобразования данных во множество двумерных таблиц (рис. 1).

Этапы магистерской работы

Рисунок 1 – Этапы магистерской работы
(анимация: 7 кадров, множество циклов повторения, 91 килобайт)

Удобный для дальнейшей работы формат данных – документ MS Excel с множеством листов – индикаторов. Каждый лист таблицы содержит по строкам страны и по столбцам года. Вследствие всего сказанного стоит необходимость разработки, ПО которое будет выполнять трансформацию данных.

6.3. Этап 3

База данных, полученная на втором этапе работы будет содержать пробелы в данных (рис. 1). Чаще всего распределение пробелов в таблице поддаётся следующим правилам:

  1. Мало или нет данных для отдельной страны;
  2. Отсутствуют данные для определённого года;
  3. Наблюдаются пробелы единичной или ~10% длинны.

Для первого или второго типов пробелов нужно удалять страны или года соответственно. Для третьего типа предполагается заполнять пробелы при помощи линейной интерполяции типов «вперед», «назад», «нейтральная» [5].

6.4. Этап 4

На данном этапе предполагается сглаживание данных (рис. 1). Сглаживание можно проводить с использованием метода экспоненциального сглаживания применительно к полученной, в результате третьего этапа выполнения таблице. При сглаживании, значением текущего сглаженного значения Yt’’ являлась функция от текущего не сглаженного значения Yt и предыдущего сглаженного Yt-1’’: Yt’’ = alpha*Yt+(1+alpha)* Yt-1’’, где alpha - параметр сглаживания, причём 0 меньше либо равно alpha меньше либо равно 1 [12].

6.5. Этап 5

На данном этапе предполагается применение методов интеллектуального анализа данных описанных в пункте обзор предметной области исследований в мире или же их композиции (рис. 1).

6.6. Этап 6

Визуализация данных – задача, с которой сталкивается в своей работе любой исследователь. К задаче визуализации данных сводится проблема представления в наглядной форме данных эксперимента или результатов теоретического исследования (рис. 1).

Знания, полученные на пятом этапе работы планируется визуализировать с помощью графиков и диаграмм.

Выводы

В качестве исследования социально-экономического развития стран мира была принята задача написания программного обеспечения, позволяющего поэтапно выполнить все действия по обработке, анализу и визуализации данных. В результате работы был проведен анализ литературы по методам предварительной подготовки и анализа данных. Были программно реализованы первый и второй этапы магистерской работы, а также проведен ряд преобразований исходной базы данных.

При написании данного автореферата магистерская работа еще не завершена. Срок окончательной готовности работы – декабрь 2013 года. Полный текст работы и материалы по теме могут быть получены у автора или его руководителя после указанной даты.

Список источников

  1. Метод классификации [Электронный ресурс, режим доступа]: http://www.inftech.webservis.ru/it/database/datamining/ar2.html (10.04.2013);
  2. Метод кластеризации [Электронный ресурс, режим доступа]: http://habrahabr.ru/post/101338/ (15.04.2013);
  3. Метод ассоциаций [Электронный ресурс, режим доступа]: http://www.inftech.webservis.ru/it/database/datamining/
    ar1.html#Ассоциация(21.04.2013);
  4. Метод деревьев решений [Электронный ресурс, режим доступа]: http://www.inftech.webservis.ru/it/database/datamining/ar2.html#
    4.5. Деревья решений (decision trees) (27.04.2013);
  5. Википедия: свободная энциклопедия. [Электронный ресурс, режим доступа]: http://ru.wikipedia.org/wiki/Линейная_интерполяция (2.05.2013);
  6. Дата майнинг [Электронный ресурс, режим доступа]: http://compit.by/upload/Data_Mining.pdf (2.05.2013);
  7. Дата майнинг [Электронный ресурс, режим доступа]: http://www.iteam.ru/publications/it/section_92/article_1448/ (5.05.2013);
  8. Многомерная визуализация [Электронный ресурс, режим доступа]: http://pca.narod.ru/ZINANN.htm (6.05.2013);
  9. Всемирный банк данных [Электронный ресурс, режим доступа]: http://data.worldbank.org (9.05.2013);
  10. Защита программного обеспечения [Электронный ресурс, режим доступа]: ru.wikipedia.org/wiki/Защита_программного_обеспечения (12.05.2013);
  11. Про статистические методы анализа данных [Электронный ресурс, режим доступа]: www.omsu.ru/file.php?id=4948 (13.05.2013);
  12. Работы Родригеса Рамон Антонио [Электронный ресурс, режим доступа]: http://ea.donntu.ru:8080/jspui/
    browse?type=author&value=%D0%A0%D0%BE%D0%B4%D1%80%D0%B8%D0%B3%D0%B5%D1%81+%D0%97%D0%B0%

    D0%BB%D0%B5%D0%BF%D0%B8%D0%BD%D0%BE%D1%81%2C+%D0%A0%D0%B0%D0%BC%D0%BE
    %D0%BD+%D0%90%D0%BD%D1%82%D0%BE%D0%BD%D0%B8%D0%BE (15.05.2013);
  13. Анализ Интернет-трафика с использованием интеллектуального анализа данных [Электронный ресурс, режим доступа]: http://masters.donntu.ru/2012/fknt/paushchik/links/index.htm (15.05.2013);
  14. Методы интеллектуального анализа данных [Электронный ресурс, режим доступа]: http://masters.donntu.ru/2011/fknt/pominchuk/library/tez1.htm (20.05.2013);
  15. Обзор методов отображения пространственных данных посредством кластеризации [Электронный ресурс, режим доступа]: http://masters.donntu.ru/2012/fknt/prikhodko/library/article1.htm (22.05.2013);
  16. Методы интерактивной визуализации геоинформационных данных сложной структуры [Электронный ресурс, режим доступа]: http://masters.donntu.ru/2011/fknt/serik/index.htm (23.05.2013).