Реферат по теме выпускной работы
Содержание
- 1. Актуальность темы
- 2. Формулирование задач
- 3. Научная значимость работы
- 4. Предполагаемая практическая ценность результатов работы
- 5. Обзор исследований и разработок
- 5.1. Обзор исследований по теме в ДонНТУ
- 5.2. Обзор международных источников
- 6. Содержание работы по этапам
- 6.1. Этап 1
- 6.2. Этап 2
- 6.3. Этап 3
- 6.4. Этап 4
- 6.5. Этап 5
- 6.6. Этап 6
- Выводы
- Список источников
1. Актуальность темы
В настоящее время исследование социально-экономического развития стран мира является чрезвычайно актуальной и целесообразной задачей поскольку, во-первых, существуют и постоянно пополняются большие базы данных индикаторов развития стран мира, во-вторых исследование и понимание закономерностей того что было в прошлом и того что мы имеем на сегодня ключ к стабильному развитию в будущем. Зная определённые закономерности поведения страны на фоне остальных можно корректировать решения, принимаемые на уровне государства или отдельные его регионов с целью достижения лучшего развития.
2. Формулирование задач
Цель магистерской работы – разработать систему исследования и выявления закономерностей в индикаторах развития стран мира в виде программного продукта, включающего в себя систему подготовки данных, интеллектуального анализа данных и визуализации с помощью графиков и диаграмм.
Объектом исследования являются индикаторы развития стран мира предоставляемые всемирным банком данных.
Предметы исследования – методы интеллектуального анализа данных, методы визуализации и предварительной обработки данных.
Гипотеза исследования – процесс исследования зависимостей в индикаторах развития страны может показать новые ранее неизвестные закономерности в данных при следующих условиях:
- Использование современных методов анализа данных при работе с индикаторами развития, таких как классификация [1], кластеризация [2], ассоциативный анализ [3], деревья решений [4], многомерная визуализация данных [8];
- Обзор существующих методов и подходов, используемых для анализа данных: выявление достоинств и недостатков; предложение собственной методики (композиция методов);
- Программная реализация, внедрение в использование полученного программного продукта в исследовательских кругах.
Таким образом, задачами магистерской работы являются:
- Изучить существующие методы предварительной подготовки и анализа данных, и внедрить их в разрабатываемый программный продукт [5];
- Выполнить обзор существующих методов и подходов в анализе и визуализации данных [8];
- Разработать модификацию (композицию) методов анализа данных;
- Провести апробацию разработанного метода к данным предоставляемым мировым банком данных [9];
- Реализовать программно предложенный метод анализа и визуализацию к его результатам;
- Обеспечить информационную защиту программного продукта с целью недопущения незаконного завладения алгоритмами [10].
3. Научная значимость работы
Исходя из цели проведения анализа индикаторов развития стран мира, немаловажное значение имеет его достоверность, которая, отчасти, определяется надежностью исходных данных, важной является задача предварительного анализа данных, с целью исключения, по возможности, случайных помех или, наоборот, заполнения отсутствующих данных [5]. Научная значимость (новизна) работы появляется в двух случаях:
- Решение поставленной задачи с использованием интеллектуального анализа данных [6];
- Решение поставленной задачи с использованием статистических методов анализа данных [11].
Научная значимость данной работы заключается в использовании интеллектуального анализа данных, в частности использование:
- Метод классификации – выявление признаков, характеризующих группу, к которой принадлежит тот или иной объект. Это делается посредством анализа уже классифицированных объектов и формулирования некоторого набора правил [1];
- Метод кластеризации (или кластерный анализ) – это задача разбиения множества объектов на группы, называемые кластерами [2];
- Ассоциативные правила – метод позволяющий находить закономерности между связанными событиями [3].
Результаты реализации использованных в работе подходов планируется сравнить с результатами, полученными при осуществлении анализа и визуализации, осуществляемой мировым банком данных [9].
Весомость перечисленных явлений на конечные результаты анализа весьма существенна, поэтому ниже на базе известных методов формулируются тезисы о практической ценности магистерской работы.
4. Предполагаемая практическая ценность результатов работы
Предполагаемая практическая ценность работы заключается в том, что получаемые результаты имеют практическую направленность. В данной магистерской работе такой практической задачей является поиск закономерностей и визуализация данных.
Так, при проведении численных экспериментов по предварительной подготовке индикаторов развития, в зависимости от набора исходных данных, относительное количество пробелов в исходных данных составляет порядка 15% - 90%. Предварительная подготовка является первым этапом анализа данных мирового банка, и позволяет повысить точность исследований вследствие отсутствия пробелов в данных индикаторов развития стран мира.
Разрабатываемые и предлагаемые методики обработки индикаторов, предлагаемые способы отыскания закономерностей, в конечном счете, направлены на повышение качества конечного результата. Практическая ценность заключается в решении задачи, имеющей практическую направленность, а именно: повышение качества визуализации и отыскания закономерностей в базе данных мирового банка.
5. Обзор исследований и разработок
5.1. Обзор исследований по теме в ДонНТУ
Построение графиков, многомерная визуализация и поиск закономерностей в базе данных мирового банка осуществляется на основе данных предоставляемых мировым банком данных. Данная база данных предоставляет 1239 индикаторов развития стран мира, для 240 стран и их объединений, а также за 50 лет начиная с 1960 года.
На данный момент на кафедре КСМ проводятся исследования с использованием интеллектуального анализа данных применительно к окружающей природной среде. Проводит исследования аспирант кафедры КСМ Родригес Залепинос Рамон Антонио [12].
По теме магистерской работы в данной предметной области проводились исследования в ДонНТУ и в предыдущие года магистрами специальности КЭМ:
- Пающик Юлия Валериевна «Анализ Интернет-трафика с использованием интеллектуального анализа данных» (2011 год). Научный руководитель проф. Аверин Геннадий Викторович, консультант асс. Родригес Залепинос Рамон Антонио [13];
- Поминчук Евгений Валериевич «Исследование метода интеллектуального анализа данных, прецедентов для прогнозирования метеорологических параметров» (2011 год). Научный руководитель Аверин Геннадий Викторович [14];
- Приходько Анна Сергеевна «Разработка информационной системывизуализации пространственных данных» (2011 год). Научный руководитель Телятников Александр Олегович [15];
- Серик Максим Александрович «Методы интерактивной визуализации геоинформационных данных сложной структуры» (2010 год). Научный руководитель Бабков Виктор Светозарович [16].
5.2 Обзор международных источников
Развитие компьютерных технологий послужило значительному увеличению объема хранимых данных. Это в свою очередь привело к тому, что человеку стало все труднее проанализировать их. Хотя необходимость проведения такого анализа вполне очевидна, ведь в этих 'сырых данных' заключены знания, которые могут быть использованы при принятии решений. Поэтому стали развиваться методы, позволяющие проводить автоматический анализ данных.
Наиболее известны следующие методы интеллектуального анализа данных:
- Ассоциативные правила – метод позволяющий находить закономерности между связанными событиями. Примером такого правила, служит утверждение, что покупатель, приобретающий 'Хлеб', приобретет и 'Молоко' с вероятностью 72% [3];
- Кластеризация (или кластерный анализ) – это задача разбиения множества
объектов на группы, называемые кластерами [2]. Внутри каждой группы должны
оказаться «похожие» объекты, а объекты разных группы должны быть как можно более
отличны. Главное отличие кластеризации от классификации состоит в том, что перечень
групп четко не задан и определяется в процессе работы алгоритма.
Применение кластерного анализа в общем виде сводится к следующим этапам:
– отбор выборки объектов для кластеризации;
– определение множества переменных, по которым будут оцениваться объекты в выборке. При необходимости нормализация значений переменных;
– вычисление значений меры сходства между объектами;
– применение метода кластерного анализа для создания групп сходных объектов (кластеров);
– представление результатов анализа.
- Задача классификации – формализованная задача, в которой имеется множество объектов (ситуаций), разделённых некоторым образом на классы. Задано конечное множество объектов, для которых известно, к каким классам они относятся. Это множество называется выборкой. Классовая принадлежность остальных объектов не известна. Требуется построить алгоритм, способный классифицировать произвольный объект из исходного множества [1];
6. Содержание работы по этапам
6.1. Этап 1
Данные находятся на Web ресурсе мирового банка данных [9]. Данные доступны в виде архива в формате zip (рис. 1). В архиве содержится документ MS Excel формата xlsx. Данный формат поддерживается всеми видами MS Excel начиная с версии 2007 года. Вследствие сказанного стоит задача загрузки данных из сети Интернет и их распаковки.
6.2. Этап 2
По умолчанию данные хранятся в виде двумерной таблицы и имеют следующий формат:
- Первый заголовок строки (1-й столбец) страны;
- Второй заголовок строки (2-й столбец) индикатор;
- Заголовки столбцов – года.
Как видно из формата данных они имеют трёхмерный характер, поэтому стоит задача преобразования данных во множество двумерных таблиц (рис. 1).
Удобный для дальнейшей работы формат данных – документ MS Excel с множеством листов – индикаторов. Каждый лист таблицы содержит по строкам страны и по столбцам года. Вследствие всего сказанного стоит необходимость разработки, ПО которое будет выполнять трансформацию данных.
6.3. Этап 3
База данных, полученная на втором этапе работы будет содержать пробелы в данных (рис. 1). Чаще всего распределение пробелов в таблице поддаётся следующим правилам:
- Мало или нет данных для отдельной страны;
- Отсутствуют данные для определённого года;
- Наблюдаются пробелы единичной или ~10% длинны.
Для первого или второго типов пробелов нужно удалять страны или года соответственно. Для третьего типа предполагается заполнять пробелы при помощи линейной интерполяции типов «вперед», «назад», «нейтральная» [5].
6.4. Этап 4
На данном этапе предполагается сглаживание данных (рис. 1). Сглаживание можно проводить с использованием метода экспоненциального сглаживания применительно к полученной, в результате третьего этапа выполнения таблице. При сглаживании, значением текущего сглаженного значения Yt’’ являлась функция от текущего не сглаженного значения Yt и предыдущего сглаженного Yt-1’’: Yt’’ = alpha*Yt+(1+alpha)* Yt-1’’, где alpha - параметр сглаживания, причём 0 меньше либо равно alpha меньше либо равно 1 [12].
6.5. Этап 5
На данном этапе предполагается применение методов интеллектуального анализа данных описанных в пункте обзор предметной области исследований в мире или же их композиции (рис. 1).
6.6. Этап 6
Визуализация данных – задача, с которой сталкивается в своей работе любой исследователь. К задаче визуализации данных сводится проблема представления в наглядной форме данных эксперимента или результатов теоретического исследования (рис. 1).
Знания, полученные на пятом этапе работы планируется визуализировать с помощью графиков и диаграмм.
Выводы
В качестве исследования социально-экономического развития стран мира была принята задача написания программного обеспечения, позволяющего поэтапно выполнить все действия по обработке, анализу и визуализации данных. В результате работы был проведен анализ литературы по методам предварительной подготовки и анализа данных. Были программно реализованы первый и второй этапы магистерской работы, а также проведен ряд преобразований исходной базы данных.
При написании данного автореферата магистерская работа еще не завершена. Срок окончательной готовности работы – декабрь 2013 года. Полный текст работы и материалы по теме могут быть получены у автора или его руководителя после указанной даты.
Список источников
- Метод классификации [Электронный ресурс, режим доступа]: http://www.inftech.webservis.ru/it/database/datamining/ar2.html (10.04.2013);
- Метод кластеризации [Электронный ресурс, режим доступа]: http://habrahabr.ru/post/101338/ (15.04.2013);
- Метод ассоциаций [Электронный ресурс, режим доступа]:
http://www.inftech.webservis.ru/it/database/datamining/
ar1.html#Ассоциация(21.04.2013); - Метод деревьев решений [Электронный ресурс, режим доступа]:
http://www.inftech.webservis.ru/it/database/datamining/ar2.html#
4.5. Деревья решений (decision trees) (27.04.2013); - Википедия: свободная энциклопедия. [Электронный ресурс, режим доступа]: http://ru.wikipedia.org/wiki/Линейная_интерполяция (2.05.2013);
- Дата майнинг [Электронный ресурс, режим доступа]: http://compit.by/upload/Data_Mining.pdf (2.05.2013);
- Дата майнинг [Электронный ресурс, режим доступа]: http://www.iteam.ru/publications/it/section_92/article_1448/ (5.05.2013);
- Многомерная визуализация [Электронный ресурс, режим доступа]: http://pca.narod.ru/ZINANN.htm (6.05.2013);
- Всемирный банк данных [Электронный ресурс, режим доступа]: http://data.worldbank.org (9.05.2013);
- Защита программного обеспечения [Электронный ресурс, режим доступа]: ru.wikipedia.org/wiki/Защита_программного_обеспечения (12.05.2013);
- Про статистические методы анализа данных [Электронный ресурс, режим доступа]: www.omsu.ru/file.php?id=4948 (13.05.2013);
- Работы Родригеса Рамон Антонио [Электронный ресурс, режим доступа]:
http://ea.donntu.ru:8080/jspui/
browse?type=author&value=%D0%A0%D0%BE%D0%B4%D1%80%D0%B8%D0%B3%D0%B5%D1%81+%D0%97%D0%B0%
D0%BB%D0%B5%D0%BF%D0%B8%D0%BD%D0%BE%D1%81%2C+%D0%A0%D0%B0%D0%BC%D0%BE%D0%BD+%D0%90%D0%BD%D1%82%D0%BE%D0%BD%D0%B8%D0%BE (15.05.2013); - Анализ Интернет-трафика с использованием интеллектуального анализа данных [Электронный ресурс, режим доступа]: http://masters.donntu.ru/2012/fknt/paushchik/links/index.htm (15.05.2013);
- Методы интеллектуального анализа данных [Электронный ресурс, режим доступа]: http://masters.donntu.ru/2011/fknt/pominchuk/library/tez1.htm (20.05.2013);
- Обзор методов отображения пространственных данных посредством кластеризации [Электронный ресурс, режим доступа]: http://masters.donntu.ru/2012/fknt/prikhodko/library/article1.htm (22.05.2013);
- Методы интерактивной визуализации геоинформационных данных сложной структуры [Электронный ресурс, режим доступа]: http://masters.donntu.ru/2011/fknt/serik/index.htm (23.05.2013).