Назад в библиотеку

ПРОЕКТИРОВАНИЕ ЦЕНТРА ХРАНЕНИЯ И ОБРАБОТКИ ДАННЫХ С ЦЕЛЬЮ ИССЛЕДОВАНИЯ ФАКТОРОВ, ВЛИЯЮЩИХ НА УСПЕВАЕМОСТЬ СТУДЕНТОВ С ОВЗ

В статье описан прототип центра хранения и обработки данных (ЦХОД) с использованием интеллектуального анализа данных. Приводятся инструменты и структурные элементы ЦХОД. С помощью. применяемых моделей по характерным признакам абитуриента с ОВЗ можно представлять рекомендации по его профориентации.

Ключевые слова: алгоритмы интеллектуального анализа данных, хранилища данных, модели интеллектуального анализа данных.

C развитием вычислительной техники и программного обеспечения в настоящее время широкое применение приобретает исследование предметных областей деятельности человека на базе интеллектуального анализа данных, с использованием математических алгоритмов и сформированных на их основе моделей . Для обеспечения эффективного использования указанных инструментов необходимо организовать сбор достоверной информации. Разработанный нами прототип ЦХОД использует базовый подход Билла Инмона – основателя теоретических принципов построения хранилищ данных (ХД). Его фундаментальное определение понятия ХД гласит, что «хранилище данных - это объектно-ориентированный, интегрированный, долгосрочный и изменяющийся во времени набор данных»[1] «Объектно-ориентированный» в этом определении обозначает, что информация касается конкретных объектов, и в нашем случае-это студенты. Термин «интегрированный» означает, что все понятия и определения, относящиеся к нашим объектам, принимаются однозначно и не допускают двоякого толкования. «Долгосрочный» означает то , что данные загружаются в ХД через некоторые промежутки времени, в нашем же случае- по окончанию каждого семестра обучения . «Изменяющийся во времени» определяет то, что набор данных охватывает значительный промежуток времени – пять, десять, а может и больше лет.

В широком понимании ЦХОД представляет собой систему, состоящую из структурных элементов, каждый из которых выполняет последовательно следующие функции:

В разработанный нами прототип ЦХОД, входят следующие элементы: источник данных, представление источника данных, OLAP куб, три измерения и шесть моделей интеллектуального анализа данных, в основе которых лежат математические алгоритмы: кластеризации, дерева решений, байесовский, нейронных сетей. Структура моделей практически одинаковая, за исключением различных применяемых прогнозных столбцов.

Работа со всеми типами алгоритмов унифицирована и состоит из 3 главных этапов:

  1. Создается модель добычи данных с использованием определенного алгоритма, настроенная на обучающую выборку данных;
  2. По обучающей выборке (в которой известны как исходные атрибуты, так и те, которые мы собираемся предсказывать в будущем) производим обучение модели добычи данных;
  3. После обучения на вход модели добычи данных подаются исходные атрибуты и рассчитываются выходные.

Для визуализации информации нами использована настройка Microsoft SQL Server Data Mining Add-ins for Office, которая располагается в открытом доступе и её можно загрузить и настроить для аналитических служб сервера. После кастомизации настройки утилиты Server Configuration и экземпляра SQL Server Analysis Services (SSAS), на клиентских компьютерах также необходимо активировать параметры MS Excel. После чего клиент через строку соединения может подсоединяться к Базам Данных (БД) SQL Server и моделям интеллектуального анализа данных SSAS нашего проекта, расположенным удалённо (в облаке).

Разработанный прототип ЦХОД представляет собой комплексную структуру исследования предметной области, начиная от ввода, обработки и визуализации данных. Основным преимуществом системы является то, что она даёт конечным пользователям, не владеющим навыками программирования (членам приёмных комиссий ВУЗов) возможность использовать такие высокоинтеллектуальные средства анализа информации как модели Data Mining. Следует особо отметить, что данный прототип ЦХОД использует клиент-серверный принцип построения, что позволяет обращаться к системе и получать выходные данные неограниченному числу конечных пользователей, расположенных в разных местах, что очень важно, если ВУЗ имеет филиалы, расположенные в других городах.

Для накопления исходной информации предусматривается возможность ввода данных из разных удаленных друг от друга точек, что позволяет постоянно пополнять исходную информацию, и чем больше записей будет в нашей эталонной базе данных, тем точнее будет получаемый прогноз.

Библиографический список

  1. Inmon W. H. Bulding the data warehouse// Wiley Computer Publishing Third Edition 2002 с.412