Анализ данных |
Основой для анализа
данных служит моделирование. Построение моделей является универсальным
способом изучения окружающего мира. Построение моделей позволяет обнаруживать
зависимости, извлекать новые знания, прогнозировать, управлять и решать
множество других задач.
|
Принципы построения моделей |
|
Методика извлечения знаний |
Несмотря на большое количество разнообразных
бизнес-задач, почти все они решаются по единой методике. Эта методика,
называется Knowledge Discovery in Databases. Она описывает не конкретный
алгоритм или математический аппарат, а последовательность действий, которую
необходимо выполнить для построения модели (извлечения знания).
|
KDD – выборка данных |
Первым шагом в анализе
является получение исходной выборки. На основе этих данных и строятся модели.
На этом шаге необходимо активное участие эксперта для выдвижения гипотез и
отбора факторов, влияющих на анализируемый процесс. Желательно, чтобы данные
были уже собраны и консолидированы. Крайне необходимо наличие удобных
механизмов подготовки выборки.
|
KDD – очистка данных |
Реальные данные для
анализа редко бывают хорошего качества. Необходимость предварительной
обработки при анализе данных возникает независимо от того, какие технологии и
алгоритмы используются. Более того, эта задача может представлять
самостоятельную ценность в областях, не имеющих непосредственного отношения к
анализу данных.
|
KDD – трансформация данных |
Трансформация данных –
последний этап перед, собственно, анализом. Дело в том, что различные
алгоритмы анализа требуют специальным образом подготовленные данные,
например, для прогнозирования необходимо преобразовать временной ряд при
помощи скользящего окна или вычисление агрегируемых показателей.
|
KDD – Data Mining |
Data Mining – это
процесс обнаружения в «сырых» данных ранее неизвестных нетривиальных,
практически полезных и доступных интерпретации знаний, необходимых для
принятия решений в различных сферах человеческой деятельности.
|
Data Mining – задачи |
Задачи решаемые методами Data Mining:
Можно говорить еще и о задаче анализа отклонений – выявления наиболее нехарактерных шаблонов.
|
Применение Data Mining в экономике |
|
Наиболее популярные алгоритмы |
Деревья решений – алгоритм C4.5
|
Data Mining – алгоритмы |
Для решения вышеописанных задач используются
различные методы и алгоритмы Data Mining. Ввиду того, что Data Mining
развивался и развивается на стыке таких дисциплин, как статистика, теория
информации, машинное обучение, теория баз данных, вполне закономерно, что
большинство алгоритмов и методов Data Mining были разработаны на основе
различных методов из этих дисциплин.
|
KDD – интерпретация |
В случае, когда извлеченные знания непрозрачны
для пользователя, должны существовать методы постобработки, позволяющие
привести их к интерпретируемому виду.
|
Достоинства и недостатки моделей |
Использование методов
построения моделей позволяет получать новые знания, которые невозможно
извлечь другим способом. Кроме того, полученные результаты являются формализованным
описанием некоего процесса, а следовательно поддаются автоматической
обработке.
|
Комбинирование подходов |
На практике подходы комбинируются, например,
визуализация данных наводит эксперта на некоторые идеи, которые он пробует
проверить при помощи различных способов построения моделей, а результаты
построения моделей подаются на вход механизмам визуализации.
|
Аналитическая система |
Наиболее оптимальной с точки зрения гибкости,
возможностей и простоты использования является аналитическая система
состоящая из хранилища данных, механизмов визуализации и методов построения
моделей.
|
Решаемые бизнес-задачи |
Подавляющее большинство бизнес-задач сводится
к комбинированию описанных методов. Фактически, ранее были описаны базовые
блоки, из которых собирается практически любое бизнес решение.
|
Реализация в Deductor 4 |
Аналитическая платформа Deductor создавалась
как система, реализующая описанную выше схему анализа. Платформа включает в
себя хранилище данных и большой набор методов построения моделей. Любые
данные, полученные из хранилища данных, иного источника или в результате
обработки можно отобразить при помощи большого набора визуализаторов. |
Источник: Компания Фрегат http://www.frigat.ru/131/