вернуться в назад библиотеку
Построение систем поддержки принятия решений
Источник: http://www.abc.org.ru
В настоящее время, когда процесс автоматизации различных видов деятельности пришел практически на каждое современное предприятие, вычислительные системы и компьютерные сети позволяют накапливать большие массивы данных. Большой объем информации, с одной стороны, позволяет выполнять более точные расчеты и делать подробный анализ, с другой –превращает поиск необходимых решений в сложную задачу.
В результате необходимости упростить задачу поиска решения появился целый класс программных систем, призванных облегчить работу по анализу данных. Такие системы принято называть системами поддержки принятия решений – СППР (DSS, Decision Support Systems).
Можно выделить три основные задачи, решаемые в СППР:
- ввод данных;
- хранение данных;
- анализ данных.
Существующие информационные системы, построенные как системы управления базами данных (СУБД) достаточно успешно решают задачи ввода (сбора) информации в систему, хранения и поиска информации и частично - анализа.
Решение задачи хранения данных, а также преодоление определенной противоречивости требований к системам управления базами данных и системам, ориентированным на глубокий анализ информации, привело к возникновению и все более широкому использованию подхода, ориентированного на использование концепции хранилищ данных.
Основная же задача СППР – предоставить аналитикам инструмент для выполнения анализа данных. Система не генерирует правильные решения, а только предоставляет аналитику данные в соответствующем виде для изучения и анализа, именно поэтому такие системы обеспечивают выполнении е функции поддержки принятия решений.
Основная задача Системы поддержки принятия решения – предоставить аналитикам инструмент для выполнения углубленного анализа данных. По степени интеллектуальности обработки данных при анализе выделяют три класса задач анализа:- Информационно-поисковый. Система осуществляется поиск необходимых данных в соответствии с заранее определенными запросами. Этот класс задач решается построением систем информационно-поискового анализа на базе реляционных СУБД и статических запросов с использованием языка SQL.
- Оперативно-аналитический. Система производит группировку и обобщение данных в любом виде, необходимом аналитику. Причем, в этом случае заранее невозможно предсказать необходимые аналитику запросы. Этот класс задач решается построением систем оперативного анализа с использованием технологии оперативной аналитической обработки данных OLAP, использующую концепцию многомерного анализа данных.
- Интеллектуальный. Система осуществляет поиск функциональных и логических закономерностей в накопленных данных, построение моделей и правил, которые объясняют найденные закономерности и/или с определенной вероятностью прогнозируют развитие некоторых процессов. Этот класс задач решается построением систем интеллектуального анализа, реализующего методы и алгоритмы Data Mining.
Хранилища данных
В основе концепции Хранилища Данных (ХД) лежит идея разделения данных, используемых для оперативной обработки и для решения задач анализа.
Это разделение позволяет оптимизировать как структуры данных оперативного хранения для выполнения операций ввода, модификации, удаления и поиска, так и структуры данных, используемых для анализа (для выполнения аналитических запросов).
Разные оперативные источники данных (системы управления) могут содержать данные, описывающие одну и ту же предметную область с разных точек зрения (бухгалтерского учета, складского учета, планового отдела и т.д.).
Решение принятое на основе только одной точки зрения, может быть неэффективным или неверным. ХД позволяют интегрировать информацию, отражающую разные точки зрения на одну предметную область.
Оперативные источники данных, как правило, разрабатываются в разное время и с использованием различных инструментариев. Это приводит к тому, что одни и те же объекты описываются по-разному. Интеграция данных в ХД позволяет решить эту проблему, приводя данные к единому формату.
Требования к оперативным источникам данных накладывают ограничение на время хранения в них данных, то есть, те данные, которые не нужны для оперативной обработки, могут удаляться из базы для уменьшения объема занимаемых ресурсов. Для анализа же требуются данные за максимально больший период времени. В отличие от ___ баз данных, в ХД данные после загрузки только читаются, что позволяет существенно повысить скорость доступа к данным.
Выполнение сложных аналитических запросов к оперативным источникам данных занимает большой объем ресурсов компьютеров, на которых они работают. Это приводит к снижению быстродействия системы, что недопустимо, так как время выполнения операций в таких системах часто весьма критично.
Таким образом, данные определенным образом подготовленные и собранные в ХД могут использоваться для анализа и принятия на их основе решений.
За формирование аналитических запросов к данным и представления результатов их выполнения в СППР отвечают подсистемы анализа (OLAP, Data Mining).
Упрощенным вариантом Хранилища данных является Витрина данных (ВД).
ВД максимально приближена к конечному пользователю и содержит данные, тематически ориентированные на него (например, ВД для работников отдела маркетинга может содержать данные, необходимые для маркетингового анализа).
ВД значительно меньше по объему, чем ХД, и для ее реализации не требуется больших затрат. Они могут быть реализованы как самостоятельно, так и вместе с ХД.
OLAP
В процессе принятия решений пользователь генерирует некоторые гипотезы. Проверка гипотез осуществляется на основании информации об анализируемой предметной области. Как правило, наиболее удобным способом представления такой информации является зависимость между некоторыми параметрами. Например, зависимость объема продаж от региона, времени, категории товар и т.д.
В процессе анализа данных, поиска решений часто возникает необходимость в построении зависимостей между различными параметрами. Кроме того, число таких параметров может варьироваться в широких пределах. Традиционные средства анализа, оперирующие данными, которые представлены в виде таблиц, не могут в полной мере удовлетворять такими требованиям.
Для анализа информации наиболее удобным способом ее представления является многомерная модель или гиперкуб, ребрами которого являются измерения. Это позволяет анализировать данные сразу по нескольким измерениям, т.е. выполнять многомерный анализ.
С концепцией многомерного анализа данных тесно связывают оперативный анализ, который выполняют средствами OLAP-систем.
OLAP (On-Line Analytical Processing)- технология оперативной аналитической обработки данных, использующая методы и средства для сбора, хранения и анализа многомерных данных в целях поддержки процессов принятия решений.
Основное назначение OLAP-систем – поддержка аналитической деятельности, произвольных запросов пользователей-аналитиков. Цель OLAP-анализа – проверка возникающих гипотез.
Data Mining
OLAP-системы предоставляют аналитику средства проверки гипотез при анализе данных, то есть основной задачей аналитика является генерация гипотез, которую он решает ее, основываясь на своих знаниях и опыте.
Однако знания есть не только у человека, но и у накопленных данных, которые подвергаются анализу. Такие знания содержатся в огромной объеме информации, которую человек не в силах исследовать самостоятельно. В связи с этим существует вероятность пропустить гипотезы, которые могут принести значительную выгоду.
Для обнаружения «скрытых» знаний применяется специальные методы автоматического анализа - Добыча Данных (Data Mining) (ДД).
Методы ДД помогают решить многие задачи, с которыми сталкивается аналитик.
К базовым методам ДД принято относить прежде всего алгоритмы, основанные на переборе и подходы, использующие элементы теории статистики.
Для обнаружения скрытых знаний в данных недостаточно просто применить методы ДД, хотя, безусловно, этот этап является основным в процессе интеллектуального анализа. Весь процесс состоит из нескольких этапов.- понимание и формулировка задачи анализа; На этом этапе происходит осмысление поставленной задачи и уточнение целей, которые должны быть достигнуты методами ДД. Правильно сформулированные цели и адекватно выбранные для их достижения методы в значительной степени определяют эффективность всего процесса.
- подготовка данных для автоматизированного анализа; то есть приведение данных к форме, пригодной для применения конкретных выбранных методов ДД,
- применение методов ДД и построение моделей; Сценарии применения могут быть самыми различными и включать сложную комбинацию разных методов, особенно если используемые методы позволяют проанализировать данные с разных точек зрения.
- проверка построенных моделей; что дает судить об адекватности построенной модели.
- интерпретация моделей человеком с целью их использования для принятия решений, добавления полученных правил и зависимостей в базы знаний.
Этим этапом и завершается цикл ДД в строгом смысле слова.
вернуться в назад библиотеку