П.С. Большаков,
Технический специалист StatSoft Russia
Источник: http://www.statsoft.ru/home/applications/dataminer.htm
Подробно описывается, что такое Data Mining, его применение. Этот термин связан с новым витком в развитии средств и методов обработки и хранения данных. Рассматривается система STATISTICA Data Miner, которая спроектирована и реализована как универсальное и всестороннее средство анализа данных – от взаимодействия с различными базами данных до создания готовых отчетов.
Сам термин Data Mining переводится как "извлечение информации" или "добыча данных". Нередко рядом с Data Mining встречаются слова knowledge discovery – "обнаружение знаний" и Data Warehouse – "хранилище данных". Возникновение указанных терминов, которые являются неотъемлемой частью Data Mining, связано с новым витком в развитии средств и методов обработки и хранения данных.
Цель Data Mining состоит в выявлении скрытых правил и закономерностей в наборах данных, образно говоря, в "нахождении золотых песчинок в огромной куче руды". Дело в том, что человеческий разум сам по себе не приспособлен для восприятия больших массивов разнородной информации. В среднем человек, за исключением некоторых индивидуумов, не способен улавливать более двух-трех взаимосвязей даже в небольших выборках. Но и традиционная статистика, долгое время претендовавшая на роль основного инструмента анализа данных, также нередко пасует при решении задач из реальной жизни. Она оперирует усредненными характеристиками выборки, которые часто являются фиктивными величинами (средней платежеспособностью клиента, когда в зависимости от функции риска или функции потерь, вам необходимо уметь прогнозировать состоятельность и намерения клиента; средней интенсивностью сигнала, тогда как вам интересны характерные особенности и предпосылки пиков сигнала и т.д.). Поэтому методы математической статистики оказываются полезными главным образом для проверки заранее сформулированных гипотез, тогда как определение гипотезы иногда бывает достаточно сложной и трудоемкой задачей. Современные технологии Data Mining перелопачивают информацию с целью автоматического поиска шаблонов (паттернов), характерных для каких-либо фрагментов неоднородных многомерных данных. В отличие от оперативной аналитической обработки данных (OLAP) в Data Mining бремя формулировки гипотез и выявления необычных (unexpected) шаблонов переложено с человека на компьютер. Data Mining – это не один, а совокупность большого числа различных методов обнаружения знаний. Выбор метода часто зависит от типа имеющихся данных и от того, какую информацию вы пытаетесь получить. Вот например некоторые методы: ассоциация (объединение), классификация, кластеризация, анализ временных рядов и прогнозирование, нейронные сети и т.д.
Сфера применения Data Mining ничем не ограничена – Data Mining нужен везде, где имеются какие-либо данные. Опыт многих таких предприятий показывает, что отдача от использования Data Mining может достигать 1000%. Например, известны сообщения об экономическом эффекте, в 10-70 раз превысившем первоначальные затраты от 350 до 750 тыс. дол. Приводятся сведения о проекте в 20 млн. дол., который окупился всего за 4 месяца. Другой пример – годовая экономия 700 тыс. дол. за счет внедрения Data Mining в сети универсамов в Великобритании. Data Mining представляют большую ценность для руководителей и аналитиков в их повседневной деятельности. Деловые люди осознали, что с помощью методов Data Mining они могут получить ощутимые преимущества в конкурентной борьбе.
Компанией StatSoft была разработана система STATISTICA Data Miner, которая спроектирована и реализована как универсальное и всестороннее средство анализа данных – от взаимодействия с различными базами данных до создания готовых отчетов, реализующее так называемый графически – ориентированный подход. Чтобы описать все возможности данного пакета потребуется написать целую книгу, поэтому постараемся вкратце описать имеющиеся в данном пакете основные средства Data Mining.
Наиболее полный пакет методов Data Mining на рынке программного обеспечения;
Большой набор готовых решений;
Удобный пользовательский интерфейс, полностью интегрированный с MS Office;
Мощные средства разведочного анализа;
Полностью оптимизированный пакет для работы с огромным объемом информации;
Гибкий механизм управления;
Многозадачность системы;
Чрезвычайно быстрое и эффективное развертывание;
Открытая COM архитектура, неограниченные возможности автоматизации и поддержки пользовательских приложений (использование промышленного стандарта Visual Basic (является встроенным языком), Java, C/C++). Сердцем STATISTICA Data Miner является браузер процедур Data Mining, содержащий более 300 основных процедур, специально оптимизированных под задачи Data Mining, и средств логической связи между ними и управления потоками данных, позволяющий вам конструировать собственные аналитические методы.
Рабочее пространство STATISTICA Data Miner состоит из четырех основных частей:
Data Acquisition – Сбор данных. В данной части пользователь идентифицирует источник данных для анализа, будь то файл данных или запрос из базы данных.
Data Preparation, Cleaning, Transformation – Подготовка, преобразования и очистка данных. Здесь данные преобразуются, фильтруются, группируются и т.д.
Data Analysis, Modeling, Classification, Forecasting – Анализ данных, моделирование, классификация, прогнозирование. Здесь пользователь может при помощи браузера или готовых моделей задать необходимые виды анализа данных таких как, прогнозирование, классификация, моделирование и т.д.
Reports – Результаты. В данной части пользователь может просмотреть, задать вид и настроить результаты анализа (например, рабочая книга, отчет или электронная таблица).
В предлагаемом пакете предлагается исчерпывающий набор процедур и методов визуализации.
Средства анализа STATISTICA Data Miner можно классифицировать на пять основных классов:
General Slicer/Dicer and Drill-Down Explorer – Разметка/Разбиение и Углубленный анализ. Набор процедур позволяющий разбивать, группировать переменные, вычислять описательные статистики, строить исследовательские графики и т.д.
General Classifier – Классификация. STATISTICA Data Miner включает в себя полный пакет процедур классификации: обобщенные линейные модели, деревья классификации, регрессионные деревья, кластерный анализ и т.д.
General Modeler/Multivariate Explorer – Обобщенные линейные, нелинейные и регрессионные модели. Данный элемент содержит линейные, нелинейные, обобщенные регрессионные модели и элементы анализа деревьев классификации.
General Forecaster – Прогнозирование. Включает в себя модели АРПСС, сезонные модели АРПСС, экспоненциальное сглаживание, спектральный анализ Фурье, сезонная декомпозиция, прогнозирование при помощи нейронных сетей и т.д.
General Neural Networks Explorer – Нейросетевой анализ. В данной части содержится наиболее полный пакет процедур нейросетевого анализа.
Приведенные выше элементы являются комбинацией модулей других продуктов StatSoft, кроме них STATISTICA Data Miner содержит набор специализированных процедур Data Mining, которые дополняют линейку инструментов Data Mining:
Feature Selection and Variable Filtering (for very large data sets) – Специальная выборка и фильтрация данных (для больших объемов данных). Данный модуль автоматически выбирает подмножества переменных из заданного файла данных для последующего анализа. Например, модуль может обработать около миллиона входных переменных с целью определения предикторов для регрессии или классификации.
Association Rules – Правила ассоциации. Модуль является реализацией так называемого априорного алгоритма обнаружения правил ассоциации например, результат работы этого алгоритма мог бы быть следующим: клиент после покупки продукт "А", в 95 случаях из 100, в течении следующих двух недель после этого заказывает продукт "B" или "С".
Interactive Drill-Down Explorer – Интерактивный углубленный анализ. Представляет собой набор средств для гибкого исследования больших наборов данных. На первом шаге вы задаете набор переменных для углубленного анализа данных, на каждом последующем шаге вы выбираете необходимую подгруппу данных для последующего анализа.
Generalized EM & k-Means Cluster Analysis – Обобщенный метод максимума среднего и кластеризация методом К средних. Данный модуль – это расширение методов кластерного анализа, предназначен для обработки больших наборов данных и позволяет кластеризовывать как непрерывные так и категориальные переменные, обеспечивает все необходимые функциональные возможности для распознавания образов.
Generalized Additive Models (GAM) – Обобщенные аддитивная модели (GAM). Набор методов, разработанных и популяризованных Hastie и Tibshirani (1990); более детальное рассмотрение этих методов вы также может найти в работах Schimek (2000).
General Classification and Regression Trees (GTrees) – Обобщенные классификационные и регрессионные деревья (GTrees). Модуль является полной реализацией методов разработанных Breiman, Friedman, Olshen, и Stone (1984). Кроме этого модуль содержит разного рода доработки и дополнения такие как, оптимизации алгоритмов для больших объемов данных и т.д. Модуль является набором методов обобщенной классификации и регрессионных деревьев.
General CHAID (Chi-square Automatic Interaction Detection) Models – Обобщенные CHAID модели (Хи-квадрат автоматическое обнаружение взаимодействия). Подобно предыдущему элементу данный модуль является оптимизацией данной математической модели для больших объемов данных.
Interactive Classification and Regression Trees – Интерактивная классификация и регрессионные деревья. В дополнение к модулям автоматического построения разного рода деревьев, STATISTICA Data Miner также включает средства для формирования таких деревьев в интерактивном режиме.
Boosted Trees – Расширяемые простые деревья. Последние исследование аналитических алгоритмов показывают, что для некоторых задач построения "сложных" оценок, прогнозов и классификаций, использование последовательно увеличиваемых простых деревьев дает более точные результаты чем нейронные сети или сложные цельные деревья. Данный модуль реализует алгоритм построения простых увеличиваемых (расширяемых) деревьев.
Multivariate Adaptive Regression Splines (Mar Splines) – Многомерные адаптивные регрессионные сплайны (Mar Splines). Данный модуль основан на реализации методики предложенной Friedman (1991; Multivariate Adaptive Regression Splines, Annals of Statistics, 19, 1-141); в STATISTICA Data Miner расширены опции MARSPLINES для того, чтобы приспособить задачи регрессии и классификации к непрерывными и категориальным предикторам.
Goodness of Fit Computations – Критерии согласия. Данный модуль производит вычисления различных статистических критериев согласия как для непрерывных переменных, так и для категориальных.
Rapid Deployment of Predictive Models – Быстрые прогнозирующие модели (для большого числа наблюдаемых значений). Модуль позволяет строить за короткое время классификационные и прогнозирующие модели для большого объема данных. Полученные результаты могут быть непосредственно сохранены во внешней базе данных.
Как вы уже заметили, Data Mining включает огромный набор различных аналитических процедур, что делает его недоступным для обычных пользователей, которые слабо разбираются в методах анализа данных. Компания StatSoft нашла выход и из этой ситуации, данный пакет могут использовать как профессионалы, так и обычные пользователи, обладающие небольшими опытом и знаниями в анализе данных и математической статистике. Для этого кроме общих методов анализа были встроены готовые законченные (сконструированные) модули анализа данных, предназначенные для решения наиболее важных и популярных задач: прогнозирования, классификации, создания правил ассоциации и т.д. В добавление к сказанному, приведу пару наиболее интересных и наглядных примеров: прогнозирование непрерывной переменной и построение правил ассоциации.
Боровиков В. П., Ивченко Г. И., "Прогнозирование в системе STATISTICA в среде WINDOWS", М., "Финансы и статистика", 1999, 382c.
Боровиков В. П., "STATISTICA: искусство анализа данных на компьютере. Для профессионалов", СПб., "Питер", 2001, 656с.
"Нейронные сети STATISTICA Neural Networks" – М., "Горячая линия – Телеком", 2001, 182с.
Дюк В., "Data Mining – состояние, проблемы, новые решения", http://on.wplus.net/sparm/science/Data_mining.html, 1999.