Основные понятия
Интеллектуальный анализ данных (ИАД) – выявление скрытых закономерностей или взаимосвязей между переменными в больших массивах необработанных данных. Делится на задачи классификации, моделирования и прогнозирования и другие.
ИАД включает методы и модели статистического анализа и машинного обучения, но отличается от них автоматическим анализом данных. Инструменты ИАД позволяют проводить анализ данных аналитиками, не владеющими соответствующими математическими знаниями. Подсистема анализа данных облегчает возможность поиска пользователем необходимых ответов в сложной корпоративной информационной системе. Алгоритмы ИАД обеспечивают поддержку принятия разнообразных управленческих решений.
Основные методы и подходы
ИАД использует взаимодополняющие методы обнаружения знаний. В подсистеме реализованы методы, получившие наибольшее коммерческое распространение в мировой практике:
- кластеризация – реализует группировку относительно схожих объектов;
- поиск ассоциаций – реализует поиск устойчивых комбинаций событий и объектов;
- дерево решений – обеспечивает построение причинно-следственной иерархии условий, приводящей к определенным решениям.
- Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP / А.А. Барсегян, М.С. Куприянов, В.В. Степаненко, И.И. Холод. – 2-е узд., перераб. и доп. – СПб.: БХВ-Петербург, 2007. – 384 с.
Выбор метода зависит от первоначальных данных и от того, какие закономерности нужно выявить.
Для наглядного наблюдения за результатами анализа применяются эргономичные элементы управления.
«Ожидается, что подсистема анализа данных будет востребована для управления коммерческими рисками и ассортиментной политикой, оптимизации процессов логистики и бюджетирования, планирования программ стимулирования персонала и маркетинговых мероприятий, а также для реинжиниринга бизнес-процессов и в области оптимизационного консалтинга».
Кластеризация. Цель кластеризации - выявление из множества объектов одного роды нескольких относительно однородных групп – сегментов или кластеров. По группам Объекты распределяются так, чтобы отличия между элементами группы были минимальны и межгрупповые различия – максимальными. Так, например, кластеризация клиентов по некоторым признакам дает возможность ответить на главные вопросы любого бизнеса: «Кто потребитель?», «Какие его потребности?», «Сможет ли он оплатить их удовлетворение?». Также кластеризация районов города по уровню достатка жителей способствует более уравновешенному ценообразованию. Сегментация товаров позволяет выделить конкурентно способные товары и назначить эффективные мероприятия по их продвижению.
Поиск ассоциаций. Этот метод ИАД необходим для выявления комбинаций элементов в определенных событиях или объектах.
Изначально метод поиска ассоциаций использовался для нахождения типичных шаблонов покупок, совершаемых в супермаркетах, поэтому иногда его еще называют анализом рыночной корзины. В качестве ассоциируемых элементов, как правило, выступают товарные группы. А группирующим объектом, объединяющим элементы выборок, может быть любой объект информационной системы, идентифицирующий сделку, например, заказ покупателя - фискальный чек.
Информация о закономерностях в предпочтениях покупателей – повышает эффективность CRM (в части рекламных кампаний и маркетинговых акций), ценообразование (формирование системы скидок), логистики (оптимизация товарных запасов) и мерчендайзинг (распределение товаров в торговых залах).
Еще один пример использования этого метода – определение предпочитаемых клиентами комбинаций рекламных каналов для исключения их дублирования при проведении целевых рекламных кампаний. Это существенно снижает издержки. Результат анализа представляется в виде групп элементов, также приводится развернутая аналитика по ассоциированным элементам.
Дерево решений. Применения этого метода характеризуется добавлением исходным данным древовидной структуры правил вида «Если... то...», алгоритм анализа сопровождается процессом выделения на каждом этапе наиболее значимых условий. Этом метод получил распространение при выявлении причинно-следственных связей в данных.
Алгоритм поиска последовательностей является усовершенствованием алгоритма поиска ассоциаций. Он реализуем, если есть возможность объединить события в единую временную последовательность каким-либо атрибутом, что существенно увеличивает функциональность аналитической системы.
Алгоритм получил наибольшее распространение для расширения эффективности перекрестных продаж. Он дает ответы на вопросы вида: «Если покупатель приобрел фотоаппарат, то через какое время он вероятнее всего купит новые батарейки и пленку?»
В основном этот метод применяется при оценки различных типов риска, например, просрочки платежа, недопоставки. Другой часто встречающийся вариант использования этого алгоритма – анализ и прогноз поведенческих стереотипов (переход клиента к конкуренту). Логика этого метода близка к человеческой. Анализы этого типа получили название "Что, если...?", они незаменимы в бюджетном процессе.
Пользуясь деревьям решений можно существенно снизить влияние неопределенности поведения бизнес-окружения на состояние компании – это является результатом анализа и прогноза. Благодаря этому методу вполне реально минимизировать затраты на управление поставками, а также- добиться увеличения эффективности маркетинговых кампаний и оптимизации системы продаж.
Адекватная оценка рисков обеспечивает принятие квалифицированных решений, а также полезна для увеличения реалистичности различных бюджетов.
Вывод
Безусловно, каждый из рассмотренных подходов представляет особый интерес для анализа и прогнозирования данных. Поэтому дальнейшие исследования авторов будут направлены на разработку некоторых методов и алгоритмов, изучение методик проведения сравнительного анализа методов, а также проверку их эффективности на примере решения конкретной задачи.