Интеллектуальный анализ данных

 

Интеллектуальный анализ данных (Data Mining), [1]  – вычислительный процесс обнаружения закономерностей в больших объемах, данных с участием методов на пересечении искусственного интеллекта, машинного обучения, статистики и баз данных. [2] Общая цель процесса интеллектуального анализа данных – извлечение знаний из набора данных и преобразование их в понятую для дальнейшего использования структуру.

Термин является модным словом [3], и им часто злоупотребляют для обозначения любой формы больших объемов данных или обработки информации (сбор, добычу, хранение, анализ и вычисление статистических характеристик). Термин также ассоциируют с любой компьютерной системой поддержки принятия решений, в том числе искусственного интеллекта, машинного обучения и бизнес – аналитике. Для надлежащего использования этого термина, его следует использовать в тех случаях, когда имеет место "обнаружение чего-нибудь нового".

Актуальной задачей интеллектуального анализа данных является автоматический или полуавтоматический анализ больших объемов данных для извлечения ранее неизвестных, интересных моделей, таких как группы взаимосвязанных записей данных (кластерный анализ), необычные записи (обнаружение аномалий) и зависимости (ассоциативные правила). Как правило, это связано с использованием данных методов, таких как пространственные индексы. Эти модели можно рассматривать как своего рода резюме входных данных и они могут быть использованы в дальнейшем анализе или, например, в машинном обучении и прогнозном анализе. Например, этап анализа данных может определить несколько групп в данных, которые затем могут быть использованы для получения более точного результата предсказания с помощью системы поддержки принятия решений. Сбор данных, подготовка, интерпретация результатов и отчетность являются частью интеллектуального анализа данных, и относятся к  процессу обнаружения знаний в базах данных в качестве дополнительного шага.

Терминов, связанных с данными много,  ловля данных,  отслеживание данных и все они относятся к использованию методов интеллектуального анализа данных. Как пример частями большого набора данных, которые являются (или могут быть) слишком малыми для надежных статистических выводов при решении вопроса о достоверности любых закономерностей, обнаруженных в процессе анализа. Эти методы, однако, может быть использован в создании новых гипотез для тестирования по отношению к более популяции данных.

Интеллектуальный анализ данных использует данные полученные в прошлом, чтобы проанализировать результат конкретной проблемы или ситуации, которые могут возникнуть. Интеллектуальный анализ данных ведет работы по анализу данных, хранящихся в хранилищах данных. Данные могут поступать из всех частей бизнеса, от производства до управления. Менеджеры также используют интеллектуальный анализ данных для принятия решений по маркетинговой стратегии для своего продукта. Они могут использовать данные для сравнения и противопоставления конкурентов. Интеллектуальный анализ данных интерпретирует данные в реальном времени. Это может быть использовано  для увеличения объёма продаж, продвижения нового продукта или прекращения продаж продукта, который не несёт существенную прибыль для компании.

1. Предварительная обработка;

2. Интеллектуальный анализ данных;

3. Результаты проверки;

4. Список литературы.

 

Процесс обнаружения знаний в базах данных обычно состоит из следующих  этапов:

1. Выбор;

2. Предварительная обработка;

3. Трансформация;

4. Data Mining;

5. Интерпретация / оценка [1].

Однако процесс интеллектуального анализа данных может отличаться в зависимости от того данные какой         области человеческой деятельности мы анализируем. Межотраслевой стандартный процесс интеллектуального анализа данных (Crisp-DM), определяет шесть этапов:

1. Понимание бизнеса;

2. Понимание данных;

3. Подготовка данных;

4. Моделирование;

5. Оценка;

6. Развертывание.

Упрощенный процесс состоит из следующих этапов: предварительная обработка, интеллектуальный анализ данных, проверка результатов.

Опросов, проведенный в 2002, 2004 и 2007 годах показывает, что для получения Grisp DM методологии использовались ведущей методы в анализе данных [4] [5] [6]. Единственной методологией интеллектуального анализа данных, которая может конкурировать с GRISP является Semma. Тем не менее,  в 3-4 раза больше людей, сообщили об использовании CRISP-DM. Несколько групп исследователей опубликованы обзоры моделей интеллектуального анализа данных [7] [8], Азеведо, Сантос провели сравнение CRISP-DM и Semma в 2008 году [9].

 

1.                Предварительная обработка

Перед использованием алгоритмов анализа данных набор выходных данных должен быть подготовлен. Интеллектуальный анализ данных может раскрыть только модели на самом деле присутствующие в данных, целевой набор данных должен быть достаточно большим, чтобы содержать эти модели, оставаясь при этом достаточно кратким. Модели обычно добываются в пределах приемлемого срока. Обычно источник данных для анализа данных является некоторое хранилище данных. Предварительная обработка необходима для анализа многомерных наборов данных до интеллектуального анализа данных. Данные содержащие шум сглаживаются, пустоты в данных заполняются.

 

2.                Интеллектуальный анализ данных

Интеллектуальный анализ данных включает в себя шесть общих классов задач [1]:

- обнаружение аномалий (Outlier / изменение / отклонение обнаружение) - идентификация необычных записей данных, которые могут быть интересны или ошибки в данных, которые требуют дальнейшего изучения;

- ассоциативные правила обучения – поиск связей между переменными. Например супермаркет, может собирать данные о привычках клиента в процессе покупки. Использование ассоциативных правил обучения, супермаркет может определить, какие продукты часто покупают вместе и использовать эту информацию в маркетинговых целях. Это иногда называют анализ рынка корзины;

- кластеризация – это задачи по выявлению групп и структур данных, которые в той или иной степени «похожи», без использования известных структур в данных.

– классификация – это задача обобщения известной структурой для применения к новым данным. Например, программа электронной почты может попытаться классифицировать электронную почту как "законный" или как "спам";

- регрессия – попытки найти функцию, которая моделирует данные с наименьшей ошибкой;

- уплотнение – обеспечивает более компактное представление набора данных, включая визуализацию и генерацию отчетов.

 

3.                Проверка результатов

Заключительный этап обнаружения знаний в данных, заключается в проверке, того что модель даёт правдивые результаты. Алгоритмы интеллектуального анализа данных применяют для более широкого набора данных. Не все модели найденные алгоритмами интеллектуального анализа данных обязательно правдивы. Она является общей для алгоритмов интеллектуального анализа данных для поиска закономерностей в обучающем наборе, которых нет в общем наборе данных. Это называется переобучение. Чтобы проверить модель, используется тестовый набор данных, на которых алгоритм интеллектуального анализа данных не обучался. Далее полученный результат сравнивают с требуемым выходом. Например, алгоритм интеллектуального анализа данных пытается отличить «спам» от «законного» письма. Перед этим алгоритм обучается на тренировочном наборе образцов писем электронной почты. После обучения, применяется тестовый набор электронных писем, на которых он не обучался. Точность модели можно измерять тем, как много электронных писем алгоритм правильно классифицировал. Количественно – статистические методы могут быть использованы для оценки алгоритма, например, ROC кривых.

Если ученые моделей не отвечают требуемым стандартам, то необходимо пересмотреть и изменить предварительную обработку и добычу данных. Если ученые структуры не отвечают требуемым стандартам, то переходят к последнему шагу, чтобы интерпретировать изучение шаблонов и превратить их в знания.

 

Список литературы

1. ABC Файяд, Усама; Piatetsky-Шапиро, Григорий; Смит, Padhraic (1996). "От интеллектуального анализа данных для обнаружение знаний в базах данных". Проверено 17 декабря 2008 года;

2. A B C D "Data Mining Учебная». ACM SIGKDD. 2006-04-30. Проверено 2011-10-28;

3. OKAIRP 2005 осенняя конференция, Университет штата Аризона, About.com: Datamining;

4. Григорий Piatetsky-Шапиро (2002) KDnuggets Методология опроса;

5. Григорий Piatetsky-Шапиро (2004) KDnuggets Методология опрос;

6. Григорий Piatetsky-Шапиро (2007) KDnuggets Методология опроса;

7. Оскар Marbán, Гонсало и Хавьер Марискаль Сеговии (2009), интеллектуальный анализ данных и обнаружение знаний Модель процесса. В интеллектуальном анализе данных и обнаружение знаний в реальных приложениях жизни, книге под редакцией: Хулио Понсе и Адем Karahoca, ISBN 978-3-902613-53-0, стр. 438-453, февраль 2009, I-Tech, Вена, Австрия;

8. Лукаш Курганской и Петр Musilek (2006); обзор знаний и данных моделей интеллектуального анализа, данных процесса. Обзор Инженерия знаний. Том 21 выпуск 1, март 2006 г., стр. 1-24, Cambridge University Press, Нью-Йорк, Нью-Йорк, США DOI: 10.1017/S0269888906000737;

9. Азеведо, А. и Сантос, MF KDD, Semma и четкие-DM: параллельный обзор. В Трудах IADIS Европейской конференции по интеллектуальному анализу данных 2008, стр. 182-185.