Назад в библиотеку

Обнаружения выбросов: обзор

Авторы: Varun Сhandola , Vipin Kumar
Источник: Аrticle Varun Chandola, Vipin Kumar University of Minnesota, 2001 yr., р. 85.

Актуальность темы
Обнаружение выбросов – очень важное понятие в области анализа и обработки данных. В последнее время интерес к этой теме значительно возрос, потому что остро стал вопрос с борьбой данных, т. к. из-за них получаются грубейшие ошибки а иногда даже вся система может давать неправильные результаты. Обнаружения выбросов было исследовано в различных прикладных областях знаний и дисциплин. Данное исследование представляет собой всеобъемлющий обзор существующих методов обнаружения выбросов, давая классификацию им по различным измерениям.

Введение
Обнаружение выбросов относится к проблеме поиска закономерностей в данных, которые не соответствуют ожидаемому нормальному поведению. В повседневной жизни выбросы – аномалии, противоречивые наблюдения, недостатки, дефекты, отклонения, шумы, ошибки, повреждения.
Обнаружения выбросов – широко исследованнная проблема, которая находит огромное применение в различных прикладных областях, таких как кредитные карты, страхование, выявление налогового мошенничества, обнаружения вторжений для кибер-безопасности, обнаружения ошибок в безопасности критически важных систем, наблюдение за военной деятельностью врага, и в многих других областях. Важность обнаружения выбросов связано с тем, что выбросы в передаче данных зачастую имеет решающее значение в передаче информации в различных прикладных областей. Например, аномальная картина трафика в компьютерной сети может означать, что взломан компьютер отправки конфиденциальных данных.
Методы обнаружения выбросов широко используются для обнаружения аномальных моделей в медицинской документации пациента, которые могут быть симптомами нового заболевания. Обнаружения выбросов нашло непосредственное применение в целом ряде областей. Многие из этих методов были разработаны для решения целенаправленных проблем, относившихся к определенной предметной области, но в тоже время было разработано много более универсальных методов.
Данное исследование направлено на предоставление структурированного и всеобъемлющего обзора исследований, проведенных в области обнаружения выбросов. Мы определили основные характеристики любой техники для обнаружения выбросов, и использовали их в качестве наглядных примеров для классификации существующих методов в различных категориях. Данное исследование направлено на обеспечение лучшего понимания различных направлений, в которых проходили исследования.

Что такое выбросы?
Выбросы, как определено ранее, являются образцами в данных, которые не соответствуют четко определенным понятиям нормального поведения, или могут соответствовать четко определены понятия отдаленного поведения (как правило, легче определить нормальное поведение). Данное исследование рассматривает методы, которые находят такие выбросы в данных.
Выбросы существуют почти в каждом реальном наборе данных. Некоторые из явных причин выбросов приведены ниже:
– вредоносная активность, например, зафиксировано мошенничество с страховой или кредитной картами (вторжения кибер-террористической деятельности);
– инструментарные ошибки: дефекты деталей машин и износ;
– изменения в окружающей среде: такие, как изменение климата, новая модель покупки среди потребителей, мутации в генах;
– человеческий фактор: автомобильные аварии или ошибки представления данных.
Выбросы могут быть вызваны в данных по ряду причин, об этом говорилось выше, но у всех этих причин, есть одна общая черта – они являются интересными для аналитиков. Интерес или реальная значимость жизни выбросов является ключевым элементом обнаружения выброса и отличает его от удаления шума.
Шум в данных не имеет реального значения сам по себе, но выступает в качестве препятствия для анализа данных. Удаление шума обусловлено необходимостью удаления нежелательных объектов перед любым анализом данных.
Еще одной похожей темой на обнаружение выбросов является новинка, направленная на выявление невидимых закономерностей в данных. Различие между новым методом и моделью обнаружения выбросов в том, что новые модели, как правило, объединены с нормальной моделью в классы.
Одна из основных задач по обнаружению выброса в том, что она включает в себя изучение невидимого пространства. Как упоминалось ранее, на абстрактном уровне, выброс может быть определен как модель, которая не соответствует ожидаемому нормальному поведению.
Простой подход будет определять область представления нормального поведения и объявлять любые наблюдения в данных, которые не принадлежат к этой нормальной области, как выброс. Но несколько факторы делают этот, казалось бы, простой подход, очень сложным:
– определение нормального региона, который охватывает все возможное нормальное поведение;
– часто нормальное поведение продолжает развиваться и существующие понятия нормального поведения не могут быть достаточно представительными в будущем;
– границы между нормальным и отдаленных поведение часто размыты. Таким образом, удаленное наблюдение, которое находится недалеко от границы может быть на самом деле нормальным, и наоборот;
– точное понятие выброса различно для разных областей применения. Каждый домен приложения, накладывает ряд требований и ограничений, что приводит к определенной постановке задачи для обнаружения выбросов;
– наличие меченых данных для подготовки (проверки) часто является основной проблемой при разработке техники обнаружения выбросов;
– часто данные содержат шум, который похож на фактические выбросы и, следовательно их, трудно отличить и удалить. При наличии перечисленных проблем в задачи, обобщенная постановка задачи обнаружения выбросов не так уж просто решается. На самом деле, большинство существующих методов обнаружения выбросов просто стараются упростить задачу. Как упоминалось ранее, методы обнаружения выбросов могут быть классифицированы по нескольким направлениям. Наиболее обширные усилия в этом направлении были сделаны Ходжем и Остином в 2004 году. Они сосредоточили свои исследования только на обнаружениях выбросов в машинных кодах обучения и статистических данных. Большинство других исследований в данной области были сосредоточены на исследовании выбросов в данных из любых предметных областей. Обзор отдельных методов обнаружения выбросов, используемые для обнаружения вторжений в компьютерные сети, был представлен Лазаревичем в 2003 году. Методы обнаружения выбросов, различные спецификации для системы обнаружения вторжений в передаваемый сигнал были рассмотрены Форрестом, а затем Снайдером и Нино. Значительное количество исследований по обнаружению выбросов было сделано в области статистики и было выпущено некольких кни.

Терминология
Обнаружения выбросов и связанные с ними понятия были переданы в качестве различных субъектов в различных областях. Ради лучшей понятности, мы будем следовать единой терминологии в данном обзоре. Проблема обнаружения выбросов относится к задаче нахождения аномальных моделей в приведенных данных в соответствии с конкретным определением аномальном поведении. Выброс будет ссылаться на эти аномальные закономерности в данных.
Техника обнаружения выбросов является конкретным решение проблемы обнаружения выбросов. Нормальная модель относится к шаблону в данных, которая не является выбросом. Некоторые из методов обнаружения выбросов основаны на, так называемой, оценки счет выброса.
Сейчас перейдем рассмотрению различных аспектов обнаружения выбросов. Как упоминалось ранее, конкретная постановка задачи определяется несколькими факторами, такими как входные данные, наличие (или отсутствие) других ресурсов, а также ограничения и требования индуцированных доменов приложения. Это дает толчек рождению богатства в выборе предметных областей и мотивирует в разработке многих различных методов для обнаружения выбросов.
Ключевым компонентом в любой технике обнаружения выбросов является ввод данных, в которой он должен обнаружить отклонения. Ввод в целом рассматривается, как сбор данных , который в дальнейшем будет обрабатываться. Каждый экземпляр данных может быть описан с помощью набора атрибутов (также называют переменной, характеристикой, функцией или измерением). Данные случаи могут быть разных типов, таких как двоичный, категориальных или непрерывных. Каждый экземпляр данных может состоять только из одного атрибута (одномерные) или несколько атрибутов (многомерные). В случае многомерных данные, все атрибуты могут быть одного типа или могут представлять собой смесь различных типов данных.
Одно важное замечание в том, что функции, используемые любым методом обнаружения выбросов не обязательно ссылаться на наблюдаемые характеристики в данном наборе данных. Несколько методов предварительной обработки могут использовать схемы и выделение. Одна из основных задач для любой техники обнаружения выбросов является выявление оптимального набора функций, которые могут позволить алгоритму найти наилучшие результаты с точки зрения точности, а также вычислительную эффективность.
Исходные данные могут быть классифицированы на основе структуры настоящего времени среди данных экземпляров. Большинство существующих алгоритмов обнаружения выбросов работает с данными, в которых нет структуры, поэтому предполагается в данных случаях использовать более глубокий анализ данных. Речь идет о таких данных, как точки данных. Типичный алгоритм решения таких наборов данных можно найти в сети доменов обнаружения вторжений или в медицинской документации обнаружения выбросов. Данные также могут иметь пространственную, последовательную или оба типа структур. Для последовательных данных, данные экземпляры имеют определенный заказ, что говорит о том, что для каждого экземпляра происходит последовательный анализ во всем наборе данных.
Временные ряды данных являются самыми популярными примерами для этих случаев, он был широко проанализирован в отношении обнаружения выбросов в статистике. В последнее время в биологической области данных, таких как геномные последовательности и белковые последовательности были изучены для обнаружения выбросов. Для пространственных данных, данные экземпляры имеют четко определенную пространственную структуру, что расположение данных экземпляра по отношению к другим является значительным и, как правило, четко определенным. Пространственные данные популярны в области анализа трафика, в экологических исследования и переписке. Не новость, что данные случаи также могут иметь временные (последовательные) компоненты, которые порождают другую категорию пространственно-временных данных, которые широко распространены в климатических данных анализа. Далее в этом разделе мы рассмотрим ситуации, когда структура данных становится актуальным для обнаружения выбросов.
Третья категория технологий – не делать никаких предположений о наличии меченых обучающих данных. Таким образом, эти методы являются наиболее широко применимыми.
Важным при обнаружении выбросов является определение желаемого выброса, который необходимо обнаружить технику. Выбросы могут быть разделены на три категории, исходя из его состава и его связью с остальной частью данных.
Тип I. Это самый простой тип выбросов, который находится в центре внимания большинства существующих схем обнаружения выбросов. Экземпляр данных стоит особняком из-за его значения атрибутов, которые не согласовываются со значениями принятыми нормальными экземплярами. Методы, которые обнаруживают выбросы по первому типу позволяет проанализировать отношение в отдельном. Подобный пример такого рода можно найти в медицинской документации данных [Laurikkala соавт. 2000], где каждая запись данных соответствует пациентам.
Тип II. Эти выбросы возникают в связи с возникновением отдельных экземпляров данных в определенном контексте, в приведенных данных. Как и в типе I выбросы, эти выбросы являются также отдельными экземплярами данных. Разница в том, что выбросы по второму типу не могут быть выбросами в другом контексте. Выбросы данного типа должны удовлетворять двум свойствам:
1. Исходные данные имеют пространственный (последовательный) характер: каждый экземпляр данных определяется с помощью двух наборов атрибутов, а именно – контекстуальные и поведенческие признаки. Контекстные атрибуты определяют положение инстанции и используются для определения контекста (или район) для этого экземпляра.
2. Отдаленное поведение определяется с использованием значений поведенческого контекста.
Тип III. Эти выбросы происходят из-за подмножества данных в позиции и являются отдаленными по отношению ко всему набору данных. Отдельные экземпляры данных по третьему типу не выбросы сами по себе, и имеем полное право считать их поведение аномальным. Выбросы по типу три имеют смысл только тогда, когда данные имеют пространственный или последовательный характер. Эти выбросы либо аномальные подграфы, либо последовательности, происходящие в данных.