Назад в библиотеку

Спам-фильтр на основе наивного байесовского классификатора

Авторы: Teng Lv, Ping Yan, Hongwu Yuan, Weimin He

Автор перевода: Лютова Е. И.
Источник: Journal of Physics: Conference Series, ISAI 2020 [Ссылка]

Аннотация: В настоящее время на спам приходится более 70% всех электронных писем, и вред для пользователей увеличивается, например, потеря большого количества пропускной способности сети для передачи и места для хранения, имеет большое количество повторяющихся, мошеннических и вредных для здоровья материалов. Поскольку спам обычно встроен в обычные сообщения электронной почты, их сложно идентифицировать. В этой статье анализируются основные технологии выявления и блокировки спама, такие как технология фильтрации информации или контента, технология черного и белого списков, технология анализа намерений и поведения. В статье представлена модель определения того, является ли электронное письмо спамом или нет, на основе наивного байесовского классификатора. Результат теста показывает, что модель работоспособна.

1. Введение

Спам, как правило, относится к нежелательной электронной почте и электронной почте, которую получатель не может отклонить, например, письмо с адреса электронной почты, внесенного в черный список адресата, строка темы или содержимое содержит неправильную, вводящую в заблуждение или ложную информацию, а также использовать, ретранслировать или отправлять почту через Интернет-устройство третьей стороны без согласия [1] и т. д. Спам в настоящее время составляет более 70% всех электронных сообщений [2]. Исследование спама привлекает внимание исследовательского сообщества в течение последних нескольких десятилетий [3]. Отправители спама используют спам и другие связанные технологии для встраивания спама в обычные сообщения электронной почты, поэтому формы спама разнообразны, а вред для пользователей увеличивается [4].

В настоящее время технологии защиты от спама включают распознавание изображений, анализ намерений, распознавание функций отправителя, методы на основе ИИ и другие связанные технологии. Подробности таковы: (1) Технология фильтрации информации, также известная как технология фильтрации контента, - это технология, используемая для блокировки и запрета доступа к раздражающей информации в электронных письмах. В источнике [5] был использован наивный байесовский классификатор для создания фильтра характеристик контента. В источнике [6] был предложен метод борьбы со спамом с изображениями, который использует информацию о размере файла изображений, чтобы различать спам с изображениями и обычные электронные письма.

(2) Технология черного и белого списков. Рабочий процесс системы фильтрации спама с черным списком и белым списком заключается в том, что весь поток трафика из белого списка автоматически пропускается, а поток трафика из черного списка автоматически блокируется [7].

(3) Технология анализа намерений или поведения. Мы можем отслеживать и анализировать данные в электронных письмах, чтобы установить набор намерений или характеристик поведения спама, сравнивая их с обычными электронными письмами, чтобы определить, к какой категории относится полученное электронное письмо [8,9].

Организации работы. Следующее организовано следующим образом. Раздел 2 знакомит с основными концепциями, используемыми в статье, такими как теорема Байеса и наивный байесовский классификатор. В разделе 3 представлена модель фильтра, основанная на наивном байесовском классификаторе. Раздел 4 завершает работу и указывает будущие направления работы.

2. Условная вероятность и теорема Байеса.

Предположим, что (Ω,F,P)- вероятностное пространство, где Ω- пространство выборки эксперимента F, а событие B∈ F. Если P (B)> 0, то для любого события ∀A∈F имеем следующую формулу условной вероятности:

Формула 1

где P (A | B) - это условная вероятность A после появления B, P (B | A) - это условная вероятность B после появления A, P (A) - априорная вероятность A, а P (B) - априорная вероятность B. Теорема Байеса - это своего рода обратная операция условной вероятности. Мы можем сделать вывод о вероятности новых событий в соответствии с существующей вероятностью. В общем, вероятность события E при событии F отличается от вероятности события F при событии E. Однако между ними существует связь, и используется теорема Байеса, чтобы показать эту связь следующим образом:

Формула 2

где Bi ∩ Bj = Ф ( i ≠ j,i, j=1,2, ∧ ,n ) и B1 ∪ B2 ∪ ∧ ∪ Bn = Ω P(B | A) - это условная вероятность Bi после появления A, также известная как апостериорная вероятность из-за значения, полученного из A, (|) PA Bi - это условная вероятность A после появления Bi, также известная как апостериорная вероятность A из-за значения, полученного из Bi, () P Bi - это априорная вероятность B, потому что она не принимает во внимание какой-либо аспект A, а P (A) - априорная вероятность A, потому что он не принимает во внимание какой-либо аспект B. Фактически, P (A) можно рассчитать по формуле общей вероятности следующим образом:

Формула 3

3. Модель фильтрации спама, основанная на наивном байесовском классификаторе.

Классификатор - это своего рода программное или аппаратное устройство, которое присваивает имя категории каждому режиму классификации. Байесовский классификатор - это классификатор, разработанный в соответствии с теоремой Байеса, и это самый основной метод статистической классификации [10]. Наивный байесовский классификатор [11] - метод классификации, основанный на теореме Байеса и независимой гипотезе характеристических условий.

Наивный байесовский алгоритм классификации широко используется при фильтрации спама. Формальный процесс наивного байесовского классификатора следующий:

  1. Предположим, что электронное письмо может быть представлено как вектор d ={w1 ,w2 ,...,wn}, и каждое электронное письмо может быть классифицировано в соответствии с пространством классов c = {c1, c2} где w1, w2,...,wn} - атрибуты функции d и c1, c2 - категории класса c указывает, является ли электронное письмо спамом или нет.
  2. Вычислить вероятность того, что вектор d принадлежит каждой категории cj (j = 1,2) j по теореме Байеса.

    Формула 4

    где P(d|cj) = P(w1, w2,...,wn|cj)= ∏ni=1P(wi|cj) в качестве наивной байесовской гипотезы предполагают, что вхождения всех атрибутов текста независимы друг от друга, и P(d) = P(d|c1)P(c1)+P(d|c2)P(c2) по формуле полной вероятности.
  3. Пусть d ∈ ck, если P(ck|d) = max{P(c1|d),P(c2|d)}

Линг-спам используется для проверки предложенного в статье алгоритма наивной байесовской классификации. Ling-spam имеет два набора данных: тестовый набор с 260 сообщениями электронной почты и обучающий набор с 702 сообщениями электронной почты, в которых спам и не спам составляют 50% соответственно. Имя файла электронной почты, включающее строку «spmsg», указывает на то, что это письмо является спамом. Мы используем вероятность спама 0,5 в качестве порога, чтобы определить, является ли электронное письмо спамом.

Таблица 1 представляет собой результат тестирования модели, где диагональные элементы представляют количество правильной классификации, а недиагональные элементы представляют неправильную классификацию. Из таблицы 1 видно, что модель имеет хороший классификационный эффект. В идеальной среде наивная байесовская модель имеет минимальную вероятность ошибки по сравнению с другими классификационными моделями, и эффект классификации наивного байесовского классификатора будет хорошим, когда корреляция между атрибутами независима, поэтому в реальности она часто используется для фильтрации спама.

Таблица 1

4. Выводы

В этой статье проанализированы основные технологии выявления и блокировки спама и представлена модель определения того, является ли электронное письмо спамом или нет, на основе наивного байесовского классификатора. Результаты эксперимента показывают, что модель эффективна в датасете Ling-спама. По сравнению с другими методами классификации, наивная байесовская модель имеет минимальную частоту ошибок в теории, но непрактично, чтобы атрибуты, принятые наивной байесовской моделью, были независимы друг от друга в реальной ситуации, что оказывает определенное влияние на правильную классификацию наивной Байесовской модели. Другая проблема заключается в том, что априорная вероятность исходит из предположения, поэтому результат предсказания может отличаться в разных предположениях априорной вероятности.

Источники

  1. Tencent mail service. 2019 What is SPAM mail.[Ссылка]
  2. SENSATA. 2019 Email Security.[Ссылка]
  3. Cranor L. F. and LaMacchia B. A. 1998 Spam. Communications of ACM, 41(8): 74-83.
  4. Bernik J. 2007 The harm behind spam. Bank Technology News(September).
  5. Yu Y. and Chen Y. 2012 A novel content based and social network aided online spam short message filter. Intelligent Control & Automation. IEEE.
  6. Uemura M. and Tabata T. 2008 Design and Evaluation of a Bayesian-filter-based Image Spam Filtering Method. International Conference on Information Security & Assurance. IEEE Computer Society.
  7. Cai Y., Qutub S. S, and Sharma A. 2006 Spam white list.[Ссылка]
  8. Mao C. H., Lee H. M., and Yeh C. F. 2011 Adaptive e-mails intention finding system based on words social networks. Journal of Network and Computer Applications, 34(5), 1615-1622.
  9. Yang Y. U. and Yu. C. 2013 Analysis and application of social behavior in offline spam message filter. Journal of Chinese Computer Systems, 34(8), 1877-1881.
  10. Stanlee N. and Patil. A. 2018 Mitigating Spam Emails Menace Using Hybrid Spam Filtering Approach. International Conference on Emerging Research in Computing, Information, Communication and Applications. Springer, Singapore.
  11. Az-Zahra H. M. 2017 Spam detection framework for Android Twitter application using Naïve Bayes and K-Nearest Neighbor classifiers. International Conference on Software & Computer Applications. ACM, USA.