Назад в библиотеку

ИСПОЛЬЗОВАНИЕ ВЕЙВЛЕТ-АНАЛИЗА ДЛЯ МОДЕЛИРОВАНИЯ РАСПРОСТРАНЕНИЯ ИНФОРМАЦИИ В СОЦИАЛЬНЫХ СЕТЯХ

Авторы: Анохина И.Ю., Рощина Е.В.
Источник: Сборник X Международной научно технической конференции «Информатика, управляющие системы, математическое и компьютерное моделирование» (ИУСМКМ – 2019) – Донецк, ДонНТУ 2019, с. 30 – 35.

Аннотация

Анохина И.Ю., Рощина Е.В. Использование вейвлет-анализа для моделирования распространения информации в социальных сетях. Обоснована актуальность исследования социальных сетей. Рассмотрены различные модели, описывающие процесс распространения информации в сети. Показана целесообразность предварительного применения вейвлет-преобразований для работы с временными рядами.

Введение

Согласно отчету Digital in 2019, составленному аналитиками агентства We Are Social, Всемирная сеть насчитывает 4,39 миллиарда пользователей, что на 366 миллионов больше, чем в 2018 году. В среднем пользователи проводят в Интернете 6 часов 42 минуты в день, а 45% населения мира в настоящее время являются пользователями социальных сетей (более 3,5 миллиардов человек) [1].

По данным исследований, проведенных Mail.ru Group к 25-летию Рунета (апрель 2019г.), 81% россиян используют Интернет ежедневно и многократно в течение дня, 64% опрошенных используют интернет в основном для общения в социальных сетях [2]. Для сравнения, в 2000г. на вопрос о пользовании Интернетом положительно ответили только 3.6% респондентов.

Исследования, проведенные специалистами Левада-Центр, показали, что 65% россиян, пользующихся соцсетями, предпочитают ВКонтакте, 63% – Одноклассники, 23% – Instagram [3].

Благодаря огромной аудитории пользователей социальные сети стали инструментом влияния. Анализ социальных сетей используется бизнес-аналитиками для оценки предпочтений клиентов, в политической сфере для продвижения идей. Оценивая групповые предпочтения, можно выявить тренды интересов и приоритетов для решения стратегических задач.

Основным инструментом массового донесения и распространения информации на сегодняшний день является сеть Интернет, в которой для этого используются социальные сети, сообщества, форумы, средства массовой информации, персональные блоги. Через них происходит формирование личного и общественного мнения.

Вся информация хранится в сети в открытом доступе, пользователи делятся мнениями в текстовом виде и через рейтинговые системы (отметки нравится, поделиться). Процесс распространения информации происходит по двум направлениям: распространение через СМИ и через группы в социальных сетях.

Постановка проблемы

Распространение информации – процесс, посредством которого некоторый информационный объект распространяется по коммуникационным каналам во времени и в пространстве среди узлов сети [4].

Существует несколько различных подходов к моделированию процесса распространения информации.

Как правило, процесс распространения информации предполагает три этапа: формирование базы распространения (медленный рост), резкий рост и третий этап – насыщение и спад интереса к информации.

Новая информация поступает в социальную сеть через агентов изменений (gatekeepers), а затем постепенно воспринимается другими агентами, которые передают информацию дальше. На рис.1 показано, как происходит распространение информации. Внешнее воздействие, допустим, информация, поступившая из СМИ, приводит к активации узлов сети. Как отдельная группа, так и индивидуум, получают информацию и передают ее по сети, при этом образуется путь.

Рис. 1. Схема распространения информации в сети

Одним из методов моделирования процесса распространения информации является моделирование, базирующееся на аналогиях с физикой и медициной и получившее название модели просачивания и заражения или эпидемии [5, 6]. Скорости распространения информации высоки по аналогии с обычной эпидемией, при условии, что информация вызвала всеобщий интерес. Распространение начинается с небольшого числа групп и постепенно переходит на все большее их число, достигает пика, далее следует спад.

24 апреля 2019г. был подписан указ Об определении в гуманитарных целях категорий лиц, имеющих право обратиться с заявлениями о приёме в гражданство Российской Федерации в упрощённом порядке. Информация соответствовала требованиям актуальности, важности, вызвала интерес не только на территориях ДНР и ЛНР, России, но и во многих странах мира [7].

Была поставлена задача смоделировать процесс распространения информации в социальных сетях, оценить временные характеристики, определить интенсивность распространения информации.

Исследования

Исследования. При описании процессов распространения информации в сети используются несколько моделей:

p*m > R,

где m – количество групп, опубликовавших новость, p – вероятность принятия новости, R – пороговое значение.

Для разработки модели были собраны статистические данные за первые три дня после первой публикации информации об указе в СМИ. За это время новость была отображена на страницах 1298 групп ВКонтакте. Ее просмотрели около 140 тысяч пользователей Контакта. В табл.1 показано распределение активности пользователей за три дня. Учтено количество просмотров, лайки, репосты и число групп, опубликовавших новость.

Таблица 1 – Активность пользователей

День Просмотры Лайки Репосты Число групп
3 19.5% 15% 36% 43%
2 44.3% 49% 44% 34%
1 36.2% 36% 21% 23%

На рис.2 показано, как изменялась область распространения информации в течении трех суток, за 100% принят суммарный охват пользователей за эти три дня.

Рис. 2. Область распространения информации

Для анализа временных процессов распространения информации были использованы методы временного прогнозирования и модуль Time Series and Forecasting пакета Statistica. Однако, сначала данные были обработаны с помощью вейвлет-преобразований.

Вейвлет-анализ является одной из самых перспективных технологий анализа данных и находит применение в различных сферах интеллектуальной деятельности.

Термин вейвлет (wavelet) в переводе с английского означает маленькая (короткая) волна. Вейвлеты – название семейств математических функций определенной формы, которые локальны во времени и по частоте, таким образом, при анализе мы рассматриваем временной ряд в терминах колебаний с характеристиками: время, частота, амплитуда [8].

Любая статистическая информация содержит не только полезную информацию, но и следы посторонних воздействий, помехи, шум. В таком случае аддитивную модель можно записать в виде:

s(t)=f(t)+σe(t), (1)

где f(t)– информация, очищенная от шума, s(t) – статистические данные, σ – уровень шума, e(t) – шум.

Удаление шума при помощи вейвлет-преобразования выполнялось в четыре этапа:

  1. разложение сигнала по базису вейвлетов;
  2. выбор порогового значения шума;
  3. пороговая фильтрация;
  4. реконструкция сигнала, т.е. получение информации, очищенной от шума.
θ=(2*log(N))1/2 , где N – количество данных в выборке.

Пороговая фильтрация проводилась в соответствии с формулами:

На рис.3. даны результаты применения вейвлет-преобразований. По оси Х отложены точки временного интервала, по У – количество групп ВКонтакте, опубликовавших новость и присоединившихся к обсуждению. Пунктирной линией отображен исходный сигнал, т.е. статистические данные, красным цветом информация, очищенная от шума.

Рис. 3. Вейвлет-преобразования временного ряда

Аналогичные преобразования были применены к статистическим данным числа просмотров и репостов информации. Полученные данные обработаны в пакете Statistica с целью прогнозирования длительности интереса к информации, см. рис.4. Синим цветом на рисунке отмечена кривая изменения количества просмотров, красным – интерполирующий полином, пунктирной линией – прогнозируемое количество просмотров в последующие часы. Как видно, интерес к новости будет сохраняться, однако ее уровень существенно снизится. Локальные минимумы соответствуют ночному времени. Максимальное число просмотров приходится на второй день, в последующие дни интерес начинает ослабевать. Однако количество групп, перепостивших новость, увеличивается, т.к. постепенно подключаются группы, не специализирующиеся на новостях.

Отметим, что это не противоречит имеющимся данным: актуальность практически любой темы в сети без дополнительных новых сообщений не превышает 11 дней, а информация считается актуальной не более пяти дней.

Рис. 4. Вейвлет- преобразования временного ряда

Выводы

Рассмотрены различные модели распространения информации в социальных сетях. Описано применение вейвлет-преобразований при моделировании временных рядов. Разработан метод прогнозирования распространения информационных сообщений в сетях и оценены возможные временные интервалы актуальности информации для пользователей социальных сетей.

Литература

1. Digital around the World in 2019. Digital in 2019 Режим доступа: https://wearesocial.com/global-digital-report-2019.
2. Исследование Mail.ru Group к 25-летию Рунета. Mail.ru Group. Режим доступа: https://corp.mail.ru/ru/press/infograph/10391/.
3. Социальные сети (рынок России). TADVISER. Государство. Бизнес. ИТ. Режим доступа: http://www.tadviser.ru/index.php/.
4. Горковенко Д. К. Обзор моделей распространения информации в социальных сетях // Молодой ученый. – 2017. – №8. – С. 23-28. Режим доступа: https://moluch.ru/archive/142/39946/.
5. Губанов Д.А., Новиков Д.А., Чхартишвили А.Г. Социальные сети: модели информационного влияния, управления и противоборства. 3-е изд., перераб. и дополн. М.: МЦНМО, 2018. – 224 с.
6. Губанов Д.А., Новиков Д.А., Чхартишвили А.Г. Модели влияния в социальных сетях // Управление большими системами. 2009. № 27. С. 205-281.
7. Указ Об определении в гуманитарных целях категорий лиц, имеющих право обратиться с заявлениями о приёме в гражданство Российской Федерации в упрощённом порядке. Режим доступа: Сайт Президента России.
8. Добеши И. Десять лекций по вейвлетам. Перевод с англ. Е. Мищенко под редакцией А. Петухова. М.: НИЦ, Регулярная и хаотическая динамика, 2004. – 464 с.