Назад в библиотеку

Кластеризация сообществ социальной сети ВКонтакте

Авторы: Анохина И.Ю., Рощина Е.В.
Источник: Журнал ИНФОРМАТИКА И КИБЕРНЕТИКА Выпуск 2018-2(12), с. 34-42.

Аннотация

Анохина И.Ю., Рощина Е.В. Кластеризация сообществ социальной сети ВКонтакте. Рассматриваются вопросы анализа социальных сетей. На примере тридцати восьми групп различных тематик были определены статистические показатели для оценки количественных характеристик групп. Методами кластерного анализа проведено разбиение групп на кластеры.

Введение

В настоящее время социальные сети можно рассматривать как полноценные средства массовой информации. За сравнительно небольшой срок они прошли этапы развития от простых коммуникативных ресурсов до многофункциональных систем. Теперь это не просто средство общения и связи, а полноценная медиакультура, в рамках которой обсуждаются новости, происходят продажи и покупки, рекламируются товары и формируется общественное мнение, это трибуны для политических партий и средство организации, координации сообщества; это площадки для раскручивания кампании и брендов…

Именно социальные сети активно используются организаторами митингов. Так, на митинг За честные выборы (24.12.2011г., Москва) в специально созданной группе согласились пойти более 54 тыс. человек и еще около 100 тыс. получили приглашения [1].

Благодаря появлению социальных сетей стали публичными персональные данные участников сообществ, их биографии, аудио-, видео-, фотоматериалы, что сделало социальные сети отличным инструментом для получения информации как об отдельном индивидууме, так и группах лиц, объединенных общими интересами. Полученная информация используется для моделирования социальных, экономических политических и других процессов [2].

Как показали исследования, наиболее популярной социальной сетью в России является Вконтакте. Число пишущих авторов на лето 2017г. составило 27.5 млн. человек [3], основная возрастная группа – авторы в возрасте 25-34лет (37%), авторы женского пола составляют 58% . Наиболее популярной сеть является в Петербурге (44.9% от общего населения), на втором месте – Мурманская область (30%), Москва – 28%.

Постановка задачи

Для анализа выбрана социальная сеть ВКонтакте. Сообщества Вконтакте можно разделить на несколько видов: интернет-СМИ; сообщества по интересам; фан-клубы; представительства фирм, организаций и предприятий; сайты знакомств; профессиональные сообщества и.т.

Мы рассматривали три типа сообществ:

  1. Полностью нейтральные к политике группы по интересам (рыбалка, кулинарные рецепты, книголюбы, путешественники и пр.), здесь и далее определены нами как группы по интересам; при кластеризации отмечались как группы с показателем gr = -1.
  2. Новостные сообщества и сообщества, созданные для обсуждения политических новостей, сообщества партий, в целом дающие новости в позитивном плане, здесь и далее политические группы, показатель gr = 0.
  3. Аналогично сообществам второго вида, но с ярко выраженной критической нотой, критики, gr = +1.

Поставлена задача, произвести статистический анализ участников сообществ с целью проведения кластеризации и выявления возможных тенденций присоединения участников одного из видов сообществ к другому.

Исследования

Для решения задачи нами рассматривались 38 сообществ. По каждому сообществу анализировались следующие данные:

В таблице обозначены столбцы с номерами: 2 – название группы, 3 – возраст до 25 лет, 4 – возраст от 25 до 35 лет, 5 – от 35 до 45; 6 – от 45 до 55; 7 – старше 55; 8 и 9 – количество женщин и мужчин в группе соответственно; указавших в качестве религиозных взглядов православие (10) или светский гуманизм (11). Сообщество ВКонтакте предлагает участникам определить главное в жизни, выбирая из нескольких вариантов. В таблице эти варианты указаны в столбцах : 12 – совершенствование мира, 13 – семья и дети, 14 – карьера и деньги, 15 – развлечения и отдых, 16 – наука и исследования, 17 – саморазвитие, 18 – красота и искусство, 19 – слава и влияние.

Нами на основании данных столбцов 3-7 вычислялся средний возраст (столбец 20). Мы ввели дополнительную характеристику, определив ее как степень открытости участников сообщества, оценив отношение количества заполненных анкет к общему числу участников сообщества ( столбец 21).

Важным показателем реально функционирующего сообщества является процент ботов (столбец 22) и активность подписчиков (23). Эти показатели были определены с помощью on-line сервиса [4].

В табл. 1 приводятся выборочно по одной группе из каждого типа сообществ. Группа Интересная планета насчитывает 3059142, т.е. более трех миллионов подписчиков, не содержит политической и новостной информации. Группа Народный журналист относится к группам-критикам (около 6 тысяч подписчиков). Первый канал – более миллиона подписчиков. В строках таблицы данные указаны в процентах.

Как видно из данных, группы-критики имеют, как правило, незначительную численность. Самая большая по численность из проанализированных нами группа Сводки ополчения Новороссии на момент анализа имела около полумиллиона подписчиков. Как правило, в анализируемых группах – критиках, выше средний возраст, меньшее количество ботов и выше активность, определяемая как количество лайков, комментариев, репостов сообщений.

Таблица 1. Пример исходных данных для анализа сообществ

На рис.1 показаны соотношения женщин и мужчин в группах, а также гистограмма распределения участников групп по интересам по возрастам.

На рис.2. представлены гистограммы, отображающие распределение участников групп по возрастам (рис.2а) и характеристики непосредственно групп (процентное содержание ботов и активность посетителей в сутки), рис. 2б.

Как видно из рис.1, в группах по интересам преобладают женщины, в группах-критиках количество мужчин-участников почти в три раза больше, чем женщин.

Анализируя данные по распределению возрастных категорий, следует отметить, что в группах по интересам преобладают молодые люди в возрасте до 25 лет, в то время, как в политических группах возрастная шкала смещена к 35 годам и старше. В группах–критиках во всех возрастных категориях старше 35 количество участников превышает аналогичные показатели в остальных видах групп.

В группах-критиках минимальное количество ботов и активность подписчиков в сутки(8%) более, чем в два раза превышает активность в остальных видах групп.

Рис. 1. Процентный состав групп

Рис. 2. Количественные характеристики групп, а – распределение по возрастному признаку; б – активность участников групп

Анализируя выборки, состоящие из нескольких групп, мы доказали наличие существенных различий, но в выборках в целом. В то же время нельзя исключать, что отдельные группы, входящие допустим в выборку по интересам, не могут быть по характерным признакам быть отнесены к той или иной политической группе.

Вряд ли можно утверждать, что люди, вступившие в группу, допустим, путешественников, книголюбов никогда не интересовались политикой и не будут интересоваться ею впредь.

Поэтому далее нами был применен кластерный анализ с целью выявления возможных тенденций миграции или добавления участников одной выборки в другую.

При проведении кластерного анализа рассматривалась возможность наличия от трех до шести кластеров, на которые могла быть разбита вся выборка, состоящая из 38 групп. В качестве переменных использовались все переменные, за исключением тех, в которых не были зафиксированы существенные различия между группами.

На первом этапе кластерного анализа определялось оптимальное число кластеров. Для этого использовали метод иерархического кластерного анализа Joining (Tree clustering). В качестве метрики, определяющей расстояние между кластерами Amalgamation Rule, был выбран метод ближнего соседа или одиночная связь (single linkage) [5, 6]. На рис.3. показана часть обработанных кластеров.

Рис. 3. Матрица расстояний между центрами кластеров

Как видно из рис.3, на первом этапе в один кластер объединяются объекты с номерами 6 (группа Путешествия и туризм) и 8 (Интересная планета). Ясно, что люди, склонные к путешествиям, не могут не интересоваться планетой, географией и пр.

В другой кластер попадают группы 31(КПРФ – Коммунистическая партия РФ), 33 (Вежливые люди, создана в 2014г.), 37 – Телеканал Звезда.

Аналогичным образом нами были проанализированы остальные составляющие кластеров.

На основании анализа было принято решение разделить группы на пять кластеров. Для определения, какие именно группы входят в кластеры, был применен метод k-средних (k-means). Суть метода состоит в следующем: исследователь заранее определяет количество классов (k), на которые необходимо разбить имеющиеся наблюдения, и первые k – наблюдений становятся центрами этих классов. Для каждого следующего наблюдения рассчитываются расстояния до центров кластеров и данное наблюдение относится к тому кластеру, расстояние до которого было минимальным. После чего для этого кластера (в котором увеличилось количество наблюдений) рассчитывается новый центр тяжести по всем включенным в кластер наблюдениям.

Показателем правильности разбиения на кластеры является выводимая таблица расчета дисперсий и уровня значимости р (см. табл.3). В таблице приняты обозначения: дисперсия между кластерами Between SS, дисперсия внутри кластеров (Within SS), F-критерий для проверки гипотезы о неравенстве дисперсий F, значение уровня р. Как следует из анализа данных табл.3, можно считать достоверным предложенное разбиение на кластеры.

Таблица 2. Таблица анализа дисперсий

На рис. 4 дана графическая интерпретация полученного деления на кластеры. Как видно из рисунка, наиболее существенное деление в кластерах происходит по возрастному, половому признакам, по степени активности участников групп.

Рис. 3. Средние значения переменных для каждого кластера

Распределение по кластерам произведено следующим образом:

  1. В первый кластер вошли группы, созданные для лиц, увлекающихся путешествиями, географией, здоровьем, домашними животными и домашним хозяйством. Все эти группы были отмечены у нас как группы по интересам. В этот же кластер вошли группа Первый канал, Типичный Донецк и Donbass.media Group. Т.е. первый кластер объединил участников без видимого интереса к политике, что показывает и то, что перечисленные три группы, определенные нами ранее как политические, в полной мере такими не являются.
  2. Во второй кластер вошли группы, которые мы определили как созерцателей. Это группа Киномания, Discovery, Интересная планета, Бумажный самолетик. Во всех группах, как правило, размещаются красивые фотографии, описания интересных мест. Все перечисленные группы входили в группы по интересам.
  3. В третий кластер вошли наиболее остро критикующие группы Сводки ополчения Новороссии, Хроника вставания с колен, Злюкен Енотен, Еноты Новороссии, Очищение, Народный журналист. Ранее все группы были отнесены к группам критиков.
  4. В четвертый кластер вошли группы Оппозиция, КПРФ, ЛДПР, Высокие технологии, Рыбалка, Преступная Россия, Другая Россия, Левый фронт. Отметим, что в этот кластер вошли, как нейтральные группы, так и группы-критики и политические группы.
  5. В пятый кластер вошли группы Единая Россия, Народное ополчение Павла Губарева, Донецкая республика, Комсомольская правда, МИД России, Луганск. Новости ЛНР, Политика, Права человека, группы политические, воспринимающие все в позитивном ракурсе.

Можно сделать вывод, что в целом рассмотренный контингент участников делится на пять кластеров. Кластер сообществ абсолютно индифирентных к политике (кластер 2); кластер лиц имеющих свои увлечения и предпочитающих получать краткие политические новости. Кластер критикующих и два кластера политической направленности, причем в одном из них в группы выкладываются только позитивные новости, в другом возможна незначительная критика.

Общее количество участников во всех группах более 33млн. чел. Как видно из табл.4, почти 90% сообщества не интересуются политическими темами, 1.24% критикуют происходящие события, 9% политикой интересуются, но в целом их устраивает текущее положение дел.

Рис. 5. Инфографика. Распределение групп по кластерам

Полученные данные не противоречат данным других источников [9]. Как правило, политически активными является лишь незначительная (до 10%) часть общества, однако, как показывают исследования, политическая активность населения растет [10].

Литература

1. Е. П. Охапкина, В. П. Охапкин. Подходы к кластеризации групп социальной сети//Компьютерные исследования и моделирование, 2015 № 5. -c. 1127?1139.
2. Тематическая классификация сообществ в социальной сети «ВКонтакте» как нового средства массовой информации. Морозова А.А.: Cборник Сучасная медыясфера: практыка трансфармацыі, тэарэтычнае асэнсаванне, інстытуцыянальныя перспектывы матэрыялы I Міжнароднай навукова-практычнай канферэнцыі. С. В. Дубовік (адказны рэдактар). 2017. С. 160-166.
3. Brand Analytics. Социальные сети в России, лето 2017: цифры и тренды. Режим доступа: http://blog.br-analytics.ru/sotsialnye-seti-v-rossii-leto-2017-tsifry-i-trendy/
4. Анализ сообществ. On-line сервис Smmup.ru. Режим доступа: http://smmup.ru/activity.php
5. Боровиков В.П., Боровиков, И.П. STATISTICA. Статистический анализ и обработка данных в среде Windows. - М.: Филинъ, 1998.- 608с.
6. Боровиков В.П. Популярное введение в современный анализ данных в системе STATISTICA. -М.: Горячая линия, 2016. -288с.
7. Statsoft. Электронный учебник по статистике. Режим доступа: http://statsoft.ru
8. Вайдлих. Социодинамика: системный подход к математическому моделированию в социальных науках.- М.: Едиториал, 2004. -480с.
9. Манипуляция обществом или истинный размер пяти процентов. Режим доступа: https://alex-leshy.livejournal.com/480772.html
10. Е.В. Рощина , И.Ю.Анохина . Жизненный цикл групп в социальных сетях/Информатика, управляющие системы, математическое и компьютерное моделирование в рамках III форума «Инновационные перспективы Донбасса» (ИУСМКМ – 2017): VIII Международная научно-техническая конференция, 25 мая 2017, г. Донецк: / Донец. национал. техн. ун-т; Донецк: ДонНТУ, 2017, с. 73-77.