Автор: Кацюк Е. Ю., Фомина Ю. В.
Источник: Актуальные проблемы авиации и космонавтики. – 2014. – № 1. – С. 242-243,
https://cyberleninka.ru/article/...
Кацюк Е. Ю., Фомина Ю. В. Извлечение информации из социальных сетей. Обсуждается возможность создания универсального интеллектуального агента для извлечения знаний из глобальной семантической сети. Рассматриваются проблемы практической реализации интеллектуального агента, в частности комбинаторная сложность. Предлагаются способы сокращения размерности задачи поиска.
Мы живем в 3D-мире, наши глаза привыкли видеть глубину, перспективы и Виртуальные сообщества становятся все более многочисленными. На сегодняшний день в России их перечень весьма обширен: LinkedIn, MyLove, RuTube, ВКонтакте, Мир тесен, Habrahabr, Blogger.com, Facebook, Rambler Планета, Webby, Блоги@mail.ru, LovePlanet, Маршруты.ру, Мой мир, Соратники, Diary.ru, Mon Amur, RuSpace.ru, YouTube, В кругу друзей, LiveJournal, Микроблоги на QIP.ru, Одноклассники, Страна друзей, Фотострана, и этот перечень постоянно расширяется. Понимание структуры виртуальной сообщества, его функциональных возможностей и динамики развития могут стать прекрасным маркетинговым инструментом и показать как взаимодействовать с сообществами. Цель данной работы показать инструменты и методы извлечения информации из страниц социальных сообществ и социальных сетей.
Сайты социальных сетей (SNS) является одним из видов виртуального сообщества с определенным трендом. Они основаны на разных технологических условиях, разных интересах, разных культурах и собственных практиках. Разнообразие обеспечивается технологической поддержкой и позволяет использовать различные коммуникационные инструменты, такие как: блоги, видео, обмен фотографиями и сложным мультимеийным контентом. Эти возможности уже привлекли миллионы пользователей по всему миру. Получение информации, обмен знаниями и рост стоимости добавленной информации является одной из важных причин, которая привлекает пользователей в интернет-сообщество. В начале 2000-х годов резко возрос интерес к сетевым сервисам, как к банку информации, которую можно было анализировать и использовать в исследованиях: диффузии инноваций; скрытых сетей, в частности криминальных [4]; экономической социологии; цитируемости научной литературы (какие работы цитируются чаще других, и с чем это связано), и во многих других областях. Анализ социальных сетей стал применяться и/или использоваться в журналистике, маркетинге, связей с общественностью, теории коммуникации и т. д.
Одной из интересных задач, касающихся одновременно и социальных сетей, и современных сетевых социальных сервисов, является задача изучения реально существующего сообщества (сообщества физически существующих людей, как-либо связанных) или организации через представление таковых в социальном сервисе. Такие исследования позволяют прогнозировать как взаимодействие государственных структур с населением (например МЧС [1]), так и поведение потребителей [3]. Применяя такой подход можно собрать достаточно информации о реальной организации и сделать верные выводы о наиболее эффективных каналах коммуникации. Чаще всего, в силу особенностей российской действительности, используются традиционные социологические, психологические и социально-антропологические методы, частично адаптированные для специфических задач исследования процессов в Интернете и автоматизированные методы и инструменты анализа социальных сете
Профиль представляет собой список идентификационной информации. Он может включать в себя реальные или воображаемые данные, которые предоставлены автором. Сбор данных включает оценку: защиты данных в SNS, доверия к членам SNS, доверия к SNS, плотность деятельности в SNS, мотивация для участия в SNS и получение результатов: обмен знаниями и разработка новых отношений. Эти результаты становятся основой для выбора сообществ, в которых размещаются анкеты, проводятся опросы, исследуются отношения производительности, модели коммуникации в рамках SNS, проблемы конфиденциальности, мотивации и барьеры, которые определяют участие в виртуальном сообществе. Как показывают исследования, чаще всего пользователи не торопятся отвечать на вопросы и делиться знаниями, опасаясь критики или страха ввести в заблуждение членов сообщества, потому что они не уверены, что информация важна или актуальна. Чтобы снять эти барьеры, требуется определенное «доверие» между членами сообщества и исследователем. «Доверие» является определяющим фактором для обмена информацией, успешного взаимодействия в рамках электронной коммерции и онлайнмаркетинга. Поэтому вести исследование такими методами, получать качественную информацию для анализа возможно путем включенного наблюдения за жизнью виртуальных сообществ[2]. Но эти данные применяются для изучения неписаных ритуалов, правил, общих разделяемых представлений, ценностей и особенностей построения коммуникации отдельных виртуальных сообществ. Для маркетинговых исследований требуются уже специализированные программы. К наиболее известным средствам автоматического анализа социальных взаимодействий относятся: NetMiner, NetworkX, SNAP, UCINet, Pajek, ORA и др. Но чаще, при широкомасштабных исследованиях сбор данных, связей между пользователями в социальных сервисах, производится с использованием программ-«пауков» (англ. spider, crawler). Программа просматривает страницы в Интернете (в том числе это могут быть страницы пользователей сервиса) согласно заранее определенному списку, считывает ссылки на другие страницы (профили других пользователей сервиса) и повторяет этот процесс рекурсивно, следуя установленным правилам обхода, чтобы не «заблудиться» во всемирной паутине и избежать зацикливания (ru.wikipedia.org/wiki/Яндекс.Поиск).