Web Mining

Перевод с английского: Криницкая А.И.


Источник:
http://www.galeas.de/webmining.html


Введение

Со взрывным ростом источников информации, доступных во всемирной паутине, стало все более необходимо для пользователей использовать автоматизированные инструменты для поиска требуемой информационных ресурсов, а также отслеживать и анализировать их структуру использования. Эти факторы приводят к необходимости создания на стороне сервера и клиента интеллектуальных систем, которые могут эффективно добывать знания. Web mining в целом можно определить как открытие и анализ полезной информации из всемирной паутины. Это описывает автоматический поиск информационных ресурсов, доступных онлайн, т.е извлечение веб-контента (Web Content Mining), и обнаружение моделей доступа пользователей с веб-серверов, то есть, анализ использования веб-ресурсов (Web Usage Mining).

Что такое Web Mining?

Web Mining – добыча интересных и потенциально полезных моделей и неявной информации из артефактов (предмет материальной культуры) или деятельности, связанной с всемирной паутиной. Есть примерно три области обнаружения знаний, которые принадлежат Web Mining: Извлечение веб-контента – Web Content Mining, Извлечение веб-структур – Web Structure Mining, и Анализ использования веб-ресурсов – Web Usage Mining. Извлечение веб-контента это процесс процесс добычи знаний из содержания документов или их описания. Глубокий анализ текста в веб-документах, поиск ресурсов на основе концепции индексирования, или агентные технологии также могут попадать в эту категорию. Извлечение веб-структур – это процесс выделения знаний из структуры всемирной паутины и связями между ссылками и референтами в сети. Наконец, анализ использования веб-ресурсов, так же известный как обработка веб-лога (Web Log Mining), это процесс извлечения интересных закономерностей из логов веб-серверов.

Извлечение веб-контента

Извлечение веб-контента автоматический процесс, который выходит за рамки извлечения ключевых слов. Так как контент текстового документа для машинного чтения представляется не семантическим, некоторые подходы предложили реструктурировать контент документа в представлении, которое могло быть использовано машинами. Обычный подход к эксплуатации известных структуры в документах является построение схемы документов по некоторым данным модели. Методы использования словарей для интерпретации содержания еще впереди.

Есть две группы стратегий извлечения веб-контента т.е, которые непосредственно извлекают содержание документов, и те, которые улучшают поиск контента других инструментов, таких как поисковые системы.

Извлечение веб-структур – Web Structure Mining

В Всемирной паутине можно расрыть больше информации чем только информация, содержавшаяся в документах. Например, ссылки, указывающие на документ, указывают на популярность документа, в то время как ссылки, выходящие из документа, указывают на богатство или возможно разнообразие тем, затронутых в документе. Это можно сравнить с библиографическими цитатами. Когда статья цитируется часто, это должно быть важно. PageRank (пэйдж-ранк — один из алгоритмов ссылочного ранжирования) и умные методы используют в своих интересах информацию, переданную ссылками, чтобы найти подходящие веб-страницы. Посредством счетчиков более высокие уровни накапливают количество артефактов отнесенных к какой-либо категории по принципу их содержания. Счетчики гиперссылок, входящих и исходящих из документов, восстанавливают структуру веб-ресурсов полученных в итоге.

Анализ использования веб-ресурсов – Web Usage Mining

Веб-серверы записывают и накапливают данные о взаимодействии с пользователем всякий раз, когда получены запросы на ресурсы. Анализ журналов веб-доступа различных веб-сайтов может помочь понять пользовательское поведение и веб-структуру, таким образом улучшая проект этого колоссального набора ресурсов. Есть две основных тенденции в анализе использования веб-ресурсов обусловленных применением обнаруженного: Общая Схема Отслеживания Доступа (General Access Pattern Tracking) и Специализированное Отслеживание посещений (Customized Usage Tracking).

Общая Схема Отслеживания Доступа анализирует веб-журналы чтобы определить форму доступа и тенденции. Эти исследования могут пролить свет на лучшую структуру и классификацию провайдеров ресурсов. Существует множество веб-инструментов анализа, но они, как правило, не удовлетворительны и ограничены. Мы разработали инструмент обработки веб-лога (web log data mining tool) WebLogMiner, и предложили методы для того, чтобы использовать анализ данных и Оперативную аналитическую обработку (OLAP) на обработанных и преобразованных файлах веб-доступа. Применение методик интеллектуального анализа данных для журналов доступа представляет интересные схемы доступа, которые могут использоваться, чтобы реструктуризировать сайтов в более эффективные группировки, определить эффективные места рекламы, нацеленных на конкретных пользователей для определенных объявления продажи.

Специализированное отслеживание посещений анализирует отдельные тенденции. Его цель заключается в настройке веб-сайтов для пользователей. Выведенная на экран информация, глубина структуры сайта и формат ресурсов, все это может быть динамически настроено для каждого пользователя, с течением времени на основе их моделей доступа.

Хотя отрадно и приятно видеть различные возможности применения анализа файла лога, важно знать, что успех таких приложений зависит от того, какие и насколько достоверные и надежных знания можно получить из больших необработанных данных журнала.

Текущие веб-серверы хранят ограниченную информацию о доступах. Некоторые индивидуальные сценарии для определенных сайтов могут хранить дополнительную информацию. Однако, для эффективного анализа использования веб-ресурсов, важным и необходимым является передшествующий шаг по очистке и преобразованию данных.

Люди

Джавэй Хань
Бамшад Мобашер
Роберт Кули
Майра Спилиопулу
Осмар Р. Zaiane
Хейкки Маннила
Ракеш Агравал
Бинг Лиу
Ракеш Агравал
Хосе Луис Борхес
Майк Перковиц
Мин-Сянь Чен

Ольфа Насрауи
Стюарт Шехтер
Филипп Чен
OOI Бенг Чин
Джйдип Шривастава
А. Г. Бюхнера
Кира Шахаби
Марти Херст
Генри Либермана
Майкл Дж. Пазани
Марк Левин

Организации

Хранилище данных
Хранилища данных информационно-справочный центр
Хранилища данных Института
Данные Майн (Бирмингемский университет)

OLAP Совета
интеллектуальный анализ данных группы в Университете Хельсинки
Данные Warehousing.com
Управление данными Ассоциации

Проекты

CIIR at UMass
CUM Текст учебной группы
WUM: веб добыча использованных даных
WebWatcher Главная страница
Адаптация веб-сайтов
WebWatcher
Integrated Media Systems Center в Университете Южной Калифорнии
персонализация веб-и анализ использованных данных с помощью эффективных нечетких методов кластеризации

WIND: Склад для интернет-данных
WEBMINER: План обнаружения веб-данных об использовании
WebKB набор инструментов
Всемирной базы знаний (Web-> KB) Проект
Летиция: агент, который помогает просмотривать веб-страницы
Web Mining
Информационно-поисковая исследований по смежным проблемам

Коммерческое программное обеспечение

Название

Фирма

Тип

Комментарии

FastStats

Apteco Limited, Великобритания

Инструменты интеллектуального анализа данных

Apteco разработали ряд маркетинговых инструментов FastStats, включая интеллектуальный анализ данных инструментов для лучшего анализа данных.

DB Miner

Университет Simon Fraser, Канада

Инструменты интеллектуального анализа данных

Обеспечивает мощный и доступный инструмент для обработки больших баз данных, хранилищ данных и реляционных бд быстро и эффективно использовать многочисленные функции интеллектуального анализа данных. Эта версия программного обеспечения использует Microsoft SQL Server 7.0. Платформа для постройки кубов данных, на которых он выполняет задачи добычи и модификации, что значительно повышает гибкость и эффективность DBMiner.

Speed Tracer

IBM

Инструменты интеллектуального анализа данных

"SpeedTracer является инструментом анализа использования веб-ресурсов, который отслеживает пользователей просматривающих шаблоны, генерации отчетов, чтобы помочь веб-мастерам усовершенствовать структуру веб-сайта и навигации. Приложение использует инновационные алгоритмы вывода для восстановления путей обхода пользователей и определения пользовательских сессий. Расширенный алгоритмы web-mining выявляют движение пользователей через веб-сайт. Конечным результатом является коллекция ценных шаблонов просмотра, которые помогают лучше понять вебмастеров поведения пользователей. SpeedTracer порождает три типа статистики: ориентированных на пользователя, с учетом пути и групповые. Статистики ориентированные на пользователя определяют количество ссылок на пользователя и длительности доступа. Основанные на пути статистические данные идентифицируют частые пути обхода в веб-представлениях. Основанные на группе статистические данные предоставляют информацию о группах страниц Веб-сайта, которые наиболее часто посещают."

Commerce Trends

Web Trends

Инструменты интеллектуального анализа данных

CommerceTrends обеспечивает самую мощную добычу информации для построения отчетности eBusiness, что позволяет клиентам отслеживать, управлять и оптимизировать стратегию электронного бизнеса. Расширенная функциональность CommerceTrends включает в себя мощные, масштабируемые средства анализа веб-трафика, управление кампаниями, прогнозирование дохода от электронной торговли, электронный маркетинг ROI и веб-возможности хранилищ данных, что позволяет клиентам применять принципы хранилищ данных соотношения данных веб-трафика с другой корпоративной информации с CRM, ERP, и Системы персонализации.

Clementine

SPSS

Инструменты интеллектуального анализа данных

Приложение использует инновационные алгоритмы вывода для восстановления путей обхода пользователей и определения пользовательских сессий. Расширенный алгоритмы web-mining выявляют движение пользователей через веб-сайт. Конечным результатом является коллекция ценных шаблонов просмотра, которые помогают лучше понять вебмастеров поведения пользователей.

WUM

Университет Humboldt Берлин

Инструменты интеллектуального анализа данных

WUM является последовательностью добычи данных. Ее основной целью является анализ навигационных поведения пользователей на веб-сайте, но он подходит для последовательного открытия шаблона в любом типе журнала. Он обнаруживает модели состоящих из не обязательно соседних событий и удовлетворяющих определенные критерии пользователей. WUM представляет собой интегрированную среду для подготовки журнала, запросов и визуализации. Этот Язык запросов MINT поддерживает спецификации критериев описывающая доминирующие или статистически редкие модели. Это механизм визуализации отображает узлы составляющие требуемый шаблон и различные частые пути расположены между ними. Это очень важно при рассмотрении как действительно осуществляется переход.

Sawmill 5

Flowerfire

анализатор лог файлов

Sawmill является мощным, иерархическим инструментом анализа журнала для Windows 95/98/NT/2000, MacOS, UNIX, OS / 2 и BeOS. Он особенно хорошо подходит для веб-доступа к серверу и журналов ссылок, но может обрабатывать почти любой журнал. Отчеты, которые генерирует Sawmill, являются иерархическими, привлекательными, и в хорошо сверстаны для легкой навигации. Полная документация внедрена непосредственно в программу

Funnel Web Pro

Active Concepts

анализатор лог файлов

Funnel Web 4.0 является последним выпуском нашего классического интеллектуального анализа и программного обеспечения интернет отчетности. Разработанный с совершенно новый интерфейс, версия 4.0 стала еще проще в использовании и настройке, чем предыдущие версии Funnel Web. Кроме того, этот продукт представит серию впечатляющих новых возможностей (например, полностью веб-удаленное администрирование), а также многое другое! С привлекательным, интуитивным и новым интерфейсом вы могущественны, чем когда-либо, Funnel Web 4.0 все, что нужно, чтобы остаться на на вершине онлайн империи.

Knowledge Studio

Angoss

Инструменты интеллектуального анализа данных

KnowledgeSTUDIO это новое поколение программного обеспечения интеллектуального анализа данных. Он объединяет передовые методы интеллектуального анализа данных в корпоративных средах так, что предприятия могут достичь максимальной выгоды от своих инвестиций в данные. KnowledgeSTUDIO является Datamining инструментом, который включает в себя силу деревьев решений, кластерный анализ, а также несколько моделей прогнозирования, чтобы позволить пользователям осмыслить их данные с различных точек зрения. Он включает в себя мощные инструменты визуализации данных для поддержки и пояснений открытий.

Net Analysis

Net Genesis

Инструменты интеллектуального анализа данных

NetAnalysis, лауреат онлайн поведенческого анализа решения от NetGenesis, обеспечивает высокую масштабируемость и мощное расширение необходимых электронному бизнесу предприятий, чтобы преуспеть в динамичной, более конкурентоспособных онлайн-среде. Благодаря повышенной гибкости и функциональности, NetAnalysis может быть настроена для удовлетворения конкретных нужд любой компании электронного клиента просто используя свою архитектуру.

Общедоступные программы

Название

Фирма

Тип

Комментарии

STstat

ST Программное обеспечение

Отчет и статистика

Есть набор скриптов CGI (написан на С), которые генерируют HTML отчеты, на основе журналов доступа которые хранит сервер HTTP, и они подходят практически к любому программному обеспечению HTTP-сервера (Unix и Windows), поддерживают теперь три формата журнала (Общий, расширенный и IIS).

weblog_parse

ACME Labs Software.

Log-файлы обработки

Выдержка из указанных полей веб- журнала файлов.
Считывает файл веб-журнала сервера, или в "Общем Формате Файла журнала" или в "Объединенном Формате Файла журнала". Анализирует его, и записывает только указанные пользователем поля, разделенные знаками табуляции для облегчения обработки.

WebLog

Darryl C. Burgdorf

Log-файлы как средство анализа

Средство анализа обладающее полным доступом к журналу. Он позволяет отслеживать активность на вашем сайте за месяц, неделю, день и час, отображая итоговые значения показов, переданных байт и просмотров страниц, а также отслеживает наиболее популярные страницы.

Analog

статистическая лаборатория Кембриджского университета

анализатор Log-файлов

Аналог программы для анализа логов с веб-сервера. Она сообщит вам, какие страницы являются наиболее популярными, страны, жители которых посещают сайты, а так же какие сайты они просматривали, неисправные ссылки и т.д.