Источник:
http://www.galeas.de/webmining.html
Введение
Со взрывным ростом источников информации, доступных во всемирной паутине, стало все более необходимо для пользователей использовать автоматизированные инструменты для поиска требуемой информационных ресурсов, а также отслеживать и анализировать их структуру использования. Эти факторы приводят к необходимости создания на стороне сервера и клиента интеллектуальных систем, которые могут эффективно добывать знания. Web mining в целом можно определить как открытие и анализ полезной информации из всемирной паутины. Это описывает автоматический поиск информационных ресурсов, доступных онлайн, т.е извлечение веб-контента (Web Content Mining), и обнаружение моделей доступа пользователей с веб-серверов, то есть, анализ использования веб-ресурсов (Web Usage Mining).
Что такое Web Mining?
Web Mining – добыча интересных и потенциально полезных моделей и неявной информации из артефактов (предмет материальной культуры) или деятельности, связанной с всемирной паутиной. Есть примерно три области обнаружения знаний, которые принадлежат Web Mining: Извлечение веб-контента – Web Content Mining, Извлечение веб-структур – Web Structure Mining, и Анализ использования веб-ресурсов – Web Usage Mining. Извлечение веб-контента это процесс процесс добычи знаний из содержания документов или их описания. Глубокий анализ текста в веб-документах, поиск ресурсов на основе концепции индексирования, или агентные технологии также могут попадать в эту категорию. Извлечение веб-структур – это процесс выделения знаний из структуры всемирной паутины и связями между ссылками и референтами в сети. Наконец, анализ использования веб-ресурсов, так же известный как обработка веб-лога (Web Log Mining), это процесс извлечения интересных закономерностей из логов веб-серверов.
Извлечение веб-контента
Извлечение веб-контента автоматический процесс, который выходит за рамки извлечения ключевых слов. Так как контент текстового документа для машинного чтения представляется не семантическим, некоторые подходы предложили реструктурировать контент документа в представлении, которое могло быть использовано машинами. Обычный подход к эксплуатации известных структуры в документах является построение схемы документов по некоторым данным модели. Методы использования словарей для интерпретации содержания еще впереди.
Есть две группы стратегий извлечения веб-контента т.е, которые непосредственно извлекают содержание документов, и те, которые улучшают поиск контента других инструментов, таких как поисковые системы.
Извлечение веб-структур – Web Structure Mining
В Всемирной паутине можно расрыть больше информации чем только информация, содержавшаяся в документах. Например, ссылки, указывающие на документ, указывают на популярность документа, в то время как ссылки, выходящие из документа, указывают на богатство или возможно разнообразие тем, затронутых в документе. Это можно сравнить с библиографическими цитатами. Когда статья цитируется часто, это должно быть важно. PageRank (пэйдж-ранк — один из алгоритмов ссылочного ранжирования) и умные методы используют в своих интересах информацию, переданную ссылками, чтобы найти подходящие веб-страницы. Посредством счетчиков более высокие уровни накапливают количество артефактов отнесенных к какой-либо категории по принципу их содержания. Счетчики гиперссылок, входящих и исходящих из документов, восстанавливают структуру веб-ресурсов полученных в итоге.
Анализ использования веб-ресурсов – Web Usage Mining
Веб-серверы записывают и накапливают данные о взаимодействии с пользователем всякий раз, когда получены запросы на ресурсы. Анализ журналов веб-доступа различных веб-сайтов может помочь понять пользовательское поведение и веб-структуру, таким образом улучшая проект этого колоссального набора ресурсов. Есть две основных тенденции в анализе использования веб-ресурсов обусловленных применением обнаруженного: Общая Схема Отслеживания Доступа (General Access Pattern Tracking) и Специализированное Отслеживание посещений (Customized Usage Tracking).
Общая Схема Отслеживания Доступа анализирует веб-журналы чтобы определить форму доступа и тенденции. Эти исследования могут пролить свет на лучшую структуру и классификацию провайдеров ресурсов. Существует множество веб-инструментов анализа, но они, как правило, не удовлетворительны и ограничены. Мы разработали инструмент обработки веб-лога (web log data mining tool) WebLogMiner, и предложили методы для того, чтобы использовать анализ данных и Оперативную аналитическую обработку (OLAP) на обработанных и преобразованных файлах веб-доступа. Применение методик интеллектуального анализа данных для журналов доступа представляет интересные схемы доступа, которые могут использоваться, чтобы реструктуризировать сайтов в более эффективные группировки, определить эффективные места рекламы, нацеленных на конкретных пользователей для определенных объявления продажи.
Специализированное отслеживание посещений анализирует отдельные тенденции. Его цель заключается в настройке веб-сайтов для пользователей. Выведенная на экран информация, глубина структуры сайта и формат ресурсов, все это может быть динамически настроено для каждого пользователя, с течением времени на основе их моделей доступа.
Хотя отрадно и приятно видеть различные возможности применения анализа файла лога, важно знать, что успех таких приложений зависит от того, какие и насколько достоверные и надежных знания можно получить из больших необработанных данных журнала.
Текущие веб-серверы хранят ограниченную информацию о доступах. Некоторые индивидуальные сценарии для определенных сайтов могут хранить дополнительную информацию. Однако, для эффективного анализа использования веб-ресурсов, важным и необходимым является передшествующий шаг по очистке и преобразованию данных.
Джавэй Хань |
Ольфа Насрауи |
Хранилище данных |
OLAP Совета |
CIIR at UMass |
WIND: Склад для интернет-данных |
Название |
Фирма |
Тип |
Комментарии |
Apteco Limited, Великобритания |
Инструменты интеллектуального анализа данных |
Apteco разработали ряд маркетинговых инструментов FastStats, включая интеллектуальный анализ данных инструментов для лучшего анализа данных. |
|
Университет Simon Fraser, Канада |
Инструменты интеллектуального анализа данных |
Обеспечивает мощный и доступный инструмент для обработки больших баз данных, хранилищ данных и реляционных бд быстро и эффективно использовать многочисленные функции интеллектуального анализа данных. Эта версия программного обеспечения использует Microsoft SQL Server 7.0. Платформа для постройки кубов данных, на которых он выполняет задачи добычи и модификации, что значительно повышает гибкость и эффективность DBMiner. |
|
IBM |
Инструменты интеллектуального анализа данных |
"SpeedTracer является инструментом анализа использования веб-ресурсов, который отслеживает пользователей просматривающих шаблоны, генерации отчетов, чтобы помочь веб-мастерам усовершенствовать структуру веб-сайта и навигации. Приложение использует инновационные алгоритмы вывода для восстановления путей обхода пользователей и определения пользовательских сессий. Расширенный алгоритмы web-mining выявляют движение пользователей через веб-сайт. Конечным результатом является коллекция ценных шаблонов просмотра, которые помогают лучше понять вебмастеров поведения пользователей. SpeedTracer порождает три типа статистики: ориентированных на пользователя, с учетом пути и групповые. Статистики ориентированные на пользователя определяют количество ссылок на пользователя и длительности доступа. Основанные на пути статистические данные идентифицируют частые пути обхода в веб-представлениях. Основанные на группе статистические данные предоставляют информацию о группах страниц Веб-сайта, которые наиболее часто посещают." |
|
Web Trends |
Инструменты интеллектуального анализа данных |
CommerceTrends обеспечивает самую мощную добычу информации для построения отчетности eBusiness, что позволяет клиентам отслеживать, управлять и оптимизировать стратегию электронного бизнеса. Расширенная функциональность CommerceTrends включает в себя мощные, масштабируемые средства анализа веб-трафика, управление кампаниями, прогнозирование дохода от электронной торговли, электронный маркетинг ROI и веб-возможности хранилищ данных, что позволяет клиентам применять принципы хранилищ данных соотношения данных веб-трафика с другой корпоративной информации с CRM, ERP, и Системы персонализации. |
|
SPSS |
Инструменты интеллектуального анализа данных |
Приложение использует инновационные алгоритмы вывода для восстановления путей обхода пользователей и определения пользовательских сессий. Расширенный алгоритмы web-mining выявляют движение пользователей через веб-сайт. Конечным результатом является коллекция ценных шаблонов просмотра, которые помогают лучше понять вебмастеров поведения пользователей. |
|
Университет Humboldt Берлин |
Инструменты интеллектуального анализа данных |
WUM является последовательностью добычи данных. Ее основной целью является анализ навигационных поведения пользователей на веб-сайте, но он подходит для последовательного открытия шаблона в любом типе журнала. Он обнаруживает модели состоящих из не обязательно соседних событий и удовлетворяющих определенные критерии пользователей. WUM представляет собой интегрированную среду для подготовки журнала, запросов и визуализации. Этот Язык запросов MINT поддерживает спецификации критериев описывающая доминирующие или статистически редкие модели. Это механизм визуализации отображает узлы составляющие требуемый шаблон и различные частые пути расположены между ними. Это очень важно при рассмотрении как действительно осуществляется переход. |
|
Flowerfire |
анализатор лог файлов |
Sawmill является мощным, иерархическим инструментом анализа журнала для Windows 95/98/NT/2000, MacOS, UNIX, OS / 2 и BeOS. Он особенно хорошо подходит для веб-доступа к серверу и журналов ссылок, но может обрабатывать почти любой журнал. Отчеты, которые генерирует Sawmill, являются иерархическими, привлекательными, и в хорошо сверстаны для легкой навигации. Полная документация внедрена непосредственно в программу |
|
Active Concepts |
анализатор лог файлов |
Funnel Web 4.0 является последним выпуском нашего классического интеллектуального анализа и программного обеспечения интернет отчетности. Разработанный с совершенно новый интерфейс, версия 4.0 стала еще проще в использовании и настройке, чем предыдущие версии Funnel Web. Кроме того, этот продукт представит серию впечатляющих новых возможностей (например, полностью веб-удаленное администрирование), а также многое другое! С привлекательным, интуитивным и новым интерфейсом вы могущественны, чем когда-либо, Funnel Web 4.0 все, что нужно, чтобы остаться на на вершине онлайн империи. |
|
Angoss |
Инструменты интеллектуального анализа данных |
KnowledgeSTUDIO это новое поколение программного обеспечения интеллектуального анализа данных. Он объединяет передовые методы интеллектуального анализа данных в корпоративных средах так, что предприятия могут достичь максимальной выгоды от своих инвестиций в данные. KnowledgeSTUDIO является Datamining инструментом, который включает в себя силу деревьев решений, кластерный анализ, а также несколько моделей прогнозирования, чтобы позволить пользователям осмыслить их данные с различных точек зрения. Он включает в себя мощные инструменты визуализации данных для поддержки и пояснений открытий. |
|
Net Genesis |
Инструменты интеллектуального анализа данных |
NetAnalysis, лауреат онлайн поведенческого анализа решения от NetGenesis, обеспечивает высокую масштабируемость и мощное расширение необходимых электронному бизнесу предприятий, чтобы преуспеть в динамичной, более конкурентоспособных онлайн-среде. Благодаря повышенной гибкости и функциональности, NetAnalysis может быть настроена для удовлетворения конкретных нужд любой компании электронного клиента просто используя свою архитектуру. |
Название |
Фирма |
Тип |
Комментарии |
ST Программное обеспечение |
Отчет и статистика |
Есть набор скриптов CGI (написан на С), которые генерируют HTML отчеты, на основе журналов доступа которые хранит сервер HTTP, и они подходят практически к любому программному обеспечению HTTP-сервера (Unix и Windows), поддерживают теперь три формата журнала (Общий, расширенный и IIS). |
|
Log-файлы обработки |
Выдержка из указанных полей веб- журнала файлов. |
||
Log-файлы как средство анализа |
Средство анализа обладающее полным доступом к журналу. Он позволяет отслеживать активность на вашем сайте за месяц, неделю, день и час, отображая итоговые значения показов, переданных байт и просмотров страниц, а также отслеживает наиболее популярные страницы. |
||
статистическая лаборатория Кембриджского университета
|
анализатор Log-файлов |
Аналог программы для анализа логов с веб-сервера. Она сообщит вам, какие страницы являются наиболее популярными, страны, жители которых посещают сайты, а так же какие сайты они просматривали, неисправные ссылки и т.д. |