ДонНТУ Портал магистров

Материал с сайта Web Data Mining.

Автор перевода: Линкин В.О.

Перейти к источнику данной статьи
РЕЗЮМЕ
БИОГРАФИЯ
РЕФЕРАТ
БИБЛИОТЕКА
ССЫЛКИ
ОТЧЕТ О ПОИСКЕ
МОЙ РАЗДЕЛ
ИГРА

Интеллектуальный анализ веб-контента, извлечение текста

Извлечение веб-контента также известно, как добыча текста и, как правило, является вторым шагом в интеллектуальном анализе веб-данных. Интеллектуальный анализ веб-контента заключается в сканировании текста, картинок и графики веб-страницы с целью определения актуальности содержания поисковому запросу. Такое сканирование заканчивается после кластеризации веб-страниц, пропуская их через структуры анализа данных, и обеспечивая результаты основанные на степени соответствия предложенному запросу. С огромным количеством информации, которая доступна на World Wide Web, извлечение содержимого веб-страницы предоставляет списки результатов в поисковых системах в порядке наивысшего отношение к ключевым словам в запросе.

Извлечение текста направлена на специфическую информацию, предоставленную клиентскими запросами в поисковых системах. Это дает возможность сканирования по всему Интернету, для получения содержание сработавших кластеров, запустившихся во время сканирования индивидуальных веб-страниц. Результаты страницы передаются к поисковым движкам пройдя по уровням актуальности от самого высокого до самого низкого. Хотя поисковые системы имеют возможность выдавать тысячи ссылок по найденному контенту, такой подход к извлечению веб-контента позволяет снизить выдачу неактуальной информации.

Извлечение веб-контента является очень эффективным при использовании в тандеме с базой данных специфических тем. К примеру онлайн университеты используют систему библиотек, для того, чтобы найти статьи, связанные с их главной областью обучения. Это конкретно содержание базы данных позволяет вытащить только ту информацию, которая находится в ее пределах, обеспечивая наиболее точные результаты в поисковых системах. Такой учет самой актуальной информации дает более высокое качество результатов. Такое увеличение продуктивности обусловлено использованием извлечения текстового и визуального контента.

В основном такой тип интеллектуального анализа данных служит для сбора, классификации, организации и предоставлению наилучшей информации, которая доступна в WWW для пользователя по его запросу. Этот инструмент является необходимым для сканирования множества HTML документов, изображений и текста, представленных на веб-страницах. Полученная информация предоставляется в поисковых системах в порядке релевантности дает более продуктивные результаты каждого поиска.

Веб-категоризация контента с базой данных контента является наиболее важным инструментом для эффективного использования поисковых систем. Клиенту на запрос по конкретной теме или товару, без использования такой технологии, пришлось бы искать актуальную информацию, пройдя через тысячи запросов. Тысячи результатов за счет использования анализа контента отсеиваются. Это устраняет ошибки и улучшает навигацию информации в интернете.

В бизнесе интеллектуальная обработка контента используется для грамотной подачи информации на сайте и создания карты сайта в порядке значимости. Это позволяет посетителям сайта иметь доступ к конкретной информации, без необходимости поиска по всему сайту. При использовании такого типа извлечения данных они остаются доступны через порядок их значимости в запросе, обеспечивая тем самым продуктивность маркетинга.

Использование данной технологии в качестве маркетингового инструмента обеспечивает дополнительный трафик на сайте компании, основываясь на ключевых словах и актуальных страницах для общего поиска.

Как вторичный от интеллектуального анализа данных, анализ текста позволяет улучшить продуктивное использование извлечение знаний для бизнеса, веб-дизайна и поисковых систем. Организация, категоризация и сбор информации, предоставленной в WWW становиться легче и дает результаты, которые имеют более высокую производительность за счет использования этой технологии.

Короче говоря, способность осуществлять извлечение веб-контента из результатов поисковых систем позволяет максимизировать поток кликов на веб-сайт или отдельные веб-страницы на сайте, чтобы попасть в список актуальных результатов поисковых систем во множестве случаев. Кластеризация и организация веб-содержимого в базе данных контента обеспечивает эффективную навигацию по страницам как для пользователей, так и для поисковых систем. Изображения, контент, форматы и веб-структуры исследуются для предоставления пользователю информации более высокого качества на соответствующий запрос. Предприятия могут использовать по максимуму анализ веб-контента с целью улучшения спроса на их сайт, а значит и сбыта тех продуктов, которыми они торгуют.