Библиотека по теме выпускной работы

Собственные публикации и доклады

РАЗРАБОТКА КЛАССИФИКАЦИОННОЙ СХЕМЫ ИНФОРМАЦИОННЫХ БЛОКОВ САЙТОВ
Авторы: Криницкая А. И., Мартыненко Т.В.
Описание: В работе обсуждаются основные подходы к выделению основного контента web-страницы. Разработана классификационная схема информационных блоков сайтов. Определены основные проблемы существующих разработок, частично решающих поставленную задачу. Приведен предлагаемый алгорим для реализации поставленной задачи.
Источник: Інформаційні управляючі системи та комп'ютерний моніторинг (ІУС та КМ-2011).// Матеріали II всеукраїнської науково-технічної конференції студентів, аспірантів та молодих вчених. – Донецьк, ДонНТУ – 2011, I Том, с. 277-281.

Переводы статей

WEB MINING
Авторы: Криницкая А.И.
Описание: Web Mining – добыча интересных и потенциально полезных моделей и неявной информации из артефактов(предмет материальной культуры) или деятельности, связанной с всемирной паутиной. Есть примерно три области обнаружения знаний, которые принадлежат Web Mining: Извлечение веб-контента – Web Content Mining.
Источник: http://www.galeas.de/webmining.html

Тематические статьи

ОЦЕНКА ВЛИЯНИЯ ИЗВЛЕЧЕНИЯ ЗНАЧИМОЙ ИНФОРМАЦИИ НА КАЧЕСТВО КЛАССИФИКАЦИИ WEB-СТРАНИЦ
Авторы: Р.Ф. Кузнецов, Н.В. Мурашов
Описание: Исследование влияния различных подходов извлечения значимой информации на качество классификации web-страниц и проверка гипотезы о том, что выделение этой информации дает положительный результат при построении автоматического рубрикатора интернет-каталога.
Источник: st.free-lance.ru...

МЕТОД РАЗБИЕНИЯ ВЕБ-СТРАНИЦ НА СЕМАНТИЧЕСКИЕ БЛОКИ С ЦЕЛЬЮ ВЫЯВЛЕНИЯ СХОЖИХ ДОКУМЕНТОВ
Авторы: Д. И. Косинов
Описание: Задача поиска схожих документов рассмотрена с точки зрения составляющих их блоков. Предлагается алгоритм, позволяющий выделять семантические блоки из web-страниц путем анализа DOM-дерева. Предлагается метод, позволяющий поблочно определять похожеть web-документов между собой и дающий общую оценку степени схожести многоблочных документов. Показан прирост качества распознавания дубликатов на основе сравнения метода шинглирования.
Источник: www.vestnik.vsu.ru/pdf/analiz/...

ПОДХОДЫ К ИЗВЛЕЧЕНИЮ ДАННЫХ ИЗ ВЕБ-РЕСУРСОВ
Описание: Web Mining – это процесс извлечения данных из веб-ресурсов, который, как правило, имеет больше практическую составляющую нежели теоретическую. Основная цель Web Mining – это сбор данных (парсинг) с последующим сохранением в нужном формате. Фактически, задача сводится к написанию HTML парсеров, и как раз об этом поговорим более детально.
Источник: http://habrahabr.ru/blogs/data_mining/99918/

ПОЛУЧЕНИЕ ОСНОВНОГО КОНТЕНТА СТРАНИЦЫ ПРОГРАММНО
Описание: Задача очищения веб-страниц от информационного шума – это одна из актуальных задач информационного поиска. Суть ее заключается в том, чтобы очистить информационный шум и получить лишь основной контент.
Источник: http://msug.vn.ua/Posts/Details/3720

МЕТОД АВТОМАТИЗИРОВАННОГО ИЗВЛЕЧЕНИЯ ЗНАНИЙ ИЗ СЛАБОСТРУКТУРИРОВАННЫХ ИСТОЧНИКОВ И ЕГО ПРИМЕНЕНИЕ ДЛЯ СОЗДАНИЯ КОРПОРАТИВНЫХ ИНФОРМАЦИОННЫХ СИСТЕМ
Авторы: Березкин Д.В.
Описание: В настоящее время в связи с постоянным ростом информации глобальной сети Интернет необходимо развитие технологий, позволяющих использовать ее для решения различных производственных задач предприятий и организаций. Потребность в этом испытывают все пользователи, начиная от простых людей и кончая специалистами крупных компаний, отвечающими за формирование информационных источников.
Источник: www.raai.org/resurs/papers/kolomna2009/doklad/Berezkin.doc

ИЗВЛЕЧЕНИЕ ЗНАЧИМОЙ ИНФОРМАЦИИ ИЗ WEB-СТРАНИЦ С ИСПОЛЬЗОВАНИЕМ ПРЕДЛОЖЕНИЙ
Авторы: Р.Ф. Кузнецов
Описание: Целью данной работы является разработка метода позволяющего отделять значимую часть web-страницы от навигационной, в качестве эвристики использую законченные предложения.
Источник: Сборник тезисов постерных докладов восьмой всероссийской конференции RCDL’2006. – СПб: НУ ЦСИ, 2006. – 274 с.

ОБНАРУЖЕНИЕ СТРУКТУРНОГО ПОДОБИЯ HTML-ДОКУМЕНТОВ
Авторы: И. Некрестьянов, Е. Павлова
Описание: В работе исследуется возможность автоматического выявления HTML-документов подобной структуры. Эта информация, в частности, облегчает создание программ-посредников для извлечения слабоструктурированной информации. Рассматриваемый подход основан на применении стандартных методов кластеризации. Основным предметом исследования является вид отображения информации о структуре документов в точки многомерного пространства, который позволяет получить наиболее качественный результат.
Источник: http://rcdl.ru/doc/2002/vol2_38-54.pdf

МЕТОД ОЦЕНКИ ПОДОБНОСТИ ВЕБ-СТРАНИЦ
Авторы: В.М. Дубовой
Описание: Приведен метод оценивания Интернет-страниц, и их алгоритм очищения от информационного шума, а также предложен алгоритм удаления веб-страниц с данными которые дублируются.
Источник: www.nbuv.gov.ua/Portal/natural/oeiet/2008_2/16pdf/10.pdf

Криницкая Алеся Ивановна

Факультет компьютерных наук и технологий
Кафедра автоматизированных систем управления
Специальность «Информационные управляющие системы»

Разработка инструментальных средст очистки web-страниц от информационного шума

Научный руководитель: к.т.н., доц. Мартыненко Татьяна Владимировна

Библиотека по теме выпускной работы

Собственные публикации и доклады

Переводы статей

Тематические статьи

Криницкая Алеся Ивановна

Факультет компьютерных наук и технологий Кафедра автоматизированных систем управления Специальность «Информационные управляющие системы»

Разработка инструментальных средст очистки web-страниц от информационного шума

Научный руководитель: к.т.н., доц. Мартыненко Татьяна Владимировна

Библиотека по теме выпускной работы

Собственные публикации и доклады

Переводы статей

Тематические статьи

Факультет компьютерных наук и технологий
Кафедра автоматизированных систем управления
Специальность «Информационные управляющие системы»