Ссылки по теме выпускной работы

Материалы магистров ДонНТУ

Арбузова О.В. Разработка и исследование алгоритмов для повышения эффективности интеллектуального анализа web-контента
Описание: Персональный сайт на портале магистров ДонНТУ, 2013 г.

Руководитель: к.т.н., доц. Вороной С. М.
Криницкая А.И. Разработка инструментальных средст очистки web-страниц от информационного шума
Описание: Персональный сайт на портале магистров ДонНТУ, 2011 г.

Руководитель: к.т.н., доц. Мартыненко Т. В.
Анохина В.С. Автоматизация извлечения знаний из Internet в форме онтологии для построения прикладных баз знаний
Описание: Персональный сайт на портале магистров ДонНТУ, 2005 г.

Руководитель: к.т.н., доц. Федяев О. И.
Пранскевичус В.А. Разработка распределенного поискового робота
Описание: Персональный сайт на портале магистров ДонНТУ, 2011 г.

Руководитель: к.т.н., доц. Привалов М. В.

Научные работы и статьи

Шелудкова Е.А. Извлечение знаний из Web Mining
Описание: В данной статье рассматриваются проблемы процесса поиска и обработки неструктурированных данных, а также кратко описана технология Web Mining
Полякова М.Ю., Судаков Б.Н. Разработка подхода к созданию алгоритма синтаксического анализа естественно-языкового текста информационно-поисковых систем
Описание: Рассмотрены существующие методы синтаксического анализа естественно-языкового текста и выделены основные преимущества и недостатки. Разработан усовершенствованный алгоритм синтаксического анализа. Показано, что параллельное использование синтаксического и семантического анализа позволяет сократить временные затраты на обработку естественно-языкового текста.
Лиференко А.В., Бежитский С.С. О задачах применения web-mining
Описание: Веб-технологии интеллектуального анализа данных открывают пути не только на сбор данных, но также поднимают много проблем, связанных с безопасностью данных. В статье рассмотрены основные задачи web-mining и сферы применения данной технологии.
Косинов Д.И. Метод разбиения веб-страниц на семантические блоки с целью выявления схожих документов
Описание: Задача поиска схожих документов рассмотрена с точки зрения составляющих их блоков. Предлагается алгоритм, позволяющий выделять семантические блоки из web-страниц путем анализа DOM-дерева. Предлагается метод, позволяющий поблочно определять похожесть web-документов между собой и дающий общую оценку степени схожести многоблочных документов. Показан прирост качества распознавания дубликатов на основе сравнения метода шинглирования.
Борисова А.Н., Долгова Т.Г. Технология Web Mining
Описание: Рассматриваются эффективные решения задач поиска, структурирования и анализа в основном хаотично организованной информации в сети с помощью нового направления в методологии анализа данных Web Mining.
Бабин Д.В., Вороной С.М., Малащук Е.В. Повышение эффективности извлечения знаний на основе интеллектуального анализа и структурирования информации
Описание: В данной работе исследуется проблема взаимодействия человек – информация. Рассматриваются основные подходы обеспечения этой взаимосвязи: интеллектуальный анализ текстов и предварительное структурирование информации. Проводится анализ этих подходов и описываются тенденции развития информационного пространства и средств его анализа. Предлагается структура системы извлечения знаний из информационных ресурсов с неструктурированной и структурированной информацией.

Техническая и справочная литература

Ландэ Д.В, Снарский А.А., Безсуднов И.В. Интернетика. Навигация в сложных сетях: модели и алгоритмы
Описание: В книге рассматриваются вопросы, относящиеся к информационной структуре веб-пространства, теории сложных сетей, моделям информационного поиска и глубинного анализа текстов, общим закономерностям современных информационных потоков и их моделированию.
Большакова Е.И., Клышинский Э.С., Ландэ Д.В. и др. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика
Описание: В учебном пособии рассматриваются базовые вопросы компьютерной лингвистики: от теории лингвистического и математического моделирования до вариантов технологических решений. Дается лингвистическая интерпретация основных лингвистических объектов и единиц анализа. Приведены сведения, необходимые для создания отдельных подсистем, отвечающих за анализ текстов на естественном языке. Рассматриваются вопросы построения систем классификации и кластеризации текстовых данных, основы фрактальной теории текстовой информации.
Ландэ Д.В. Топология Интернета (Поиск знаний в Internet)
Описание: Раздел из профессиональной работы, переведенной с английского языка, в котором приводится информация о топологии интернета.
Информационный поиск в Интернете
Описание: На странице даны базовые понятия информационного поиска, коротко описаны основные поисковые системы.
Баргесян А.А., Куприянов М.С., Холод И.И., Тесс М.Д., Елизаров С.И. Анализ данных и процессов: учеб. пособие
Описание: В книге представлены наиболее перспективные направления анализа данных: хранение информации, оперативный и интеллектуальный анализ. Подробно рассмотрены методы и алгоритмы интеллектуального анализа. Кроме описания популярных и известных методов анализа приводятся оригинальные результаты.
Лоторейчик В., Столяр С.Е. Информационно-поисковые языки
Описание: В данной работе описывается общая логика информационно-поисковых языков, их свойства, обзор и сравнительный анализ. Представлена иерархическая классификация, а также предметные заголовки и ключевые слова.
Орешков В.И., Паклин Н.Б. Задачи консолидации
Описание: На сайте приведены основные аспекты консолидации данных, описаны основные форматы хранения данных, рассмотрена работа ETL методов и вопросы загрузки / выгрузки данных.
Кластеризация
На странице приведено понятие кластеризации, цели этого процесса, формальная постановка задачи кластеризации и ее методы.
Введение в объектно-ориентированные базы данных
Описание: В статье описаны преимущества использования в объектно-ориентированных базы данных, а также описано все, что требуется для начала работы с ООСУБД db4o.
Сиха Багуи. Объектно-ориентированные базы данных: достижения и проблемы.
Описание: Рассмотрены достижения технологии объектно-ориентированных баз данных, а также проблемы, которые сообществу разработчиков еще предстоит решить для того, чтобы технология объектно-ориентированных баз данных смогла получить такое же широкое распространение, как и технология реляционных баз данных.
Задачи Data Mining. Классификация и кластеризация
Описание: В статье подробно рассматриваются две задачи Data Mining - классификация и кластеризация. Описаны суть задач, процесс решения, методы решения, применение. Приведено сравнение двух рассмотренных задач.
Основы извлечения знаний из Internet (web content mining)
Описание: В статье осуществлен краткий обзор технологий, применяемых для сбора информации и извлечения знаний из использования Internet.
Web-парсинг: задачи, проблемы, инструменты
Описание: В статье дано понятие парсинга, описаны методы и этапы извлечения информации, описаны три типа инструментов для парсинга: библиотеки, headless-браузеры и Saas решения. Рассмотрены способы защиты сайта от парсинга, приведен пример парсинга сайта.
Анализ данных в спорте: взаимодействие учёных, клубов и федераций. Лекция в Яндексе
Описание: В статье коротко рассказано о задачах и принимаемых решениях с помощью анализа данных в спорте. Рассмотрен потенциал спортивного рынка, анализ данных в мировом спорте, приведены ссылки на журналы, которые ведут работу в данном направлении.

Специализированные сайты и порталы

Habr
Habr - русскоязычный веб-сайт в формате коллективного блога с элементами новостного сайта, созданный для публикации новостей, аналитических статей, мыслей, связанных с информационными технологиями, бизнесом и интернетом.
StatSoft
StatSoft - компания-разработчик статистического и аналитического программного обеспечения. На сайте представлены статьи и доклады, мастер-классы и вебинары, посвященные различным направлениям разработки.
RUSELLER.COM
На сайте представлены уроки, статьи, программы посвященные созданию сайтов и работе с ними, шаблоны и дизайны web-страниц, новости в мире IT - индустрии.
КиберЛенинка
КиберЛенинка - научная электронная библиотека, построенная на парадигме открытой науки, основными задачами которой является популяризация науки и научной деятельности, общественный контроль качества научных публикаций, развитие междисциплинарных исследований, современного института научной рецензии, повышение цитируемости российской науки и построение инфраструктуры знаний.
Seriyps
Сайт позволяет отправить произвольный POST или GET HTTP запрос любому сайту.
jsoup: Java HTML Parser
Официальный сайт jsoup - библиотеки Java для работы с реальным HTML.
WhoScored.com
Сайт специализируется на углубленных анализах информации о футболе, всесторонние анализах по главным европейским дивизионам, а также предоставляет информацию по более чем 500 лигам и 15,000 командам.
Soccerstand
На сайте представлены быстрые и точные результаты онлайн в футболе, теннисе, баскетболе, бейсболе, хоккее и многих других видах спорта. Live результаты, таблицы, статистика.
All sport links
All Sports Links это каталог ссылок на различные ресурсы о спорте и ставках: официальные сайты команд, трансляции, букмекерские компании и пр.

Web-Crawler и HTML запросы

Web-crawler с использованием Python и Chrome
Автор обосновал выбор инструментов для поставленной задачи, описывал этапы создания собственного Web-Crawler, привел примеры использования и ссылку на свой проект на сайте GitHub.
Как работает web-spider
В статье описана архитерктура и основные вехи создания существующего web-spiderа, конвейер производства данных, опыт работы с обработкой web-сайтов.
Создание POST-запросов с помощью PHP
На странице представлены примеры использования POST и GET запросов с помощью различных методов и функций языка PHP.
Создание POST и GET запросов
В источнике автор описал структуру HTTP протокола, привел описания, различия и примеры использования POST и GET запросов.
Типы HTTP-запросов и философия REST
В статье автор рассказал, что из себя представляют HTTP-методы GET/POST/PUT/DELETE и другие, для чего они были придуманы и как их использовать в соответствии с REST.
Post и Get запросы, какая между ними разница и что лучше и для каких целей
На странице представлены ответы на вопрос о разнице Post и Get запросов, их особенности и области применения.
Создание GET и POST-запросов с помощью Curl
В статье представлена работа с утилитой командной строки и библиотекой cURL,предназначенной для передачи данных по разнообразным протоколам (HTTP, FTP, POP3, IMAP, SMTP и мн. др.). Приведено краткое описание утилиты, запросов Get и Post.
Top 20 web crawler tools to scrape the websites
В этом посте рассмотрены 20 самых популярных веб-сканеров в Интернете.

Парсинг сайтов

Как парсить данные с HTML-страниц на Python
В статье руководитель проектов Дмитрий Мирошниченко рассказывает, как быстро спарсить объявления конкурентов в «Яндекс.Директе» с помощью языка программирования Python.
Бенчмарк HTML парсеров
В статье автор представляет результаты собственных экспериментов сравнения производительности html-парсеров.
Парсинг сайтов с помощью Java
Приведено пошаговое руководство простейшего парсинга сайта с помощью HtmlUnit.
Пишем парсер на Java + MySQL
В статье приведен код парсера, считывающего базу данных с прокси-адресами.
Java: анализ HTML
На странице приведен вопрос пользователя о поиске определенных тегов на html странице, в комментариях представлены ответы и ссылки на инструменты парсинга html страниц.
Как разобрать HTML-строку в Java
На странице приведен вопрос пользователя о получении DOM элемента из html страницы, в комментариях представлены примеры кода для парсинга html страниц.
Парсинг html-сайтов с помощью PHP, Ruby, Python
В статье описаны этапы парсинга сайта, приведены рекомендации по хранению полученных данных.
Парсинг HTML и скрепинг с помощью простой библиотеки HTML DOM
В статье представлен пример использования парсера с исходным кодом в собственном проекте. Описана пошаговая инструкция, как скачать библиотеку-парсер, использовать ее функции в коде, вывести результаты (PHP).
Парсинг и обработка веб-страницы на PHP: выбираем лучшую библиотеку
В статье автор приводит описание наиболее популярных библиотек для парсинга на языке PHP, их сравнение. В конце статьи приведен перечень часто используемых библиотек для других языков программирования.
Правильный html парсинг
В статье автор описывает простой парсер сайта с помощью библиотеки htmlcleaner-2.2.jar.

Власюк Дмитрий Александрович

Факультет компьютерных наук и технологий

Кафедра программной инженерии

Специальность Программная инженерия

Исследование методов извлечения знаний из HTML-страниц сети Интернет о спортивных соревнованиях

Научный руководитель: к.ф-м.н., доц. Скворцов Анатолий Ефремович

Консультант: ст. пр. Коломойцева Ирина Александровна

Ссылки по теме выпускной работы

Материалы магистров ДонНТУ

Научные работы и статьи

Техническая и справочная литература

Специализированные сайты и порталы

Web-Crawler и HTML запросы

Парсинг сайтов