Ссылки по теме выпускной работы

    Материалы магистров ДонНТУ

  1. Арбузова О.В. Разработка и исследование алгоритмов для повышения эффективности интеллектуального анализа web-контента

    Описание: Персональный сайт на портале магистров ДонНТУ, 2013 г.

    Руководитель: к.т.н., доц. Вороной С. М.

  2. Криницкая А.И. Разработка инструментальных средст очистки web-страниц от информационного шума

    Описание: Персональный сайт на портале магистров ДонНТУ, 2011 г.

    Руководитель: к.т.н., доц. Мартыненко Т. В.

  3. Анохина В.С. Автоматизация извлечения знаний из Internet в форме онтологии для построения прикладных баз знаний

    Описание: Персональный сайт на портале магистров ДонНТУ, 2005 г.

    Руководитель: к.т.н., доц. Федяев О. И.

  4. Пранскевичус В.А. Разработка распределенного поискового робота

    Описание: Персональный сайт на портале магистров ДонНТУ, 2011 г.

    Руководитель: к.т.н., доц. Привалов М. В.

  5. Научные работы и статьи

  6. Шелудкова Е.А. Извлечение знаний из Web Mining

    Описание: В данной статье рассматриваются проблемы процесса поиска и обработки неструктурированных данных, а также кратко описана технология Web Mining

  7. Полякова М.Ю., Судаков Б.Н. Разработка подхода к созданию алгоритма синтаксического анализа естественно-языкового текста информационно-поисковых систем

    Описание: Рассмотрены существующие методы синтаксического анализа естественно-языкового текста и выделены основные преимущества и недостатки. Разработан усовершенствованный алгоритм синтаксического анализа. Показано, что параллельное использование синтаксического и семантического анализа позволяет сократить временные затраты на обработку естественно-языкового текста.

  8. Лиференко А.В., Бежитский С.С. О задачах применения web-mining

    Описание: Веб-технологии интеллектуального анализа данных открывают пути не только на сбор данных, но также поднимают много проблем, связанных с безопасностью данных. В статье рассмотрены основные задачи web-mining и сферы применения данной технологии.

  9. Косинов Д.И. Метод разбиения веб-страниц на семантические блоки с целью выявления схожих документов

    Описание: Задача поиска схожих документов рассмотрена с точки зрения составляющих их блоков. Предлагается алгоритм, позволяющий выделять семантические блоки из web-страниц путем анализа DOM-дерева. Предлагается метод, позволяющий поблочно определять похожесть web-документов между собой и дающий общую оценку степени схожести многоблочных документов. Показан прирост качества распознавания дубликатов на основе сравнения метода шинглирования.

  10. Борисова А.Н., Долгова Т.Г. Технология Web Mining

    Описание: Рассматриваются эффективные решения задач поиска, структурирования и анализа в основном хаотично организованной информации в сети с помощью нового направления в методологии анализа данных Web Mining.

  11. Бабин Д.В., Вороной С.М., Малащук Е.В. Повышение эффективности извлечения знаний на основе интеллектуального анализа и структурирования информации

    Описание: В данной работе исследуется проблема взаимодействия человек – информация. Рассматриваются основные подходы обеспечения этой взаимосвязи: интеллектуальный анализ текстов и предварительное структурирование информации. Проводится анализ этих подходов и описываются тенденции развития информационного пространства и средств его анализа. Предлагается структура системы извлечения знаний из информационных ресурсов с неструктурированной и структурированной информацией.

  12. Техническая и справочная литература

  13. Ландэ Д.В, Снарский А.А., Безсуднов И.В. Интернетика. Навигация в сложных сетях: модели и алгоритмы

    Описание: В книге рассматриваются вопросы, относящиеся к информационной структуре веб-пространства, теории сложных сетей, моделям информационного поиска и глубинного анализа текстов, общим закономерностям современных информационных потоков и их моделированию.

  14. Большакова Е.И., Клышинский Э.С., Ландэ Д.В. и др. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика

    Описание: В учебном пособии рассматриваются базовые вопросы компьютерной лингвистики: от теории лингвистического и математического моделирования до вариантов технологических решений. Дается лингвистическая интерпретация основных лингвистических объектов и единиц анализа. Приведены сведения, необходимые для создания отдельных подсистем, отвечающих за анализ текстов на естественном языке. Рассматриваются вопросы построения систем классификации и кластеризации текстовых данных, основы фрактальной теории текстовой информации.

  15. Ландэ Д.В. Топология Интернета (Поиск знаний в Internet)

    Описание: Раздел из профессиональной работы, переведенной с английского языка, в котором приводится информация о топологии интернета.

  16. Информационный поиск в Интернете

    Описание: На странице даны базовые понятия информационного поиска, коротко описаны основные поисковые системы.

  17. Баргесян А.А., Куприянов М.С., Холод И.И., Тесс М.Д., Елизаров С.И. Анализ данных и процессов: учеб. пособие

    Описание: В книге представлены наиболее перспективные направления анализа данных: хранение информации, оперативный и интеллектуальный анализ. Подробно рассмотрены методы и алгоритмы интеллектуального анализа. Кроме описания популярных и известных методов анализа приводятся оригинальные результаты.

  18. Лоторейчик В., Столяр С.Е. Информационно-поисковые языки

    Описание: В данной работе описывается общая логика информационно-поисковых языков, их свойства, обзор и сравнительный анализ. Представлена иерархическая классификация, а также предметные заголовки и ключевые слова.

  19. Орешков В.И., Паклин Н.Б. Задачи консолидации

    Описание: На сайте приведены основные аспекты консолидации данных, описаны основные форматы хранения данных, рассмотрена работа ETL методов и вопросы загрузки / выгрузки данных.

  20. Кластеризация

    На странице приведено понятие кластеризации, цели этого процесса, формальная постановка задачи кластеризации и ее методы.

  21. Введение в объектно-ориентированные базы данных

    Описание: В статье описаны преимущества использования в объектно-ориентированных базы данных, а также описано все, что требуется для начала работы с ООСУБД db4o.

  22. Сиха Багуи. Объектно-ориентированные базы данных: достижения и проблемы.

    Описание: Рассмотрены достижения технологии объектно-ориентированных баз данных, а также проблемы, которые сообществу разработчиков еще предстоит решить для того, чтобы технология объектно-ориентированных баз данных смогла получить такое же широкое распространение, как и технология реляционных баз данных.

  23. Задачи Data Mining. Классификация и кластеризация

    Описание: В статье подробно рассматриваются две задачи Data Mining - классификация и кластеризация. Описаны суть задач, процесс решения, методы решения, применение. Приведено сравнение двух рассмотренных задач.

  24. Основы извлечения знаний из Internet (web content mining)

    Описание: В статье осуществлен краткий обзор технологий, применяемых для сбора информации и извлечения знаний из использования Internet.

  25. Web-парсинг: задачи, проблемы, инструменты

    Описание: В статье дано понятие парсинга, описаны методы и этапы извлечения информации, описаны три типа инструментов для парсинга: библиотеки, headless-браузеры и Saas решения. Рассмотрены способы защиты сайта от парсинга, приведен пример парсинга сайта.

  26. Анализ данных в спорте: взаимодействие учёных, клубов и федераций. Лекция в Яндексе

    Описание: В статье коротко рассказано о задачах и принимаемых решениях с помощью анализа данных в спорте. Рассмотрен потенциал спортивного рынка, анализ данных в мировом спорте, приведены ссылки на журналы, которые ведут работу в данном направлении.

  27. Специализированные сайты и порталы

  28. Habr

    Habr - русскоязычный веб-сайт в формате коллективного блога с элементами новостного сайта, созданный для публикации новостей, аналитических статей, мыслей, связанных с информационными технологиями, бизнесом и интернетом.

  29. StatSoft

    StatSoft - компания-разработчик статистического и аналитического программного обеспечения. На сайте представлены статьи и доклады, мастер-классы и вебинары, посвященные различным направлениям разработки.

  30. RUSELLER.COM

    На сайте представлены уроки, статьи, программы посвященные созданию сайтов и работе с ними, шаблоны и дизайны web-страниц, новости в мире IT - индустрии.

  31. КиберЛенинка

    КиберЛенинка - научная электронная библиотека, построенная на парадигме открытой науки, основными задачами которой является популяризация науки и научной деятельности, общественный контроль качества научных публикаций, развитие междисциплинарных исследований, современного института научной рецензии, повышение цитируемости российской науки и построение инфраструктуры знаний.

  32. Seriyps

    Сайт позволяет отправить произвольный POST или GET HTTP запрос любому сайту.

  33. jsoup: Java HTML Parser

    Официальный сайт jsoup - библиотеки Java для работы с реальным HTML.

  34. WhoScored.com

    Сайт специализируется на углубленных анализах информации о футболе, всесторонние анализах по главным европейским дивизионам, а также предоставляет информацию по более чем 500 лигам и 15,000 командам.

  35. Soccerstand

    На сайте представлены быстрые и точные результаты онлайн в футболе, теннисе, баскетболе, бейсболе, хоккее и многих других видах спорта. Live результаты, таблицы, статистика.

  36. All sport links

    All Sports Links это каталог ссылок на различные ресурсы о спорте и ставках: официальные сайты команд, трансляции, букмекерские компании и пр.

  37. Web-Crawler и HTML запросы

  38. Web-crawler с использованием Python и Chrome

    Автор обосновал выбор инструментов для поставленной задачи, описывал этапы создания собственного Web-Crawler, привел примеры использования и ссылку на свой проект на сайте GitHub.

  39. Как работает web-spider

    В статье описана архитерктура и основные вехи создания существующего web-spiderа, конвейер производства данных, опыт работы с обработкой web-сайтов.

  40. Создание POST-запросов с помощью PHP

    На странице представлены примеры использования POST и GET запросов с помощью различных методов и функций языка PHP.

  41. Создание POST и GET запросов

    В источнике автор описал структуру HTTP протокола, привел описания, различия и примеры использования POST и GET запросов.

  42. Типы HTTP-запросов и философия REST

    В статье автор рассказал, что из себя представляют HTTP-методы GET/POST/PUT/DELETE и другие, для чего они были придуманы и как их использовать в соответствии с REST.

  43. Post и Get запросы, какая между ними разница и что лучше и для каких целей

    На странице представлены ответы на вопрос о разнице Post и Get запросов, их особенности и области применения.

  44. Создание GET и POST-запросов с помощью Curl

    В статье представлена работа с утилитой командной строки и библиотекой cURL,предназначенной для передачи данных по разнообразным протоколам (HTTP, FTP, POP3, IMAP, SMTP и мн. др.). Приведено краткое описание утилиты, запросов Get и Post.

  45. Top 20 web crawler tools to scrape the websites

    В этом посте рассмотрены 20 самых популярных веб-сканеров в Интернете.

  46. Парсинг сайтов

  47. Как парсить данные с HTML-страниц на Python

    В статье руководитель проектов Дмитрий Мирошниченко рассказывает, как быстро спарсить объявления конкурентов в «Яндекс.Директе» с помощью языка программирования Python.

  48. Бенчмарк HTML парсеров

    В статье автор представляет результаты собственных экспериментов сравнения производительности html-парсеров.

  49. Парсинг сайтов с помощью Java

    Приведено пошаговое руководство простейшего парсинга сайта с помощью HtmlUnit.

  50. Пишем парсер на Java + MySQL

    В статье приведен код парсера, считывающего базу данных с прокси-адресами.

  51. Java: анализ HTML

    На странице приведен вопрос пользователя о поиске определенных тегов на html странице, в комментариях представлены ответы и ссылки на инструменты парсинга html страниц.

  52. Как разобрать HTML-строку в Java

    На странице приведен вопрос пользователя о получении DOM элемента из html страницы, в комментариях представлены примеры кода для парсинга html страниц.

  53. Парсинг html-сайтов с помощью PHP, Ruby, Python

    В статье описаны этапы парсинга сайта, приведены рекомендации по хранению полученных данных.

  54. Парсинг HTML и скрепинг с помощью простой библиотеки HTML DOM

    В статье представлен пример использования парсера с исходным кодом в собственном проекте. Описана пошаговая инструкция, как скачать библиотеку-парсер, использовать ее функции в коде, вывести результаты (PHP).

  55. Парсинг и обработка веб-страницы на PHP: выбираем лучшую библиотеку

    В статье автор приводит описание наиболее популярных библиотек для парсинга на языке PHP, их сравнение. В конце статьи приведен перечень часто используемых библиотек для других языков программирования.

  56. Правильный html парсинг

    В статье автор описывает простой парсер сайта с помощью библиотеки htmlcleaner-2.2.jar.