Изображение магистра
Баев Дмитрий Эдуардович
Факультет интеллектуальных систем и программирования
Кафедра программной инженерии им. Л. П. Фельдмана
Специальность Методы и средства разработки программного обеспечения

Классификация текстов на сайтах на основании предметной области

Научный руководитель: к.ф.-м.н., доцент каф. ПИ Скворцов Анатолий Ефремович
Консультант: ст. преп. каф. ПИ Коломойцева Ирина Александровна
Ссылки по теме выпускной работы

Научные работы и статьи

  1. Обзор технологии text mining
    Описание: Статья посвящена технологии Text mining. В статье рассматриваются назначение и задачи, которые выполняет технология.
  2. Понятие о тексте. Классификация текстов.
    Описание: Стилистический разбор текста представляет собой эссе лингвистического характера, автор которого оценивает роль языковых единиц в тексте на основе активного обращения к понятиям и категориям лингвистики, где ярко проявляется умение представлять результаты в форме информации научного характера.
  3. Многомерное представление текстов в задачах классификации.
    Описание: В статье рассмотрено моделирование текстовых данных для последующей классификации. Предложено и проанализировано многомерное представление текстовых данных для классификации в рамках структурно-иерархического подхода. Определены перспективы развития и основные преимущества многомерного похода.
  4. Классификация текстов по жанрам на основе ритмических характеристик.
    Описание: Статья посвящена анализу ритма текстов различных жанров: художественных романов, рекламы, научных статей, отзывов, твитов и политических статей. Авторы выделили в текстах лексико-грамматические средства: анафору, эпифору, диакопу, апозиопезу и т. п., которые являются маркерами ритма текста. На их основе были подсчитаны статистические характеристики, описывающие количественно и структурно данные ритмические средства. Полученная модель текста была визуализирована для статистического анализа с помощью диаграмм размаха и тепловых карт, которые показали отличия в ритме текстов различных жанров. Диаграммы размаха показали, что практически все жанры отличаются друг от друга по общей плотности ритмических характеристик. Тепловые карты показали различную структуру ритма у жанров.Далее ритмические характеристики успешно использовались для классификации текстов по шести жанрам. Высокое качество классификации показало, что ритмические характеристики являются хорошим маркером для большинства жанров, в особенности для художественной литературы. Эксперименты проводились с помощью программного инструмента ProseRhythmDetector для русского и английского языков. Корпуса текстов содержат по 300 текстов для каждого языка.
  5. Исследование методов классификации текстов на естественном языке.
    Описание: Статья обозревает: метод обратного распространения ошибки, классификатор текстов, многослойный персептрон, нейросетевой классификатор, нейронные сети, обучение нейросети.
  6. Исследование основных методов классификации в задачах по анализу и распознаванию текста.
    Описание: В статье описана задача по извлечению информации заключается в обработке текста на естественном языке с целью извлечения заданных элементов. На входе системы - слабо- или неструктурированный текст на естественном языке; на выходе - заполненные структуры данных (экзофреймы), позволяющие проводить дальнейшую автоматическую или ручную обработку информации.
  7. Y-метод классификации текстов.
    Описание: Рассматриваются основные особенности автоматической классификации текстовых документов. Описываются процедуры нового метода, основанного на вычислении отклонений распределения стоп-слов от коэффициента Ципфа: распознавание стоп-слов и составление ранжированных списков; вычисление отклонений частотностей терминов от коэффициента Ципфа; вычисление индексов текстов на основе среднего квадратичного отклонения; определение степени близости текстов. Разработаны показатели эффективности классификации: дискриминирующей силы, симилирующей силы и обобщённый показатель. Тестирование метода показало его эффективность при решении задачи жанровой классификации текстов.
  8. Методы машинного обучения для автоматической классификации научных текстов различной тематики по их частотных характеристикам.
    Описание: В статье произведены анализ и сравнение качества работы различных методов классификации по таким характеристикам, как точность, полнота, время работы алгоритма, возможность работы алгоритма в инкрементном режиме, количество предварительной информации, необходимой для классификации, независимость от языка.
  9. WEB-SCRAPING и классификация текстов методом наивного Байеса.
    Описание: Классификация текста необходима для решения задачи информационного поиска, заключающаяся в отнесении документа к одной из нескольких категорий на основании содержания документа.
  10. Классификация средств репрезентации иронии в тексте.
    Описание: В рамках исследования было выявлено, что в выбранном для анализа художественном произведении используются как примеры «иронии от персонажа», где ироническая интенция принадлежит непосредственно героям, которые и являются авторами реплик, так и примеры «авторской иронии». Способы актуализации иронии в обоих типах схожи, поэтому они будут рассматриваться вместе. Создание ироничного эффекта может подразумевать использование всего спектра языковых средств, однако это не исключает возможности выделения наиболее характерных способов создания иронического смысла. Как показал анализ языкового материала, иронический смысл может создаваться как минимум двумя способами: а) лексико-семантический, который заключается в манипулировании языковой и узуальной нормой; б) логико-семантический, который реализуется в основном с опорой на логические нормы и картину мира коммуникантов.
  11. Полихотомические классификации специальных терминов в текстах по электротехнике, светотехнике.
    Описание: Статья адресована поиску логически обоснованных полихотомических классификаций специальных терминов в научной и учебной литературе по электротехнике и светотехнике. В качестве примера приведены частные, трихотомически совместимые членения понятий для вышеуказанной технической отрасли.
  12. Классификация текстов по тональности на основе методов машинного обучения.
    Описание: Рассматривается проблема автоматической классификации текстов по тональности, описываются методы машинного обучения. Приводится описание алгоритмов классификации: наивного Байесовского классификатора, метода ближайших соседей. Рассматриваются способы векторного представления документов обучающей и тестовой выборок, а также функции весов. Для каждого сочетания параметров рассчитываются метрики эффективности.
  13. Построение двухфакторных паттернов в задаче классификации текстов.
    Описание: Построены двухфакторные паттерны эмпирических распределений частот биграмм для машинной классификации текстов по авторам и тематике. Атрибуты текста распознаются методом ближайшего соседа применительно к эталонным распределениям. Близость между распределениями понимается в смысле нормы в L1. Пара «автор-тема» неизвестного текста определяется как такая, к эталонному распределению которой тестируемый текст находится ближе всего. Анализируется проблема распознавания автора безотносительно темы текста и темы безотносительно автора. Исследуются также возможности укрупнения и детализации классификационных признаков.
  14. Z-коэффициент как параметр автоматической классификации текстов.
    Описание: Рассмотрены особенности классификации текстовых документов и функционирования программы-классификатора. Описан алгоритм вычисления Z-коэффициента как параметра классификации. Проведено тестирование его эффективности для решения задачи авторской атрибуции на полных текстах, выравненных текстах, а также на выравненных текстах в сочетании с отклонением от распределения Ципфа. Тестирование показало, что применение Z-коэффициента как самостоятельного параметра даёт отрицательный результат. Вместе с тем, высокую эффективность продемонстрировало применение этого коэффициента на основе отклонения от распределения Ципфа, что позволило разработать вариант предложенного ранее Y-метода автоматической классификации текстов.
  15. Интеллектуальная модель анализа, классификации и кластеризации источников текста.
    Описание: Text Mining - интеллектуальный анализ и обработка текстовой информации - алгоритмический процесс обнаружения не известных ранее знаний из текста. Методология Text Mining связана с такими дисциплинами, как Data Mining, искусственный интеллект, компьютерная лингвистика, базы данных, теория информации и математическая статистика. На данный момент методы интеллектуального анализа и обработки текстовых данных применяются в мировой сети Интернет. Например, актуальной задачей является фильтрация электронной почты, в которой используется классификация входящих сообщений как спам (spam - нежелательная электронная почта) или как письмо.

Техническая и справочная информация

  1. Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных.
    Авторы: Петер Флах.
    Описание: Один из самых интересных учебников по машинному обучению – разделу искусственного интеллекта, изучающего методы построения моделей, способных обучаться, и алгоритмов для их построения. В книге описан широкий круг логических, геометрических и статистических моделей, затрагиваются и такие находящиеся на переднем крае науки темы, как матричная факторизация и анализ РХП. Особое внимание уделено важнейшей роли признаков. Устоявшаяся терминология дополняется введением в рассмотрение новых полезных концепций. В конце каждой главы приводятся ссылки на дополнительную литературу с авторскими комментариями.
  2. Python и машинное обучение.
    Авторы: Себастьян Рашка.
    Описание: Машинное обучение и прогнозная аналитика преобразуют традиционную схему функционирования предприятий и других организаций. Эта книга предоставит вам доступ в мир прогнозной аналитики и продемонстрирует, почему Python является одним из ведущих языков науки о данных. Если вы хотите глубже и точнее анализировать данные либо нуждаетесь в усовершенствовании и расширении систем машинного обучения, эта книга окажет вам неоценимую помощь. Ознакомившись с широким кругом мощных программных библиотек Python, в том числе scikit-learn, Theano и Keras, а также получив советы по всем вопросам начиная с анализа мнений и заканчивая нейронными сетями, вы сможете принять важные решения, во многом определяющие деятельность вашей организации.
  3. Машинное обучение.
    Авторы: Хенрик Бринк, Джозеф Ричардс, Марк Феверолф.
    Описание: Данная книга рассчитана на тех, кто хочет решать самые разнообразные задачи при помощи машинного обучения. Как правило, для этого нужен Python, поэтому в примерах кода используется этот язык, а также библиотеки pandas и scikit-learn. Вы познакомитесь с основными понятиями ML, такими как сбор данных, моделирование, классификация и регрессия, а главное, получите практический опыт обработки реальных данных.
  4. Алгоритмы интеллектуального Интернета. Передовые методики сбора, анализа и обработки данных.
    Авторы: Хараламбос Марманис, Дмитрий Бабенко.
    Описание: В книге рассматриваются пять важных категорий алгоритмов: поиск, выработка рекомендаций, создание групп, классификация и ансамбли классификаторов. Исходный код написан на языке Java, тем не менее программистам, знающим другой объектно-ориентированный язык, вполне по силам разобраться в этом коде и использовать общие принципы с учетом своей специфики. Материал в равной степени применим к различным приложениям – от утилит мобильной связи до традиционных настольных приложений.
  5. Построение систем машинного обучения на языке Python.
    Авторы: Ричарт В., Коэльо П.Л.
    Описание: Книга рассчитана на программистов, пишущих на Python и желающих узнать о построении систем машинного обучения с помощью библиотек с открытым исходным кодом. Мы рассматриваем основные модели машинного обучения на примерах, взятых из реальной жизни. Эта книга будет полезна также специалистам по машинному обучению, желающим использовать Python для создания своих систем.
  6. Введение в машинное обучение с помощью Python. Руководство для специалистов по работе с данными.
    Авторы: Андреас Мюллер, Сара Гвидо.
    Описание: Машинное обучение стало неотъемлемой частью различных коммерческих и исследовательских проектов, однако эта область не является прерогативой больших компаний с мощными аналитическими командами. Даже если вы еще новичок в использовании Python, эта книга познакомит вас с практическими способами построения систем машинного обучения. При всем многообразии данных, доступных на сегодняшний день, применение машинного обучения ограничивается лишь вашим воображением. Вы изучите этапы, необходимые для создания успешного приложения на базе машинного обучения, используя Python и библиотеку scikit-learn. Авторы Андреас Мюллер и Сара Гидо сосредоточили свое внимание на практических аспектах применения алгоритмов машинного обучения. Знание библиотек NumPy и matplotlib позволит вам извлечь из этой книги еще больше полезной информации.
  7. Основы Data Science и Big Data. Python и наука о данных.
    Авторы: Дэви Силен, Арно Мейсман.
    Описание: Каждая из глав этой книги посвящена одному из самых интересных аспектов анализа и обработки данных. Вы начнете с теоретических основ, затем перейдете к алгоритмам машинного обучения, работе с огромными массивами данных, NoSQL, потоковым данным, глубокому анализу текстов и визуализации информации. В многочисленных практических примерах использованы сценарии Python. Обработка и анализ данных - одна из самых горячих областей IT, где постоянно требуются разработчики, которым по плечу проекты любого уровня, от социальных сетей до обучаемых систем.
  8. Введение в информационный поиск.
    Авторы: Кристофер Д. Маннинг, Прабхакар Рагхаван.
    Описание: Учебник написан с точки зрения информатики и содержит современное изложение всех аспектов проектирования и реализации систем сбора, индексирования и поиска документов, методов оценки таких систем, а также введение в методы машинного обучения на базе коллекций текстов. Несмотря на то, что учебник задуман как вводный курс по информационному поиску, он будет интересен исследователям и профессионалам.
  9. Анализ больших наборов данных.
    Авторы: Юре Лесковец, Ананд Раджараман.
    Описание: В книге описываются алгоритмы, которые реально использовались для решения важнейших задач добычи данных и могут быть с успехом применены даже к очень большим наборам данных. Изложение начинается с рассмотрения технологии MapReduce – важного средства распараллеливания алгоритмов. Излагаются алгоритмы хэширования с учетом близости и потоковой обработки данных, которые поступают слишком быстро для тщательного анализа. В последующих главах рассматривается идея показателя PageRank, нахождение частых предметных наборов и кластеризация.
  10. Глубокое обучение.
    Авторы: Гудфеллоу Я., Бенджио И., Курвилль А.
    Описание: В книге описаны: основы прикладной математики и машинного обучения, теория вероятности и теория информации, оценка максимального правдоподобия, современные подходы к глубоким сетям, регуляризация в глубоком обучении, оптимизация в обучении глубоких моделей, моделирование последовательностей, исследования по глубокому обучению, структурные вероятностные модели в глубоком обучении.
  11. Руководство по интеллектуальному анализу текста: передовые подходы к анализу неструктурированных данных. Издательство Кембриджского университета.
    Авторы: Фельдман Р. и Джеймс Сэнгер Дж.
    Описание: Интеллектуальный анализ текста — это новая и захватывающая область исследований в области компьютерных наук, которая пытается решить кризис информационной перегрузки, сочетая методы интеллектуального анализа данных, машинного обучения, обработки естественного языка, поиска информации и управления знаниями. Точно так же обнаружение ссылок — быстро развивающийся подход к анализу текста, который использует многие ключевые элементы интеллектуального анализа текста и опирается на них — также предоставляет людям новые инструменты для более эффективного использования своих растущих ресурсов текстовых данных. Справочник по интеллектуальному анализу текста представляет собой всестороннее обсуждение современного состояния интеллектуального анализа текста и обнаружения ссылок. Помимо подробного изучения алгоритмов и операций извлечения основного текста и обнаружения ссылок, в книге рассматриваются передовые методы предварительной обработки, аспекты представления знаний и подходы к визуализации. Наконец, в книге рассматриваются актуальные и критически важные приложения анализа текста и обнаружения ссылок в таких различных областях, как бизнес-аналитика в области слияний и поглощений, исследования в области геномики и борьба с терроризмом.
  12. Интеллектуальный анализ текста: классификация, кластеризация и приложения.
    Авторы: Шривастава А.Н., Сахами М.
    Описание: Книга начинается с глав о классификации документов по предопределенным категориям. В нем представлены современные алгоритмы и их практическое применение. В следующих главах описываются новые методы кластеризации документов в группы, которые не определены заранее. Эти методы направлены на автоматическое определение тематических структур, которые могут существовать в корпусе документов. Книга завершается обсуждением различных приложений для анализа текста, которые имеют большое значение для будущих исследований и промышленного использования.
  13. Интеллектуальный анализ текста: методы прогнозирования для анализа неструктурированной информации.
    Авторы: Вайс С.М., Индурхья Н., Чжан Т. и Дамерау Ф.
    Описание: Подчеркивая методы прогнозирования, книга объединяет все ключевые области интеллектуального анализа текста: предварительную обработку, категоризацию текста, поиск и извлечение информации, кластеризацию документов и извлечение информации. Кроме того, он определяет новые направления для тех, кто хочет проводить исследования в этой области. Некоторый опыт в области интеллектуального анализа данных полезен, но не обязателен.
  14. Основы статистической обработки естественного языка.
    Авторы: Мэннинг, С.
    Описание: Статистические подходы к обработке текста на естественном языке в последние годы стали доминирующими. Этот основополагающий текст является первым всесторонним введением в статистическую обработку естественного языка (NLP). Книга содержит всю теорию и алгоритмы, необходимые для создания инструментов НЛП. Он обеспечивает широкий, но строгий охват математических и лингвистических основ, а также подробное обсуждение статистических методов, что позволяет студентам и исследователям создавать свои собственные реализации. Книга охватывает поиск словосочетаний, устранение неоднозначности смысла слов, вероятностный анализ, поиск информации и другие приложения.

Специализированные сайты и порталы

  1. Хабр
    Описание: Самый массовый IT-портал русскоязычного интернета. Представляет собой гибрид новостного сайта и коллективного блога.
  2. StackOverflow
    Описание: Самый популярный сервис ответов на вопросы и обмена знаниями между энтузиастами и профессионалами в отрасли IT.
  3. CyberForum
    Описание: Форум программистов и системных администраторов. Бесплатная помощь в решении задач по программированию, математике, физике и другим наукам, решение проблем с компьютером, операционными системами.
  4. CodeNet
    Описание: Ресурс для разработчиков, содержащий большое количестов материалов по разным языкам и технологиям.
  5. CIT-форум
    Описание: Крупнейший архив научной и практической информации по всем направлениям компьютерных наук.
  6. Reddit
    Описание: Сообщество сообществ, которое называется sub-reddits. Данный подредит может быть сайтом вопросов и ответов, сайтом обмена ссылками или (как правило) их сочетанием.
  7. Quora
    Описание: Сайт вопросов и ответов, который разделен на темы, во многом похожий на reddit, но только на вопросы и ответы. Вопросы, как правило, хорошие, а ответы качественные. В отличие от сайтов обмена стека, они, как правило, менее технические, менее проблемные и более мясистые.
  8. Kaggle
    Описание: Обсуждайте темы платформы Kaggle и машинного обучения, включая обмен отзывами, вопросы и многое другое.
  9. Википедия
    Описание: Форум программистов и системных администраторов. Бесплатная помощь в решении задач по программированию, математике, физике и другим наукам, решение проблем с компьютером, операционными системами.
  10. НОУ ИНТУИТ
    Описание: Образовательный проект, главными целями которого являются свободное распространение знаний во Всемирной Сети и предоставление услуг дистанционного обучения. На сайте проекта представлены в открытом и бесплатном доступе большое количество учебных курсов по тематикам компьютерных наук, информационных технологий, математике, физике, экономике, менеджменту и другим областям современных знаний.
  11. disserCat
    Описание: Научная электронная библиотека диссертаций и авторефератов.
  12. Научная электронная библиотека КиберЛенинка
    Описание: КиберЛенинка — это научная электронная библиотека, построенная на парадигме открытой науки (Open Science), основными задачами которой является популяризация науки и научной деятельности, общественный контроль качества научных публикаций, развитие междисциплинарных исследований, современного института научной рецензии и повышение цитируемости российской науки.
  13. Google-Академия
    Описание: Поиск научных работ. Индексируются онлайн-хранилища университетов, библиотек и других ресурсов. Цель – обеспечить доступ к научным знаниям со всего мира из любой точки планеты.
  14. Datasides
    Описание: Ресурс для людей, увлеченных созданием более разумного мира путем извлечения ценности из данных.

Технический инструментарий и вспомогательные пакеты

  1. PyCharm
    Описание: IDE для профессиональной разработки на Python.https://www.jetbrains.com/ru-ru/pycharm/
  2. Visual Studio Code
    Описание: Редактор исходного кода, разработанный Microsoft для Windows, Linux и macOS. Позиционируется как «лёгкий» редактор кода для кроссплатформенной разработки веб- и облачных приложений.
  3. PIP
    Описание: Установщик пакетов для Python. Вы можете использовать pip для установки пакетов из индекса пакетов Python и других индексов.
  4. Pandas
    Описание: Пакет Python с открытым исходным кодом, который предоставляет высокоэффективные, простые в использовании структуры данных и инструменты анализа для помеченных данных на языке программирования Python. Pandas расшифровывается как библиотека анализа данных Python.
  5. NumPy
    Описание: Один из самых фундаментальных пакетов в Python - универсальный пакет для обработки массивов. Он предоставляет высокопроизводительные объекты многомерных массивов и инструменты для работы с массивами. NumPy - это эффективный контейнер универсальных многомерных данных.
  6. SciPy
    Описание: Библиотека SciPy является одним из ключевых пакетов, которые составляют стек SciPy. Теперь есть разница между SciPy Stack и библиотекой SciPy.
  7. Matplotlib
    Описание: Библиотека Python, предоставляющая API для встраивания графиков в приложения. Очень напоминает MATLAB, встроенный в язык программирования Python.
  8. Seaborn
    Описание: Исходя из официальной документации по Seaborn, она определяется как библиотека визуализации данных на основе Matplotlib, предоставляющем высокоуровневый интерфейс для изображения интересных и информативных статистических графиков. Проще говоря, seaborn - это расширение Matplotlib с дополнительными возможностями.
  9. Scikit Learn
    Описание: Scikit-learn предоставляет ряд контролируемых и неконтролируемых алгоритмов обучения через согласованный интерфейс в Python. Scikit learn будет вашим руководством для того, чтобы модели контролируемого обучения, такие как Naive Bayes, группировали непомеченные данные, такие как KMeans.
  10. Statsmodels
    Описание: Statsmodels - это универсальный пакет Python, который обеспечивает простые вычисления для описательной статистики и оценки и формирования статистических моделей.
  11. SpaСy
    Описание: SpaCy - это библиотека с открытым исходным кодом, используемая для продвинутого NLP для Python и Cython.
  12. NLTK
    Описание: NLTK (Natural Language Toolkit) в основном работает с человеческим языком, а не с компьютерным, чтобы применять обработку естественного языка (NLP). Он содержит библиотеки обработки текста, с помощью которых вы можете выполнять токенизацию, парсинг, классификацию, выделение, тегирование и семантическое обоснование данных. На основе функционала этой библиотеки может показаться, что она повторяется, но каждая библиотека в Python была написана для повышения некоторой эффективности.

YouTube каналы посвященные теме анализа данных, машинного обучения, обработки текста и разработке

  1. freeCodeCamp.org
    Описание: Изучение разработки на разных языках и в разных отраслях.
  2. CS Dojo
    Описание: Канал посвященный разработки и компьютерным наукам.
  3. Luke Barousse
    Описание: Канал посвященный анализу данных.
  4. ZProger [ IT ]
    Описание: Канал посвящен видео о разных IT технологиях, разбираем интересные программы и пишем их на практике, также есть видео с защитой информации и программ. Также на канале вы сможете найти Python уроки, обзор Python библиотек и других интересных технологий.
  5. Coding Tech
    Описание: Канал, созданный для обзора технологий и алгоритмов связанных с ML и DL. Список конференций, которые предоставили Coding Tech ЯВНЫЕ письменные разрешения на публикацию: PyData, MLConf, Build Stuff, Code::dive, PolyConf, AmsterdamJS, React Amsterdam, ReactiveConf, Jazoon Tech Days, SFNode, CppCon, Infinite Red, GDG Lviv, Mibuso.com, You Gotta Love Frontend, React Native EU, Node Summit, NodeConfEU, ConFoo, Pixels Camp, JavaScriptLA, The Linux Foundation, Oredev Conference, Techlahoma, fitcevents.
  6. Intellipaat
    Описание: Глобальный онлайн-провайдер профессионального обучения. Канал, который предлагает одни из самых современных, разработанных в отрасли сертификационных учебных программ, которые включают курсы по большим данным, науке о данных, искусственному интеллекту и 150 другим популярным технологиям.
  7. PyOhio
    Описание: Контент с PyOhio, ежегодной бесплатной конференции сообщества Python, которая проходит в Колумбусе, штат Огайо.