Ссылки по теме выпускной работы

Материалы магистров ДонНТУ

Лащенко К.С. Разработка программного обеспечения для распознавания печатного текста дореволюционной русской орфографии
Описание: Персональный сайт на портале магистров ДонНТУ, 2017 г.

Руководитель: доц. Кравец Татьяна Николаевна
Заплетин Е. А. Исследование алгоритмов выявления взаимосвязей в больших массивах данных с помощью технологий Big Data
Описание: Персональный сайт на портале магистров ДонНТУ, 2015 г.

Руководитель: к.т.н., доц. Григорьев Александр Владимирович
Кисниченко Е. А. Разработка и исследование алгоритма формирования семантического ядра веб-сайта на основе методов Data Mining
Описание: Персональный сайт на портале магистров ДонНТУ, 2014 г.

Руководитель: д.ф.-м.н., проф. Шелепов Владислав Юрьевич
Трегубова Ю. А. Исследование метода тематически ориентированной классификации результатов поиска в Интернет
Описание: Персональный сайт на портале магистров ДонНТУ, 2014 г.

Руководитель: к.т.н., доц. Вороной Сергей Михайлович
Моховых В. В. Анализ и разработка лингвистических алгоритмов выявления синтаксических групп в английском предложении
Описание: Персональный сайт на портале магистров ДонНТУ, 2014 г.

Руководитель: к.т.н., доц. Ермоленко Татьяна Владимировна
Cтуликова Н. В. Разработка и исследование алгоритма автоматического реферирования текстов на основе нечеткой логики
Описание: Персональный сайт на портале магистров ДонНТУ, 2014 г.

Руководитель: к.ф-м.н., доц. Пряничникова Елена Алексеевна
Леонов А. Д. Методы автоматизированной коррекции специализированных естественно-языковых текстов
Описание: Персональный сайт на портале магистров ДонНТУ, 2014 г.

Руководитель: к.т.н., доц. Бабаков Роман Маркович
Прокапович А. А. Разработка алгоритмического обеспечения интеллектуального модуля анализа эмоционального содержания естественно языковых сообщений блогов и форумов
Описание: Персональный сайт на портале магистров ДонНТУ, 2014 г.

Руководитель: к.т.н., доц. Егошина Анна Анатольевна

Научные работы и статьи

Научно-образовательный материал «Технология информационного поиска»
Авторы: Астрахов А.В.

Описание: В рамках данной работы были рассмотрены основные положения теории информационного поиска, принципы построения информационно-поисковых систем и их функционирования. Была разработана структура информационно-поисковой системы.
Сегментация текcта в проекте Открытый корпуc
Авторы: Бочаров В. В., Алексеева С. В., Грановский Д. В., Остапук Н. А., Степанова М. Е., Суриков А. В.

Описание: В настоящей статье рассмотрена задача сегментации текста, включая требования к её решению и место этого решения в системе автоматической обработки текста, правила сегментации текста при создании обучающей выборки, процедуру и результаты машинного обучения.
Алгоритмы и программы автоматической обработки текста
Авторы: Яцко В.А.

Описание: В статье даётся обзор наиболее распространённых алгоритмов и программ автоматической обработки текста. Описываются особенности алгоритмов и программ, применяемых на морфологическом, лексическом, синтаксическом и дискурсивном уровнях языковой системы.
Предварительная обработка строк при критическом коэффициенте джаккарда для улучшения вычисления схожести вебдокумента
Авторы: Неелова Н. В.

Описание: В данной статье рассматривается вопрос детектирования дубликатов поисковыми машинами. Выделяются основные преимущества алгоритма Джаккарда, который лучше других подходит для реализации системы online фильтрации дубликатов веб-документов в промышленных масштабах, предложены спосоды его усовершенствования. Исследована эффективность разработанной модели. Сделано заключение об улучшении полноты результатов вычисления схожести строк с возможностью сохранения высокой скорости обработки.
Высокоточный метод распознавания концов предложений
Авторы: Кудинов А. С., Воропаев А. А., Калинин А. Л.

Описание: В статье описывается метод применения машинного обучения в задаче распознавания концов предложений. Предлагаемый способ успешно решает проблему идентификации знаков препинания, таких как точка и др., которые не являются знаками конца предложения. Несмотря на сравнительно небольшой объем обучающей выборки, подготовленной вручную, способ демонстрирует точность не менее 99 % на среднестатистическом web-документе.
Обзор методов повышения эффективности поисковых систем. Исследование алгоритма стемминга
Авторы: Безуглый Е.Н., Аноприенко А.Я.

Описание: В статье рассмотрены три метода формирования поисковых запросов: словарный, алгоритм стемминга, использование тезауруса. Описывается опыт проведения индексирования набора документов с применением алгоритма стемминга и без него, сформированы выводы на основании полученных результатов.
Обзор современных лингвистических технологий и систем
Авторы: Якубовский К.И., Якубовская К.А.

Описание: В работе рассмотрены уровни представления анализа текста. Проведена сравнительная характеристика программ для автоматизации обработки текста, выявлены основные группы программ: компьютерные программы для синтаксического и морфологического анализа русскоязычных текстов; компьютерные программы для представления о частоте выявленных лексических единиц; системы, позволяющие собирать данные для определения стиля и степени оригинальности текстов.
Обработка текстовых документов и эволюция автоматизированных систем проектирования
Авторы: Котельникова Ю. Е.

Описание: Исследованы системы обработки текстовой информации, рассмотрены проблемы анализа текстов в производственных задачах.
Экспериментально- вычислительные исследования художественной прозы Н.В. Гоголя
Авторы: Ягунова Е.В., Пивоварова Л.М.

Описание: В статье представлены результаты анализа семантической и информационной структур, где первая в наибольшей степени соотносится со стилем (характерном для писателя, цикла, произведения), а вторая – с содержанием произведения и/или цикла.
Введение в информационный поиск
Авторы: Маннинг К., Рагван П., Шютце Х.

Описание: Введение в информационный поиск - это первый учебник, который содержит взаимосвязанное изложение проблем классического информационного поиска и поиска в вебе, включая смежные задачи классификации и кластеризации текстов.
Интернетика: Навигация в сложных сетях: модели и алгоритмы.
Авторы: Ландэ Д.В., Снарский А.А., Безсуднов И.В.

Описание: В книге рассматриваются вопросы, относящиеся к информационной структуре веб-пространства, теории сложных сетей, моделям информационного поиска и глубинного анализа текстов, общим закономерностям современных информационных потоков и их моделированию.
Автоматическая обработка текстов на естественном языке и компьютерная лингвистика
Авторы: Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В.

Описание: Рассматриваются базовые вопросы компьютерной лингвистики: от теории лингвистического и математического моделирования до вариантов технологических решений. Дается лингвистическая интерпретация основных лингвистических объектов и единиц анализа. Приведены сведения, необходимые для создания отдельных подсистем, отвечающих за анализ текстов на естественном языке. Рассматриваются вопросы построения систем классификации и кластеризации текстовых данных, основы фрактальной теории текстовой информации.
Гибридный алгоритм классификации текстовых документов на основе анализа внутренней связности текста
Авторы: Красников И.А., Никуличев Н.Н.

Описание: Представлены результаты исследования в области методов классификации плохо структурированных коллекций разнородных документов. Предложен метод и разработан гибридный алгоритм классификации текстовых документов. Выполнена теоретическая оценка сложности предложенного метода и произведено экспериментальное исследование.

Техническая и справочная литература
Основные технологии text mining
В статье описаны основные случаи применения технологии text mining, даны основные понятия, используемые в процессе обработки информации.
Стемминг
Дано понятие стемминга, рассмотрены все разновидности алгоритмов стемминга, описаны существующие стеммеры и сферы применения данного алгоритма.
Парсим русский язык
В статье описываются основные этапы обработки текста на русском языке и дальнейшая обработка с целью выявления синтаксической структуры текста. Представлены фрагменты программного кода на языке Java, описан этап обучения системы, приведена ссылка на демо-версию полученного парсера.
Методы предварительной обработки текста
Изложены основные понятия и этапы обработки текста, задачи Text Mining и аннотирования текстов.
Автоматическая обработка текстов на естественном языке и компьютерная лингвистика
Рассматриваются базовые вопросы компьютерной лингвистики: от теории лингвистического и математического моделирования до вариантов технологических решений. Рассматриваются вопросы построения систем классификации и кластеризации текстовых данных, основы фрактальной теории текстовой информации.
Алгоритм LSA для поиска похожих документов
Описан алгоритм работы LSA, представлены примеры его использования, проанализированы преимущества и недостатки метода алгоритма для поиска похожих документов.
Алгоритмы интеллектуальной обработки больших объемов данных (Курс лекций).
В курсе изучаются подходы к решению задач Data Mining, основанных на алгоритмах машинного обучения.

Специализированные сайты и порталы

Stack Overflow
Stack Overflow — сайт вопросов и ответов для программистов
Habr
Habr - русскоязычный веб-сайт в формате коллективного блога с элементами новостного сайта, созданный для публикации новостей, аналитических статей, мыслей, связанных с информационными технологиями, бизнесом и интернетом.
КиберЛенинка
КиберЛенинка - научная электронная библиотека, построенная на парадигме открытой науки, основными задачами которой является популяризация науки и научной деятельности, общественный контроль качества научных публикаций, развитие междисциплинарных исследований, современного института научной рецензии, повышение цитируемости российской науки и построение инфраструктуры знаний.
Github
Github - крупнейший веб-сервис для хостинга IT-проектов и их совместной разработки.
Nlpub
Nlpub - база знаний и сообщество специалистов по русскоязычной компьютерной лингвистике.
Электронная библиотека RoyalLib.com
RoyalLib.com - электронная библиотека литературы. Книги сгруппированы по жанрам и авторам, доступны для скачивания в разных форматах.
StatSoft
StatSoft - компания-разработчик статистического и аналитического программного обеспечения (например, STATISTICA). На сайте представлены статьи и доклады, мастер-классы и вебинары, посвященные различным направлениям разработки.

Описание проектов с открытым кодом, касающихся обработки текстовой информации

Porter stemmer in Java (Java)
Приведен листинг программы, реализующий стемминг слов английского языка.
Стеммер Портера для русского языка (Python 3)
Описаны основные принципы работы стеммера слов русского языка, приведен листинг программного кода стеммера и тестовые примеры.
Алгоритм Стеммер Портера для русского языка на C++ (CPP)
Приведен листинг программы, реализующий стемминг слов русского языка.
Mystem - морфологический анализатор русского языка.
Описаны основные аспекты работы анализатора Mystem, описаны этапы установки программы, случаи использования библиотек от Mystem в разных языках программирования.
lingpipe-3.6.0 – библиотека для лексической обработки текстов на китайском языке (Java)
Представлен программный код системы, которая имеет множество полезных функций, включая классификацию объектов, распознавание имен, проверку орфографии, кластеризацию, возможности моделирования символов, сегментации китайского слова, эмоциональный анализ, идентификация языка и прочее.
Описание класса ChunkerME
Представлен программный код класса для обработки текста, его описание и примеры и спользования. Класс представляет собой чанкер на основе максимальной энтропии. Такой класс можно использовать для поиска словосочетаний в оследовательности слов, таких как фразы-существительные или названия сущностей.
Борисов Е. Автоматизированная обработка текстов на естественном языке, с использованием инструментов языка Python
В этой статье автор пишет о методах классификации и кластеризации текстов на естественном (русском) языке, рассматривает примеры реализаций решений этих задач на языке Python с помощью библиотеки Scikit-learn.

Литература, посвященная особенностям жанров и обработке литературных произведений

Основные жанровые признаки детективной прозы
Авторы: Байко В.А.

В статье рассматриваются современные подходы к определению речевого жанра в лингвистике. В статье выделяются жанровые категории детективной прозы с позиции коммуникативного подхода и дается внутрижанровая классификация детективных текстов на основе доминирующего признака.
Об автоматизации извлечения знаний из информационных ресурсов на основе онтологии предметной области
Авторы: Серебровский А.Н.

Предлагается подход к созданию технологии извлечения знаний из текстовых информационных ресурсов. Подход основывается на онтологии предметной области и семантической разметке исходных текстов с использованием метаданных.
Использование интеллектуальных алгоритмов для обработки текстовой информации
Авторы: Энгель Е. А.

В статье описано создание программного модуля, включающего в себя интеллектуальные алгоритмы автоматического определения жанра текста.
Классификация текстовых документов. Уменьшение размерности задачи и повышение производительности
Авторы: Федотов Р. Г.

В данной статье рассматривается понятие классификации и основные направление, где она используется. Так же автор описывает основные способы предварительной обработки текстовых документов, для уменьшения размерности задачи классификации и повышение производительности систем, такие как стемминг, лемматизация, стоп-слова.
Коммуникативная грамматика русского языка
Авторы: Золотова Г.А., Онипенко Н.К., Сидорова М.Ю.

Книга представляет читателю — филологам, гуманитариям, педагогам, обучающим и обучающимся — новый опыт современного осмысления грамматического строя русского языка. Как средство осуществления коммуникативной деятельности человека в высшей речевой форме — текстах. Нетрадиционный подход к грамматике позволил увидеть ряд новых закономерностей в организации смысла высказываний.
Использование методов тематического моделирования многоязычных коллекций для прогноза тревожных событий
Авторы:Шарнин, М. М., Ищенко, Н. С., Пахмутова Н.Ю., Сюракшина Ю.В.

В статье изложены результаты практического применения методов тематического моделирования в мультиязыковых средах для мониторинга экстремистской активности в Интернете и прогноза тревожных событий. При работе с двумя корпусами текстов, содержащих экстремистскую идеологию радикальных мусульман и украинских националистов, подбираются оптимальные параметры для метода неявных ссылок, рассчитывается мера подобия корпусов текста, определяется общая и специфическая характерная терминологии двух корпусов текстов. Выделение нескольких категорий терминов по степени ожесточенности позволяет определить этапы роста и спада интереса к теме, прогнозировать будущие этапы, и тем самым тревожные события в реальности.
Анализ применимости метода N-грамм в задаче определения стиля текста
Авторы:Тарасенко Е. В., Рязанова Н. Ю.

В статье было исследовано применение метода N-грамм в задаче определения стиля текста. В результате проведенного анализа было установлено, что данный метод возможно использовать для классификации текстов по трем группам стилей, объединив в одну группу публицистический и научный стили, в другую —разговорный и художественный, в третью —официально-деловой.
Ключевые слова в исследовании текстов Н.В. Гоголя
Авторы:Ягунова Е.В.

Описание: В статье кратко показаны основные различия информационных структур в зависимости от выбора одной из трех коллекций (Петербургские повести, Мертвые души и украинская тематика). На материале «Мертвых душ» представлена иллюстрация возможностей использования формальных признаков (видов распределения в тексте) и варианта классификации типов ключевых слов (прежде всего, действующих лиц).

Сторожук Наталья Олеговна

Факультет компьютерных наук и технологий

Кафедра программной инженерии

Специальность «Программная инженерия»

Исследование методов и алгоритмов определения жанра литературных произведений на основе технологии Text Mining

Научный руководитель: к.ф-м.н., доц. Сквоцов Анатолий Ефремович

Консультант: ст. пр. Коломойцева Ирина Александровна

Ссылки по теме выпускной работы

Материалы магистров ДонНТУ

Научные работы и статьи

Техническая и справочная литература

Специализированные сайты и порталы

Описание проектов с открытым кодом, касающихся обработки текстовой информации

Литература, посвященная особенностям жанров и обработке литературных произведений