Українська English
ДонНТУ Портал магистров

Реферат по теме выпускной работы

Содержание

Введение

За последние несколько лет количество информации в мире возросло. Каждый день появляется больше и больше информации (Рисунок 1). Для хранения информации используют различные средства: книги, журналы, сеть Интернет. Для нахождения полезной информации из такого огромного количества источников необходимо её сортировать, изучать.

На сегодняшний день не всегда есть время для того, чтобы её отсортировать, выбрать ту, которая действительно важна. Для таких целей можно использовать компьютеры в качестве детекторов характеристик информации: тональность текста, объём, степень уникальности и так далее. В магистерской работе предлагается разработать приложение на C# для определения тональности текста средствами Text Mining, модернизируя при этом стандартные алгоритмы, а также дополняя алгоритм механизмами для определения других характеристик текста, например, ошибок.

Рисунок 1 – Рост количества информации
Рисунок 1 – Рост количества информации[1]

1. Актуальность темы

Данная тема является актуальной задачей, так как далеко не все средства Text Mining умеют определять тональность текста, а также и некоторые другие характеристики текста одновременно. Более того, средств по определению тональности текста почти нет.

Правильное определение тональности текста позволяет оградить пользователя от прочтения литературы, которая является депрессивно настроенной, что приведёт к испорченному настроению.

2. Цель и задачи исследования, планируемые результаты

Целью исследования является:

Основные задачи исследования:

  1. изучение существующих средств для извлечение характеристик из текста;
  2. изучение алгоритмов для работы с Text Mining по определению тональности;
  3. создание собственного алгоритма определения тональности текста;
  4. создание программы на языке C# для определения тональности и некоторых других характеристик текста.

Объект исследования: Определение тональности текста.

Предмет исследования: Эффективность методов определения тональности текста.

В рамках магистерской работы планируется получение актуальных научных результатов по следующим направлениям:

Для экспериментальной оценки полученных теоретических результатов и формирования фундамента последующих исследований, в качестве практических результатов планируется разработка настраиваемой и функциональной системы по определению некоторых характеристик текста:

Планируется, что данная система будет иметь:

3. Обзор исследований и разработок

Рассмотрим основные понятия, которые необходимо понимать для определения тональности текста, следом рассмотрим два подхода (алгоритма) для определения тональности текста, рассмотрим средства, которые используют алгоритмы Text Mining.

3.1 Text Mining

Text Mining – это направление в искусственном интеллекте, целью которого является получение информации из коллекций текстовых документов, которые являются практическими на практике с точки зрения машинного обучения и обработки естественного языка [2].

Ключевыми группами задач являются:

Важно понимать, что такое категоризация документов.

Категоризация документов – это выбор документов из одного или несколько групп (класс, кластер) с похожими текстами (например, по теме или стилю). Категоризация может происходить как с участием человека, так и без него.

В первом случае, если говорить о классификационных документах, система должна классифицировать документы уже по определенным классам. Так что пользователь должен предоставить системе все классы и образцы документов, принадлежащие к этим классам [3].

Второй случай категоризации называется кластеризацией документов. А также сама система должна определять набор кластеров, которым требуется учить без учителя. В этом случае пользователь должен сообщить количество кластерных систем, которые следует использовать для сбора атрибуты процесса [4].

Text Mining применяется во многих областях науки каждый день. появляются новые возможности. Как минимум, Text Mining используется в область безопасности и помогает анализировать текст новостных сайтов, а в программное обеспечение исследует технологии анализа текста, чтобы будущая автоматизация процессов анализа и извлечения данных. Также Text Mining можно использовать в коммерческих целях [5].

Основные этапы Text Mining (Рисунок 2):

  1. поиск информации;
  2. предварительная обработка документов;
  3. извлечение информации;
  4. применение методов Text Mining;
  5. интерпретация результатов [6].

Рисунок 2 – Этапы Text Mining
Рисунок 2 – Этапы Text Mining [6]

3.2 Обзор алгоритмов

Тональность – это эмоциональное отношение автора высказывания к любой объект, выраженный в тексте. Этот объект может быть объект реального мира, процесс, свойство, атрибут, событие [7].

Тональный анализ текста – это класс методов контент-анализа (анализа данных) в компьютерной (вычислительной) лингвистике, предназначенных для автоматического поиска в текстах эмоционально окрашенной лексики и мнения авторов относительно объекта, которые обсуждаются в тексте [8].

Основными задачами анализа тональности являются:

Оценку тональности можно задавать к примеру, в процентах (%).

Таким образом тональность может быть:

Так же может быть:

Выбор варианта оценки зависит от реализации. Во втором случае все негативные слова и предложения будут отнимать общую оценку текста, позитивные добавлять, а нейтральные ничего не менять.

Существует множество методов определения тональности текста, существует много библиотек для различных языков программирования. Все методы и библиотеки имеют свои преимущества и недостатки.

Рассмотрим простой пример работы данной модели для понимания.

Допустим, мы имеем предложение:

Много людей в этом зале. Я тоже в зале. Я огорчён.

Теперь, игнорируя знаки препинания и регистр (данные шаги должна выполнять библиотека), следом проведя лингвистическую обработку текста, мы можем выявить с предложения множество слов:

M1 (массив) = [много, люд, в, этом, зал, я, тоже, в, зал, я, огорчиться];

Также иногда есть смысл убрать слова, ничего не значащие в языке, например, английское слово the, так как они не влияют на оценку.

Следующим шагом необходимо посчитать количество вхождений одинаковых слов в предложении (таким образом мы упростим скорость работы программы: не будет необходимости запоминать каждое слово отдельно, хотя иногда это и может привести к новым результатам при изменённой реализации). Представим результат этого шага в виде формата JSON:

V1 (вектор) = {много:1, люд:1, в:2, этом:1, зал:2, я:2, тоже:1, огорчиться};

Как видно, слова в векторе (массиве) – это уникальные слова текста, который анализируется. Поэтому данный вектор можно назвать словарём (в него помещаются только уникальные значения, но с учётом количества). Говоря языком множеств, вектор текста будет равен объединению (суммой) векторов предложений, но с учётом количества (кратности).

Данная модель используется в основном для извлечения (parsing) информации из текста. После этого этапа есть несколько вариантов того, что можно узнать о тексте. Например, самым простым вариантом является извлечения самого встречающегося слова или, к примеру, определение процента водности текста, но нас интересует на данный момент определение тональности.

Следующим шагом для определения тональности нам необходимо использовать (подключить к системе) словари, в которых будут содержаться оценки тональности для большинства слов, в нашем случае русских. Именно от словаря и зависит как именно стоит интерпретировать оценку тональности. В большинстве случаев словари также содержат не только оценку тональности слова, но и другие характеристики для слов. В зависимости от словаря, а также от связи слов в нём применяются различные подходы [9].

3.2.1 Концепция определения тональности с помощью Bag-of-words

Модель Bag-of-words (Мешок слов) – это упрощенное представление, используемое при обработке естественного языка и поиске информации. В этой модели текст (такой как предложение или документ) представлен как мешок (мультимножество) его слов, игнорируя грамматику и даже порядок слов, но сохраняя при этом множественность [10].

Модель обычно используется в методах классификации документов, где частота вхождения каждого слова используется в качестве функции для обучения классификатора.

Часто модель встречается в виде матрицы, в которой строки соответствуют одному тексту, а столбцы – это слова, включенные в него. Все эти слова в соответствующем документе [11].

При данном подходе (методе) словарь представляет из себя слова и оценки тональности к каждому из них.

Например, пускай в нашем подключенном словаре будут оценки тональности у наших слов, представленные в таблице 1.

Таблица 1 – Словарь слов
Слово Оценка тональности
много 0,01
люд 0,01
в 0
этом 0
зал 0
я 0,01
тоже 0,01
огорчиться -0,02

В нашем представленном случае, оценка тональности указывает на сколько процентов увеличивается эмоциональная окраска текста (оценка со знаком + увеличивает общую оценку текст в позитивную часть, а 0 – ничего не меняет в оценке текста, оценка со знаком - ведёт текст к негативной оценке тональности).

После подключения словаря необходимо выполнить сравнения слов и посчитать общую оценку. В нашем случае, если использовать такой словарь, то изначально оценка 0,5 – нейтральная (50%).

Также для простоты в словаре часто у каждого слова есть индекс, их вставляются вместо слов в векторе. Таким образом легче сравнивать слова. Выполняем счёт (0 не считаем):

0,5+0,01+0,01+0,01*2+0,01-0,02=0,5+0,05-0,02=0,5+0,03=0,53.

Таким образом видно, что наш текст является позитивным по тональности. Однако следует также учесть, что данная оценка является не точной (объективной). Для более точной оценки нужны более точные словари. Полный алгоритм с применением Bag-of-words в графическом виде представлен на рисунке 3 [9].

Рисунок 3 – Алгоритм определения тональности с моделью Bag-of-words
Рисунок 3 – Алгоритм определения тональности с моделью Bag-of-words (анимация, обрезка краёв, 10 кадров, 1 кадр в 1,2 секунды, 3 повторения, 0,2 мегапикселя (550х350))

Делая выводы, можно сказать, что модель bag-of-words является достаточно простой моделью для определения характеристик текста.

Преимущества:

Недостатки:

3.2.2 Концепция определения тональности с помощью Word2Vec

Word2Vec – это общее название для набора моделей на основе искусственных нейронных сетей, предназначенных для получения векторных представлений слов на естественном языке. Он используется для анализа семантики естественных языков, основанной на распределительной семантике, машинном обучении и векторном представлении слов [12][13].

Данный подход подразумевает наличие не просто слов и оценок к ним, а ещё и семантических связей между словами. Семантически одинаковые слова образуют семантические группы и сравнение выполняется между группой и словом из текста. Например, слова животные и звери семантически одинаковы и принадлежат одной группе (достоинство алгоритма). Однако здесь же и возникает проблема (недостаток) данного распространённого метода: семантика похожих слов бывает разная. Например, слова тёмный и чёрный в разных предложениях будут иметь как разную, так и одинаковую семантику [14][15].

В нашем случае, данный подход также сравнивает все слова текста, но с группами слов и вычисляет оценку.

3.3 Обзор средств, использующих Text Mining

Существует множество средств для обнаружения (определения) характеристик текста, но не одно из средств не определяет только тональность. Рассмотрим средства, которые умеют определять сразу несколько характеристик текста.

3.3.1 Сервис Text.ru

Данный сервис проверяет текст на уникальность, сравнивая с различными источниками. Уникальность – процент уникального текста, который не совпал с источниками. Также данный сервис позволяет проверить текст на орфографию, выполнить SEO-анализ текста [16].

Преимущества сервиса:

Недостатки:

3.3.2 Сервис Antiplagiat.ru

Данный сервис – это первая система для обнаружения текстовых заимствований. Она предоставляет 2 варианта работы: студентам и организациям. При работе с режимом студент, необходимо зарегистрироваться в системе, куда и будут отправлены результаты проверки [17].

Преимущества:

Недостатки:

3.3.3 Сервис Advego Plagiatus

Сервис предоставляет программу, с помощью которой есть возможность досконально (в полной мере) проверить текст на уникальность. Данный сервис славится тем, что очень долго сканирует текст на плагиат, на выходе пользователь получает качественную оценку (так как проверка была достаточно долгой) [18].

Преимущества:

Недостатки:

3.3.4 Сервис Etxt Антиплагиат

Это программа по поиску плагиата в сети и оценке уникальности текстов. С ее помощью Вы сможете проверить текст на уникальность быстро и эффективно. Позволяет провести подробный анализ уникальности текста и определить оригинальность статьи в процентном соотношении. Показывает неуникальные фразы, выделив их разными цветами и позволяет тут же отредактировать их и отправить текст на повторную проверку. [19].

Достоинства:

Недостатки:

3.4 Обзор исследований на разных уровнях

Рассмотрим исследования, которые проводятся на разных уровнях в данной области (Text Mining (определение характеристик текста), определение тональности текста).

3.4.1 Мировой уровень

Рассмотрим исследования, которые проводятся на мировом уровне в данной области с помощью изучения различных источников (статьи, рефераты, курсовые работы и т.д.).

Например, в статье Moshe Koppel, Jonathan Schler, Kfir Zigdon Determining an Author's Native Language by Mining a Text for Errors рассматривается определение родного языка путём поиска ошибок в тексте. Для решения данной задачи используются средства DataMining. Стилистические особенности текста могут быть использованы для определения родного языка анонимного автора с высокой точностью.

В статье Yuejin Xu, Noah Reynolds Using Text Mining Techniques to Analyze Students’ Written Responses to a Teacher Leadership Dilemma рассматривается методы интеллектуального анализа текста для анализа письменных ответов учащихся на дилемму лидерства учителя. В данной статье также рассматриваются средства Text Mining. Целью этого исследования было проверить точность категорий, созданных IBM SPSS Text Analytics for Surveys.

В статье Bing Liu Sentiment Analysis and Subjectivity рассматриваются взаимосвязи и отличия фактов и мнений. Мнения обычно представляют собой субъективные выражения, которые описывают чувства, оценки или чувства людей по отношению к объектам, событиям и их свойствам. Факты – это объективные выражения о сущностях, событиях и их свойствах.

В статье Bo Pang, Lillian Lee A Sentimental Education: Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts изучается анализ тональности направлен на выявление точки зрения (точек), лежащих в основе диапазона текста. Чтобы определить полярность настроений, предлагается новый метод машинного обучения, который применяет методы категоризации текста только к субъективным частям документа.

В статье Emmanuel Dufourq, Bruce A. Bassett Automated Classification of Text Sentiment рассматривается автоматическое определение тональности с использованием двух новых генетических алгоритмов Genetic Algorithms (GAs). Эти алгоритмы узнают: являются ли слова в тексте тонкими или усиливающими и их соответствующую величину. Этот подход создаёт словарь настроений. Результаты показывают, что предлагаемый подход смог превзойти несколько алгоритмов анализа общественного и / или коммерческого настроения.

В статье Omri Koshorek Adir Cohen Noam Mor Michael Rotman Jonathan Berant Text Segmentation as a Supervised Learning Task формулируется сегментация текста как проблема контролируемого обучения и представляется большой новый набор данных для сегментации текста, который автоматически извлекается и маркируется из Википедии. Более того, мы разрабатывается модель сегментации на основе этого набора данных и показывается, что она хорошо обобщается на невидимый естественный текст.

3.4.2 Национальный уровень

На национальном уровне проводится достаточно много исследований по данной теме для решения различных задач, поэтому можно сказать, что данная задача является достаточно актуальной.

В статье А.С. Романова, М.И. Васильевой, А.В. Куртукова, Р.В. Мещерякова Анализ тональности текста с использованием методов машинного обучения приводятся результаты исследования методики анализа тональности текста с использованием методов машинного обучения, таких как метод опорных векторов, наивный Байесовский классификатор, методы случайных деревьев. Приводится обзор исследований, методов и программных продуктов в области анализа тональности текста, описываются этапы моделирование процесса проведения экспериментов и определения тональности текста, приводятся описания созданных корпусов текстов и словарей, а также полученные результаты исследований.

В статье А.Е. Ермакова, С.Л. Киселева Лингвистическая модель для компьютерного анализа тональности публикаций СМИ освещается опыт практического решения задачи определения тональности текста по отношению к заданному объекту, систематизируются средства, используемые автором текста для формирования тонально окрашенного образа объекта, и строится лингвистическая модель для выделения всех составляющих этого образа, описывается схема оценки тональности позитив/негатив с учетом тех мест, которые занимают в составе пропозиций тональные и нейтральные слова, средства выражения отрицания и инверсии смысла.

В статье А.Г. Пазельской, А.Н. Соловьева Метод определения эмоций в текстах на русском языке рассматриваются методы автоматического определения эмоциональной составляющей (тональности) в тексте и описывается опыт осуществляемой в данный момент практической реализации системы для текстов СМИ на русском языке, в основе которой лежат словари лексической тональности и набор комбинаторных правил объединения отдельных слов и словосочетаний. В работе впервые предложен метод определения тональности, основанный на предикационных отношениях в пропозиции. В связи с этим нами предложена классификация глаголов в зависимости от их эмотивного воздействия и местоположения объекта тональности.

В статье В.В. Осокина, М.В. Шегай Анализ тональности русскоязычного текста в качестве классификатора используется наивный байесовский классификатор. Используются различные методы для отбора признаков, производится сравнение полученных результатов с результатами классификации англоязычного текста.

В статье Открытое тестирование систем анализа тональности на материале русского языка (Н.В. Лукашевич, И.И. Четверкин) описан опыт проведения открытой оценки методов анализа русскоязычных текстов по тональности на базе семинара РОМИП в 2011–2012 годах. В рамках проведения дорожки было создано несколько обучающих коллекций, которые теперь находятся в свободном доступе. Приводится обзор текущего состояния дел в обработке оценочных текстов на русском языке, описание основных задач, характеристик коллекций, а также мер для измерения качества.

В статье Разработка системы анализа тональности текстовой информации (В.В. Гаршина, К.С. Калабухов, В.А. Степанцов, С.В. Смотров) проанализированы подходы для автоматического определения тональности текстовых данных, произведен сравнительный анализ методов и алгоритмов машинного обучения для решения задачи классификации тональности текста, приводится описание разработанного программного обеспечения для выделения тональности текстовых данных, реализующее подход на основе метода машинного обучения с учителем с оптимальным набором параметров для классификации.

В статье Использование синтаксиса для анализа тональности твитов на русском языке (Ю.В. Адаскина, П.В. Паничева, А.М. Попов) Представлен подход к решению задачи анализа тональности в рамках тестирования SentiRuEval – открытого соревнования систем анализа тональности на русском языке. Описанный алгоритм был применен в дорожке по анализу тональности твитов о банках и телекоммуникационных компаниях. Для этих данных была разработана и оценена классификация на три класса: положительный, отрицательный и нейтральный.

В статье Entity Based Sentiment Analysis Using Syntax Patterns and Convolutional Neural Network (Karpov I. A., Kozhevnikov M. V.,Kazorin V. I.,Nemov N. R.) предлагается альтернативный метод извлечения субъективной тональности в текстовых сообщениях, основанный на модифицированном методе, ранее предложенном Мингбо, в котором сначала анализируется синтаксис, а затем сопоставляем тональность с объектом анализа. Показываются два подхода к классификации полярности настроений: шаблоны синтаксических правил и сверточную нейронную сеть (CNN).

В статье Сентимент-анализ текста ( Зверева П. П.) исследуется эмоциональная оценка текста, в частности эмоциональная оценка текстов средств массовой информации. Рассматриваются такие понятия, как медиатекст, медиалингвистика, тональность (сентимент) текста. Проводится сентиментанализ фрагментов печатных статей одного из ведущих изданий США, извлечённых из корпуса методом текстологического анализа и по ключевым словам. Полученные в результате сентимент-анализа данные сравниваются с результатами анкетного опроса, проведённого среди группы респондентов.

В статье Применение сентимент-анализа текстов для оценки общественного мнения (Посевкина Р. В., Бессмертный И. А.) Описывается подход к оценке эмоциональной окрашенности естественно-языковых текстов на основе словарей тональности. Предложен метод автоматической оценки общественного мнения с помощью сентимент-анализа отзывов и обсуждений опубликованных документов в сети Интернет, базирующийся на статистике использованных слов. Разработан исследовательский прототип программной системы, производящей сентимент-анализ естественно-языкового текста на русском языке на основе линейной шкалы.

В работе Анализ тональности текстов на основе ДСМ-метода (Вычегжанин С. В., Котельников Е. В.) рассматривается анализ тональности текста на основе ДСМ-метода. Преимуществом ДСМ-метода по сравнению со статистическими методами является прозрачность и корректность процесса логического вывода, хорошая интерпретируемость генерируемых гипотез, отсутствие необходимости большого числа примеров для обучения.

В работе Анализ тональности текстов с использованием нейросетевых моделей (Нефедова Е. А., Мишенин А.Н.) рассмотрено определение тональности текста с помощью нейронных сетей (нейросетевых моделей).

3.4.3 Локальный уровень

На локальном уровне (в работах магистров) не было найдено такой же задачи (определение тональности текста), однако были найдены работы, в которых изучаются средства Text Mining.

В работе Разработка распределенного поискового робота (Пранскевичус В. А.) изучаются поисковые роботы, их устройство, а также их достоинства и недостатки и предлагается эффективная реализация.

В работе Методы и алгоритмы извлечения структурированных данных из текстов новостей (Сарры Н. А.) предлагается алгоритм для извлечения структурированных данных из новостных средств, приводится актуальность данной задачи, рассматриваются реализации на разных уровнях, а также предлагается реализация алгоритма для извлечения данных из новостей про науку.

В работе Разработка и исследование алгоритмов для повышения эффективности интеллектуального анализа web-контента (Арбузова О. В.) рассматриваются алгоритмы для извлечения данных из web-контента, изучаются их достоинства и недостатки, предлагается более оптимизированный, оптимальный алгоритм для выполнения данной задачи.

В работе Разработка и исследование алгоритма формирования семантического ядра веб-сайта на основе методов Data Mining (Кисниченко Е. А.) рассматриваются средства Data Mining для реализации поставленных целей (создание алгоритма для формирования семантического ядра сайта). Предполагается, что данный алгоритм будет внедрён в системы администрирования сайтов или в средства поддержки работы SEO специалистов для повышения полноты, точности и снижения времени разработки СЯ сайтов с динамическим контентом.

В работе Разработка алгоритмического обеспечения интеллектуального модуля анализа эмоционального содержания естественно языковых сообщений блогов и форумов (Прокапович А. А.) рассматриваются алгоритмы для определения тональности текста, научная новизна определения тональности текста, а также предлагается специфический алгоритм для поиска эмоциональности в блогах и форумах.

Исследование методов и алгоритмов определения жанра литературных произведений на основе технологии Text Mining (Сторожук Н. О.). Поиск семантического сходства между текстами является серьёзной проблемой для автоматической обработки текста. Необходимость поиска расстояния между документами возникает в различных задачах, таких как обнаружение плагиата, определение авторства документа, поиск информации, машинный перевод, формирование тестов и задач, автоматическое построение рефератов и пр. Предлагается реализовать алгоритм для определения литературного жанра русского текста средствами Data Mining.

Выводы

Как видно примеров, сервисов, которые определяют тональность текста почти нет, поэтому данная задача является актуальной, а для того, чтобы сервис (программа) имела больший интерес, необходимо также реализовать дополнительные алгоритмы для извлечения характеристик текста.

В данной работе:

Также планируется:

Работа ещё не закончена и планируется, что будет готова к 29 мая 2021 года. Полную информацию о работе можно получить у разработчика данной программы или у научного руководителя, консультанта.

Список источников

  1. Синтез электрохромной плёнки, основанной на соединении фуллерана лития и оксида переходного металла // https://en.ppt-online.org/463200 – Загл. с экрана;
  2. Пескова О. В. Алгоритмы классификации полнотекстовых документов // Автоматическая обработка текстов на естественном языке и компьютерная лингвистика. – М.: МИЭМ (Московский государственный институт электроники и математики), 2011. – С. 170 – 212.
  3. Survey of Text Mining I: Clustering, Classification, and Retrieval // Ed. by M. W. Berry. – 2004. – Springer, 2003. – 261 p.
  4. Aggarwal C. C., Zhai C. Mining Text Data // Springer, 2012.– 527 p.
  5. Do Prado H. A. Emerging Technologies of Text Mining: Techniques and Applications // Ed. by H. A. Do Prado, E. Ferneda. – Idea Group Reference, 2007. – 358 p.
  6. Методы предварительной обработки текста // https://megapredmet.su/1-53369.html – Загл. с экрана;
  7. Bo Pang, Lillian Lee. Opinion Mining and Sentiment Analysis (англ.) // Foundations and Trends in Information Retrieval : журнал. – 2008. – No. 2. – P. 1 – 135;
  8. Bing Liu. Sentiment Analysis and Subjectivity // Handbook of Natural Language Processing (англ.) / под ред. N. Indurkhya и F. J. Damerau. – 2010 – P. 28 – 105;
  9. Автоматическое определение тональности текста (Sentiment Analysis) // https://habr.com/ru/post/263171 – Загл. с экрана;
  10. Sivic, Josef (April 2009). Efficient visual search of videos cast as text retrieval (PDF) // IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL. 31, NO. 4. IEEE. pp. 591 – 605;
  11. Harris, Zellig (1954). Distributional Structure // Word. 10 (2/3): 146 – 62. doi:10.1080/00437956.1954.11659520. And this stock of combinations of elements becomes a factor in the way later choices are made ... for language is not merely a bag of words but a tool with particular properties which have been fashioned in the course of its use;
  12. Mikolov T., Chen K., Corrado G., Dean J. Efficient Estimation of Word Representations in Vector Space // In Proceedings of Workshop at ICLR. – 2013a;
  13. Mikolov T., Yih W., Zweig G. Linguistic Regularities in Continuous Space Word Representations // In Proceedings of NAACL HLT. – 2013b;
  14. Bengio Y., Ducharme R., Vincent P. A neural probabilistic language model // In Journal of Machine Learning Research. – 2003;
  15. Collobert R., Weston J. A unified architecture for natural language processing: Deep neural networks with multitask learning // In Proceedings of the 25th ICML. – 2008;
  16. Text.ru // https://text.ru/antiplagiat – Загл. с экрана;
  17. АНТИПЛАГИАТ // https://www.antiplagiat.ru – Загл. с экрана;
  18. ADVEGO // https://advego.com/plagiatus – Загл. с экрана;
  19. Etxt Антиплагиат // https://www.softportal.com/software-17702-etxt-antiplagiat.html – Загл. с экрана.