Титаренко Михаил Геннадиевич
Факультет компьютерных наук и технологий
Кафедра программной инженерии
Специальность Программная инженерия
Исследование методов классификации информации о внешнеторговой деятельности государств в рамках информационно-поисковой системы
Научный руководитель: к.ф-м.н., доцент кафедры ПИ Скворцов Анатолий Ефремович
Консультант: старший преподаватель Коломойцева Ирина Александровна

Реферат по теме выпускной работы

Внимание!
При написании данного реферата магистерская работа еще не завершена.
Окончательное завершение: июнь 2019 года.
Полный текст работы и материалы по теме могут быть получены у автора или его руководителя после указанной даты.
Введение

В современном мире в интернете ежедневно появляется огромное количество новостных заголовков о внешнеторговой деятельности государств, однако часто эти статьи, заметки и обзоры представляются пользователю общим списком, который, обычно отсортирован по времени добавления и не позволяет оценить полезность информации, действительно ли она соответствует искомой категории. В связи с этим, возникает необходимость автоматической классификации внешнеторговой информации.

1. Актуальность темы

Автоматизированная классификация текстовой информации относится к классу трудно формализуемых задач и в настоящее время является особенно актуальной в связи с необходимостью автоматизации процесса сбора и анализа информации, полученной из сети Интернет, на основе интеллектуальных программных систем.

Проблемой универсальной автоматической классификации текстов является то, что она не дает такого уровня полноты и точности классификации, как специализированные классификаторы, настроенные на определенный класс документов. В связи с этим часто возникает необходимость в исследовании и реализации специализированных алгоритмов.

Так как количество внешнеторговой информации в интернете постоянно растет, исследование и разработка алгоритма автоматической классификации текстов по внешнеторговой информации государств является актуальной проблемой.

2. Цель и задачи исследования, планируемые результаты

Целью исследования является разработка алгоритма автоматизированной классификации информации о внешнеторговой деятельности государств и его внедрение в информационно-поисковую систему.

Основные задачи:

  1. Анализ существующих методов классификации естественно-языковой текстовой информации.
  2. Анализ методов сбора информации в Интернет.
  3. Анализ этапов создания ИПС.
  4. Разработка архитектуры программной модели.
  5. Разработка программной модели информационно-поисковой системы.
  6. Разработка алгоритма автоматизированной классификации информации о внешнеторговой деятельности государств.
  7. Оценка модуля автоматизированной классификации информации для ИПС о внешнеторговой деятельности государств.

Новизна заключается в разработке программной модели классификации информации о внешнеторговой деятельности государств, полученной на основе анализа страниц сети Интернет.

Планируется, что разработанные алгоритмы и программы составят основу информационно-поисковой системы, работающей с информацией о внешнеторговой деятельности государств.

3. Обзор исследований и разработок

В открытом доступе находится большое количество исследований по теме автомтатической классификации. Однако исследований по классификации информации внешнеторговой деятельности государств обнаружить не удалось.

3.1. Обзор международных источников

В исследовании Многоуровневая классификация экономических статей на основе онтологий [1], Сергей Вогринчич и Зоран Босник представляют подход к задаче автоматической категоризации документов в области экономики. Они оценили точность тестируемых моделей и пришли к выводу, что все они имеют потенциал для использования, а также на основании результатов выявили приемущества использования сложных групп подходов.

В работе Исследование категоризации текста на WEKA [2] были проанализированы три поплуярных алгоритма категоризации текста, а именно наивный байесовский классификатор, дерево решений и метод опорных векторов. Сделан вывод о том, что на экономических текстах лучше всего себя проявил наивный байесовский классификатор.

В статье Эффективность гомогенного ансамбля классификаторов для турецкого и английского текстов [3] представляется сравнительный анализ использования гомогенных ансамблей для классификации турецких и английских текстов. В выводах показано превосходство гомогенного ансамбля Random Forest.

3.2. Обзор национальных источников

В статье Анализ методов классификации информации в интернете при решении задач информационного поиска [4] автор рассматривает несколько подходов к классификации информации и предлагает для повышения эффективности использовать комбинированный подход.

В статье Автоматическая классификация текстовых документов с использованием нейросетевых алгоритмов и семантического анализа [5] рассмотрены нейросетевые алгоритмы, применяемые в задачах классификации текстов, а так же изложены методы и модели семантического анализа текстов применительно к задаче улучшения качества рубрицирования.

В работе Сравнительный анализ алгоритмов классификации и способов представления Web-документов [6] был рассмотрен ряд алгоритмов классификации и вопросы предварительной обработки текстов. На основе анализа результатов экспериментов был предложен ряд усовершенствований классификаторов.

3.3. Обзор локальных источников

В реферате Линкина Виктора Олеговича Исследование алгоритмического обеспечения интеллектуальной системы классификации политематических гипертекстовых документов [7] проведен анализ особенностей классификации документов в случае, когда классы могут пересекаться и документ может быть отнесен к нескольким классам.

В реферате Трегубовой Юлии Александровны Исследование метода тематически ориентированной классификации результатов поиска в Интернет [8] проведен анализ существующих подходов к повышению релевантности тематического поиска путем классификации результатов выдачи поисковых систем.

4. Обзор и анализ алгоритмов бинарной классификации информации о внешнеторговой деятельности государств

Для того, чтобы выбрать наиболее эффективный алгоритм для классификации внешнеторговых текстов необходимо провести их анализ на определенный выборке. Задача является актуальной для информационно-поисковых систем, направленных на поиск и обработку информации по международной торговле. В разделе приведен обзор алгоритмов классификации информации и их сравнение при работе с данными по внешнеторговой экономической деятельности государств.

4.1. Отбор терминов для классификации

Любая классификация производится на основе каких-либо признаков. Для того чтобы классифицировать текст прежде всего необходимо определить значения выбранных признаков для этого текста. На сегодняшний день одной из наиболее эффективных для автоматического определения необходимых признаков является TF-IDF мера [9]. TF-IDF - cтатистическая мера, которая используется для оценки значимости слова в документе, который является частью набора документов. Вес слова пропорционален частоте его употребления в документе и обратно пропорционален частоте его употребления во всем наборе (документах). Количество признаков было выбрано 10 произвольно, однако при его выборе учитывалось изменение f1 метрики на более высоких показателях данного параметра.

4.2. Отбор материала для классификации

Для тестирования алгоритмов классификации решено использовать набор классифицированных статей от reuters в количестве 10788 штук, из которых 7769 приходятся на обучающую выборку и 3019 – на тестируемую. Статьи классифицированы на 90 категорий. В исследовании реализован бинарный классификатор статей по внешнеторговым признакам, поэтому остальные 89 категорий были помечены, как «other». В качестве классификаторов в исследовании выбраны следующие алгоритмы: SVM (support vector machine), KNearestNeighbours, Гауссов классификатор, Деревья решений, классификатор RandomForest и Наивный Байесовский классификатор.

4.3. Расчет метрик для алгоритмов

Для возможности сравнения алгоритмов расчитаны метрики точности полноты и F1 - меры для каждого из алгоритмов с различными вариантами их параметров.

4.3.1. SVM

SVM (support vector machine) - набор алгоритмов классификации, которые переводят полученные исходные векторы в пространство большей размерности и находят разделяющую гиперплоскость, которая разделяет представленные классы [10]. В исследовании проводилось тестирование данного классификатора на разных показателях вводимого ядра, гаммы и параметр штрафа. При этом были рассчитаны метрики точности, полноты и f1 метрика. Результаты приведены в таблице 1.

Таблица 1 - Метрики для классификатора SVC
Пар-ры Precision Recall F1
kernel = "linear",
C = 0.025
0.924 0.9612 0.9423
gamma = 2, C = 1 0.9578 0.9626 0.946
gamma = 3, C = 1 0.9522 0.9626 0.9477

Согласно полученным данным третье значение является оптимальным согласно F1 - мере. В дальнейшем сравнении будут использованы данные по этим параметрам.

4.3.2. KNearestNeighbours

В основе алгоритма ближайших соседей (kNN) лежит правило, что тестируемый объект со своим набором признаков принадлежит классу, которому принадлежат большинство из k его ближайших соседей [11]. В исследовании проводилось тестирование данного классификатора на разных показателях вводимого k, а именно на 3-х, 5-ти и 10-ти соседях. При этом были рассчитаны метрики точности, полноты и f1 метрика. Результаты приведены в таблице 2.

Таблица 2 - Метрики для классификатора kNN
k Precision Recall F1
3 0.946 0.9559 0.95
5 0.9494 0.9603 0.9527
10 0.9528 0.9566 0.9498

Согласно полученным данным значение кол-ва соседей 5 является оптимальным согласно F1 - мере. В дальнейшем сравнении будут использованы данные по этому параметру.

4.3.3. Гауссов классификатор

Основная идея гауссовского классификатора заключается в предположении того, что функция правдоподобия (тренировочный набор) известна для каждого класса и равна плотности гауссовского нормального распределения [12]. В исследовании проводилось тестирование данного классификатора на разных показателях вводимого аргумента радиально-базисной функции. При этом были рассчитаны метрики точности, полноты и f1 метрика. Результаты приведены в таблице 3.

Таблица 3 - Метрики для Гауссова классификатора
RBF(x) Precision Recall F1
1.0 0.924 0.9612 0.9423
0.5 0.924 0.9612 0.9423
1.5 0.924 0.9612 0.9423

Согласно полученным данным значение RBF слабо влияет на показатели согласно F1 - мере.

4.3.4. Деревья решений

Дерево решений – классификатор, который на тренировочных данных выстраивает структуру, узлам которого являются атрибуты различий, в листьях записаны атрибуты целевой функции, а на ребрах – необходимое множество атрибутов. Задача дерева решений – создать модель, которая предсказывает значение целевой функции на основе нескольких входов [13]. В исследовании проводилось тестирование данного классификатора на разных показателях вводимого аргумента максимальной глубины дерева. При этом были рассчитаны метрики точности, полноты и f1 метрика. Результаты приведены в таблице 4.

Таблица 4 - Метрики для дерева решений
max Precision Recall F1
5 0.9458 0.9573 0.9501
10 0.9421 0.9523 0.9465
15 0.943 0.95 0.9462

Согласно полученным данным глубина дерева 5 является оптимальным согласно F1 - мере. В дальнейшем сравнении будут использованы данные по этому параметру.

4.3.5. Классификатор RandomForest

RandomForest – это алгоритм машинного обучения, который заключается в использовании гомогенного ансамбля деревьев решений. Основная идея состоит в использовании большого ансамбля деревьев решений, который за счет их большого количества улучшает результат классификации [14]. В исследовании проводилось тестирование данного классификатора на разных показателях вводимого аргумента максимальной глубины дерева. При этом были рассчитаны метрики точности, полноты и f1 метрика. Результаты приведены в таблице 5.

Таблица 5 - Метрики для RandomForest
max Precision Recall F1
5 0.924 0.9502 0.9487
10 0.9606 0.9626 0.9612
15 0.9419 0.953 0.9527

Согласно полученным данным глубина дерева 10 является оптимальным согласно F1 - мере. В дальнейшем сравнении будут использованы данные по этому параметру.

4.3.6. Наивный Байесовский классификатор

В основе наивного Байесовского классификатора лежит теорема Байеса. Данный классификатор стал одним из стандартных универсальных методов классификации. Достоинством данного классификатора является относительно небольшое количество данных, необходимых для обучения [15]. В исследовании проведено тестирование данного классификатора. При этом были рассчитаны метрики точности, полноты и f1 метрика. Результаты приведены в таблице 6.

Таблица 6 - Метрики для NaiveBayesian
Precision Recall F1
0.9551 0.6568 0.7602
4.4. Сравнение классификаторов

После проведения тестирования выполнен сравнительный анализ классификаторов по точности, полноте и f1 мере [16]. В связи с тем, что была использована достаточно большая коллекция тренировочных документов, а также благодаря использованию алгоритма отбора признаков TF-IDF, полученные результаты отличаются достаточно незначительно и все имеют хорошие показатели распознавания текстов с внешнеторговой международной информацией. Исключение составляет лишь наивный Байесовский алгоритм, который показал уровень F1 в 0.7602, что не является удовлетворительным результатом для бинарной классификации. Результаты сравнения представлены на рисунке 1. По взвешенной оценке, наилучшим образом себя показал гомогенный ансамбль RandomForest на глубине дерева 10.

Рисунок 1 - Сравнение классификаторов
(анимация: 10 кадров, 10 циклов повторения, 53 килобайта)
Выводы

Проведен анализ алгоритмов классификации, таких как SVM (support vector machine), KNearestNeighbours, Гауссов классификатор, Деревья решений, классификатор RandomForest и Наивный Байесовский классификатор. Реализован алгоритм отбора и отобраны признаки классификации по TF-IDF. Проведено тестирование алгоритмов с различными параметрами по тренировочным и тестовым данным, определены оптимальные параметры для каждого алгоритма на основании оценки F1 меры. Проведено сравнение алгоритмов сравнением оптимального значения F1 меры, полноты и точности для каждого из них. Гомогенный ансамбль RandomForest установлен, как оптимальный классификатор для бинарной классификации внешнеторговой информации. Установлены неудовлетворительные результаты классификации наивным Байесовским классификатором.

Список источников