UA   ENG
ДонНТУ   Портал магистров

Реферат по теме выпускной работы

Содержание

Введение

Рекламация – название документа, под которым скрывается претензия потребителя к поставщику товара или услуги. Рекламация составляется в письменном виде и является основанием для принятия мер, ведущих к устранению выявленных недостатков, дефектов, браков и прочих нарушений.

В современном мире проблемам обслуживания клиентов, в частности разрешению рекламаций, компании всё ещё уделяют незаслуженно мало внимания, забывая, что речь идет об их репутации.

Для того чтобы научиться управлять рекламациями и использовать их для развития бизнеса, необходимо выйти за рамки сложившегося понимания жалобы клиента просто как выражения им своего недовольства. К рациональному решению рекламации, удовлетворяющему обе стороны, можно прийти только в доброжелательной обстановки. Необходимо видеть в жалобе проявление высочайшего доверия клиента и способ улучшить качество предоставляемых товаров и услуг.

Рекламация позволяет покупателю товара или получателю услуги заявить о том, что они были предоставлены в ненадлежащих условиях. Претензия может составляться по качеству, количеству, ассортименту, весу каких-либо товарно-материальных ценностей, одностороннем изменении их стоимости, срокам поставки и другим параметрам.

Рекламация может составляться как от имени частного лица, так и от имени организации. Во втором случае, данное письмо может написать любой сотрудник компании, уполномоченный на создание подобного рода претензий и обладающий достаточным для этого уровнем знаний, квалификацией и знакомый с законодательством.

На сегодняшний день данный документ не имеет обязательного к применению унифицированного образца, поэтому составляться может в произвольной форме.

Важной задачей при работе с рекламациями является их классификация по виду претензии и определение, какой отдел или конкретный сотрудник должен её получить для анализа и предотвращения описанных ошибок в дальнейшем.

Для решения этой задачи предлагается создание системы поддержки принятия решений процессом управления производственной документацией (СППР) – компьютерной автоматизированной системы, некоторого интеллектуального инструмента, который используется людьми, принимающим решение в сложных условиях для полного и объективного анализа предметной деятельности. СППР предназначена для поддержки многокритериальных решений в сложной информационной среде. При этом под многокритериальностью понимается тот факт, что результаты принимаемых решений оцениваются не по одному, а по совокупности многих показателей (критериев) рассматриваемых одновременно.

1. Актуальность темы

В связи с возросшим объёмом электронного документооборота, работникам отдела продаж стало затруднительно обрабатывать большой массив информации.

На сегодняшний день рекламация не имеет обязательного к применению унифицированного образца, поэтому составляться может в произвольной форме и представляет собой документ в неструктурированном виде. Появляется необходимость извлечения полезной информации и, в дальнейшем, классификации рекламаций по различным критериям (например, по виду претензии) и определение отдела, допустившего брак. Актуальной становится задача разработки современной интеллектуальной системы поддержки принятия управленческих решений в отделе продаж.

Основная деятельность рассматриваемого предприятия связана с производством и сбытом косметической продукции. В цепочке предприятие – потребитель могут обнаружиться проблемы с продукцией: неправильно наклеенная этикетка, дефектная упаковка, повреждение товара во время транспортировки и т.д. В таких случаях у клиента есть возможность обратиться к производителю с целью решения возникшей ситуации – составить и отправить рекламацию.

2. Цель и задачи исследования, планируемые результаты

Целью создания интеллектуальной системы обработки и классификации текстов рекламаций на предприятии является повышение эффективности процесса обработки рекламаций за счет сокращения временных затрат сотрудников на анализ информации.

Для этого необходимо выполнить следующие задачи:

Объектом исследований является процесс обработки рекламаций в отделе продаж.

Предметом работы является классификация текстов рекламаций по виду проблемы с помощью предварительной обработки текста документа, модели представления знаний и методов классификации текстов.

Предполагаемая научная новизна:

3. Обзор существующих инструментальных средств

Рассмотрим несколько известных инструментальных средств, схожих с тематикой разрабатываемой системы:

Рассмотренные обладают преимуществами:

Также, средства имеют свои недостатки:

Далее рассмотрим модели и методы, используемые в существующих программных решениях.

4. Формализованная постановка задачи

Пусть D – множество документов, C – множество категорий, Ф – неизвестная целевая функция, которая по паре [di , cj] говорит, принадлежит ли документ di категории cj или нет.

Задача классификации состоит в построении классификатора, максимально близкого к функции.

Поставлена задача точной классификации, т.е. каждый документ относится только к одной категории.

5. Обзор модели предварительной обработки текстов документов

Процесс получения индексированного представления для текста документа называется индексацией документа. Индексация выполняется в два этапа, она представлена на рисунке 1: [4]

  1. Извлечение термов – на этом этапе выполняется поиск и отбор наиболее значимых терминов во всём множестве документов. Результатом данного этапа является множество термов T, используемое для получения весовых характеристик документов.
  2. Взвешивание – определяется значимость термина для данного документа. Вес терминов задаётся специальной весовой функцией.
Этап извлечения терминов

Рисунок 1 - Этап извлечения терминов
(анимация: 12 кадров; 3 цикла повторения; 116 килобайт)

Рассмотрим подробнее этап извлечения терминов:

  1. Графематический анализ – отсеиваются все символы, не являющиеся буквами, (например, html-теги и знаки препинания).
  2. Лемматизация – при построении классификатора текстов не имеет смысла различать формы (спряжение, склонение) слова, поскольку это приводит к чрезмерному разрастанию словаря, увеличивает ресурсоёмкость, снижает скорость работы алгоритмов. Лемматизация заключается в приведении каждого слова к его нормальной форме.
  3. Уменьшение размерности признакового пространства – выполняется удаление слов, не представляющих полезность для классификатора.
  4. Выделение ключевых терминов – обычно в качестве терминов используются отдельные слова, встречающиеся в документе. Это может приводить к искажению или потере смысла, который, например, заключается во фразеологизмах, являющихся неделимыми словарными единицами с точки зрения лингвистики. Поэтому при обработке авторефератов вместо отдельных слов выделяют словосочетания (ключевые термины), специфичные для заданной предметной области.

6. Обзор моделей представления знаний

Модель представления знаний (МПЗ) – это способ задания знаний (извлеченной информации из документов) для хранения, удобного доступа и взаимодействия с ними, который подходит под задачу интеллектуальной системы. [5]

Распространены четыре основных МПЗ:

1. Продукционная – в основе лежит конструктивная часть, продукция (правило):

ЕСЛИ Условие ТО Действие

Преимущества продукционных моделей:

Недостатки продукционной системы:

2. Семантическая сеть – основой является ориентированный граф. Вершины графа – понятия, дуги – отношения между понятиями.

Достоинства семантических сетей:

Недостатки семантических сетей:

3. Фреймовая – в основе фреймовой модели лежит фрейм. Фрейм – это рамка, шаблон, который описывает объект предметной области, с помощью слотов. Слот – это атрибут объекта. Слот имеет имя, значение, тип хранимых данных, демон. Демон – процедура автоматически выполняющаяся при определенных условиях.

К достоинствам фреймовой модели знаний относятся:

Недостатками фреймовой системы являются:

4. Формально логическая – в основе лежит предикат первого порядка. Подразумевается, что существует конечное, непустое множество объектов предметной области. На этом множестве с помощью функций интерпретаторов установлены связи между объектами. В свою очередь на основе этих связей строятся все закономерности и правила предметной области.

Достоинства логической модели:

Недостатки логической модели:

В последнее время набирает популярность новый способ представления знаний в интеллектуальных системах – онтология. Под онтологией понимают систему понятий (концептов, сущностей), отношений между ними и операций над ними в рассматриваемой предметной области, иными словами, онтология – это спецификация содержания предметной области. [6]

Применение онтологий позволяет избежать потерь машинного времени на анализ понятий, не входящих в предметную область.

7. Обзор моделей классификации текста

7.1 Метод Байеса

Данный алгоритм основан на принципе максимума апостериорной вероятности. Для классифицируемого объекта вычисляются функции правдоподобия каждого из классов, по ним вычисляются апостериорные вероятности классов. Объект относится к тому классу, для которого апостериорная вероятность максимальна.

Преимущества:

Недостатки:

7.2 Метод опорных векторов (англ. SVM)

Применяется для решения задач классификации. Основная идея метода заключается в построении гиперплоскости, разделяющей объекты выборки оптимальным способом. Алгоритм работает в предположении, что чем больше расстояние между разделяющей гиперплоскостью и объектами разделяемых классов, тем меньше будет средняя ошибка классификатора. [7,10]

Преимущества:

Недостатки:

7.3 Метод k-ближайших соседей

Для того, чтобы найти рубрики, релевантные документу, этот документ сравнивается со всеми документами из обучающей выборки. Для каждого документа из обучающей выборки находится расстояние - косинус угла между векторами признаков. Далее из обучающей выборки выбираются документы, ближайшие к нашему. Для каждой рубрики вычисляется релевантность. Рубрики с релевантностью выше некоторого заданного порога считаются соответствующими документу. [8,11]

Достоинства:

Недостатки:

Все ранее перечисленные методы, кроме метода Байеса, используют векторное представление документа, в котором содержимое представляется в виде вектора терминов, входящих в документ. Классификатор представляет собой особый документ, вектор которого формируется на этапе обучения и состоит из усредненных значений весов терминов, входящих в документы обучающей выборки. Указанные методы имеют довольно много общего и отличаются лишь методом обучения и составления вектора-классификатора. Сама классификация является вычислением угла между двумя векторами, как степени их схожести.

Если для классификации используется онтология предметной области, то вектор документа можно сравнивать с вектором самой онтологии. Отсюда следует два важных отличия от классических методов машинного обучения: [9]

  1. Описание предметной области в виде онтологии само является классификатором, таким образом, не тратится время и вычислительные ресурсы на построение среднего документа из обучающей выборки.
  2. При таком подходе в вектор документа включаются только те термины, которые включены в рассматриваемую онтологию. Это значит, что те понятия, которые не входят в набор концептов онтологии, уходят из процесса вычисления весов терминов.

Выводы

На данном этапе выполнения магистерской работы были определены цель и задачи для системы, были исследованы и проанализированы аналогичные инструментальные средства по тематике магистерской работы. Описаны и проанализированы существующие методы представления знаний и предварительной обработки текстов.

При написании данного реферата магистерская работа ещё не завершена. Окончательное завершение: май 2023 года. Полный текст работы и материалы по теме могут быть получены у автора или его руководителя после указанной даты.

Список используемых источников

  1. RCO Text Categorization Engine [Электронный ресурс]. – Режим доступа: [Ссылка]
  2. OpenText Auto-Classification [Электронный ресурс]. – Режим доступа: [Ссылка]
  3. ABBYY FlexiCapture. Универсальная платформа для интеллектуаль¬ной обработки информации [Электронный ресурс]. Режим доступа: [Ссылка]
  4. Леонова Ю. В., Федотов А. М., Федотова О. А. О подходе к классификации авторефератов диссертаций по темам // Вестн. НГУ. Серия: Информационные технологии. 2017. Т. 15, № 1. С. 47–58.
  5. Представления знаний в интеллектуальных системах, экспертные системы [Электронный ресурс]. – Режим доступа: [Ссылка]
  6. Грушин М.А. Автоматическая классификация текстовых документов с помощью онтологий // ФГБОУ ВПО МГТУ им. Н.Э. Баумана. Эл No. ФС77-51038
  7. К. В. Воронцов. Лекции по методу опорных векторов [Электронный ресурс]. – Режим доступа: [Ссылка]
  8. Классификация данных методом k-ближайших соседей [Электронный ресурс]. – Режим доступа: [Ссылка]
  9. Данченков С.И., Поляков В.Н. Классификация текстов в системе узлов лексической онтологии // Физико-математические науки. Том 152, кн.1, 2010 г.
  10. Машина опорных векторов [Электронный ресурс]. – Режим доступа: [Ссылка]
  11. Метод k взвешенных ближайших соседей (пример) [Электронный ресурс]. – Режим доступа: [Ссылка]