Реферат по теме выпускной работы
Содержание
- Введение
- 1. Актуальность темы
- 2. Цель и задачи исследования, планируемые результаты
- 3. Обзор существующих инструментальных средств
- 4. Формализованная постановка задачи
- 5. Обзор модели предварительной обработки текстов документов
- 6. Обзор моделей представления знаний
- 7. Обзор моделей классификации текста
- 7.1 Метод Байеса
- 7.2 Метод опорных векторов (англ. SVM)
- 7.3 Метод k-ближайших соседей
- Выводы
- Список источников
Введение
Рекламация – название документа, под которым скрывается претензия потребителя к поставщику товара или услуги. Рекламация составляется в письменном виде и является основанием для принятия мер, ведущих к устранению выявленных недостатков, дефектов, браков и прочих нарушений.
В современном мире проблемам обслуживания клиентов, в частности разрешению рекламаций, компании всё ещё уделяют незаслуженно мало внимания, забывая, что речь идет об их репутации.
Для того чтобы научиться управлять рекламациями и использовать их для развития бизнеса, необходимо выйти за рамки сложившегося понимания жалобы клиента просто как выражения им своего недовольства. К рациональному решению рекламации, удовлетворяющему обе стороны, можно прийти только в доброжелательной обстановки. Необходимо видеть в жалобе проявление высочайшего доверия клиента и способ улучшить качество предоставляемых товаров и услуг.
Рекламация позволяет покупателю товара или получателю услуги заявить о том, что они были предоставлены в ненадлежащих условиях. Претензия может составляться по качеству, количеству, ассортименту, весу каких-либо товарно-материальных ценностей, одностороннем изменении их стоимости, срокам поставки и другим параметрам.
Рекламация может составляться как от имени частного лица, так и от имени организации. Во втором случае, данное письмо может написать любой сотрудник компании, уполномоченный на создание подобного рода претензий и обладающий достаточным для этого уровнем знаний, квалификацией и знакомый с законодательством.
На сегодняшний день данный документ не имеет обязательного к применению унифицированного образца, поэтому составляться может в произвольной форме.
Важной задачей при работе с рекламациями является их классификация по виду претензии и определение, какой отдел или конкретный сотрудник должен её получить для анализа и предотвращения описанных ошибок в дальнейшем.
Для решения этой задачи предлагается создание системы поддержки принятия решений процессом управления производственной документацией (СППР) – компьютерной автоматизированной системы, некоторого интеллектуального инструмента, который используется людьми, принимающим решение в сложных условиях для полного и объективного анализа предметной деятельности. СППР предназначена для поддержки многокритериальных решений в сложной информационной среде. При этом под многокритериальностью понимается тот факт, что результаты принимаемых решений оцениваются не по одному, а по совокупности многих показателей (критериев) рассматриваемых одновременно.
1. Актуальность темы
В связи с возросшим объёмом электронного документооборота, работникам отдела продаж стало затруднительно обрабатывать большой массив информации.
На сегодняшний день рекламация не имеет обязательного к применению унифицированного образца, поэтому составляться может в произвольной форме и представляет собой документ в неструктурированном виде. Появляется необходимость извлечения полезной информации и, в дальнейшем, классификации рекламаций по различным критериям (например, по виду претензии) и определение отдела, допустившего брак. Актуальной становится задача разработки современной интеллектуальной системы поддержки принятия управленческих решений в отделе продаж.
Основная деятельность рассматриваемого предприятия связана с производством и сбытом косметической продукции. В цепочке предприятие – потребитель могут обнаружиться проблемы с продукцией: неправильно наклеенная этикетка, дефектная упаковка, повреждение товара во время транспортировки и т.д. В таких случаях у клиента есть возможность обратиться к производителю с целью решения возникшей ситуации – составить и отправить рекламацию.
2. Цель и задачи исследования, планируемые результаты
Целью создания интеллектуальной системы обработки и классификации текстов рекламаций на предприятии является повышение эффективности процесса обработки рекламаций за счет сокращения временных затрат сотрудников на анализ информации.
Для этого необходимо выполнить следующие задачи:
- проанализировать процесс обработки рекламаций на предприятии;
- исследовать существующие методы и модели для задачи классификации документов;
- разработать модуль импорта документов из различных источников;
- разработать алгоритм индексации (предварительной обработки) документов;
- разработать алгоритм классификации индексированных документов;
- предоставить пользователю рекомендации для принятия решений по устранению проблем в дальнейшем;
- протестировать разработанную систему и проанализировать полученные результаты.
Объектом исследований является процесс обработки рекламаций в отделе продаж.
Предметом работы является классификация текстов рекламаций по виду проблемы с помощью предварительной обработки текста документа, модели представления знаний и методов классификации текстов.
Предполагаемая научная новизна:
- разработка онтологической модели предметной области для работы с рекламациями;
- разработка алгоритма классификации текстов рекламаций.
3. Обзор существующих инструментальных средств
Рассмотрим несколько известных инструментальных средств, схожих с тематикой разрабатываемой системы:
- RCO Text Categorization – решение, которое на основании лексических профилей эффективно определяет принадлежность текста к заданному множеству категорий, для каждого термина из лексических профилей, обнаруженного в тексте, получает количество его вхождений в текст, а также позиции терминов в тексте. [1]
- OpenText Auto-Classification – приложение, которое обеспечивает упорядоченную и безопасную классификацию контента. Приложение использует механизм OpenText Content Analytics, который обрабатывает каждый документ, электронное письмо или пост в социальной сети, классифицируя полученные данные в соответствии с корпоративной политикой и требованиями законодательства. [2]
- ABBYY FlexiCapture – универсальная платформа для интеллектуальной обработки информации. Система классифицирует любые типы входящих документов как по внешнему виду, так и по текстовому содержанию. Классификация по изображению основана на машинном обучении. С его помощью документы можно сортировать по внешнему виду или взаимному расположению элементов. Текстовая классификация опирается на статистический и семантический анализ. [3]
Рассмотренные обладают преимуществами:
- Возможность работать не только с электронными документами, но и со сканами документов.
- Обработка разных видов документов.
- Масштабируемость и высокая производительность.
Также, средства имеют свои недостатки:
- Непрозрачность – не указано, какие модели представления знаний и методы классификации они используют.
- Безопасность – неизвестно, насколько можно доверять данным средствам, насколько безопасно будут храниться и обрабатываться документы.
- Цена – все вышеперечисленные средства не имеют бесплатной версии, поэтому за их использование нужно будет платить.
- Внедрение – нужно подстраивать выбранную систему под существующий процесс обработки документов.
Далее рассмотрим модели и методы, используемые в существующих программных решениях.
4. Формализованная постановка задачи
Пусть D – множество документов, C – множество категорий, Ф – неизвестная целевая функция, которая по паре [di , cj] говорит, принадлежит ли документ di категории cj или нет.
Задача классификации состоит в построении классификатора, максимально близкого к функции.
Поставлена задача точной классификации, т.е. каждый документ относится только к одной категории.
5. Обзор модели предварительной обработки текстов документов
Процесс получения индексированного представления для текста документа называется индексацией документа. Индексация выполняется в два этапа, она представлена на рисунке 1: [4]
- Извлечение термов – на этом этапе выполняется поиск и отбор наиболее значимых терминов во всём множестве документов. Результатом данного этапа является множество термов T, используемое для получения весовых характеристик документов.
- Взвешивание – определяется значимость термина для данного документа. Вес терминов задаётся специальной весовой функцией.

Рисунок 1 - Этап извлечения терминов
(анимация: 12 кадров; 3 цикла повторения; 116 килобайт)
Рассмотрим подробнее этап извлечения терминов:
- Графематический анализ – отсеиваются все символы, не являющиеся буквами, (например, html-теги и знаки препинания).
- Лемматизация – при построении классификатора текстов не имеет смысла различать формы (спряжение, склонение) слова, поскольку это приводит к чрезмерному разрастанию словаря, увеличивает ресурсоёмкость, снижает скорость работы алгоритмов. Лемматизация заключается в приведении каждого слова к его нормальной форме.
- Уменьшение размерности признакового пространства – выполняется удаление слов, не представляющих полезность для классификатора.
- Выделение ключевых терминов – обычно в качестве терминов используются отдельные слова, встречающиеся в документе. Это может приводить к искажению или потере смысла, который, например, заключается во фразеологизмах, являющихся неделимыми словарными единицами с точки зрения лингвистики. Поэтому при обработке авторефератов вместо отдельных слов выделяют словосочетания (ключевые термины), специфичные для заданной предметной области.
6. Обзор моделей представления знаний
Модель представления знаний (МПЗ) – это способ задания знаний (извлеченной информации из документов) для хранения, удобного доступа и взаимодействия с ними, который подходит под задачу интеллектуальной системы. [5]
Распространены четыре основных МПЗ:
1. Продукционная – в основе лежит конструктивная часть, продукция (правило):
ЕСЛИ Условие ТО Действие
Преимущества продукционных моделей:
- удаление, изменение, добавление любой продукции может выполняться независимо от всех остальных продукций (не приводит к изменениям в остальных продукциях). Знания вводятся неупорядоченно как в словаре или энциклопедии. Практика показывает, что это естественный способ пополнения своих знаний для эксперта;
- если добавляется или модифицируется какое-либо правило, то всё, что было сделано ранее, остается в силе и к новому правилу не относится;
- подавляющая часть человеческих знаний может быть записана в виде продукций. Человеческие знания являются модульными и поэтому продукционные системы более близки для их представления и легки для чтения;
- системы продукций при необходимости могут реализовать любые алгоритмы и способны отражать любое процедурное знание, доступное ЭВМ.
Недостатки продукционной системы:
- при большом числе продукций становится сложной проверка непротиворечивости системы продукций;
- из-за присущей системе недетерминированности (неоднозначного выбора выполняемой продукции из фронта активизированных продукций) возникают принципиальные трудности при проверке корректности работы системы.
2. Семантическая сеть – основой является ориентированный граф. Вершины графа – понятия, дуги – отношения между понятиями.
Достоинства семантических сетей:
- универсальность, семантическая сеть позволяет представить любую существующую систему в виде схемы;
- наглядность системы знаний, представленной графически;
- близость структуры сети, представляющей систему знаний, семантической структуре фраз на естественном языке.
Недостатки семантических сетей:
- формирование и модификация семантической модели затруднительны;
- поиск решения в семантической сети сводится к задаче поиска фрагмента сети, соответствующего подсети, отражающей поставленный запрос;
- чем больше отношений между понятий, тем сложнее использовать и модифицировать знания.
3. Фреймовая – в основе фреймовой модели лежит фрейм. Фрейм – это рамка, шаблон, который описывает объект предметной области, с помощью слотов. Слот – это атрибут объекта. Слот имеет имя, значение, тип хранимых данных, демон. Демон – процедура автоматически выполняющаяся при определенных условиях.
К достоинствам фреймовой модели знаний относятся:
- гибкость, т. е. структурное описание сложных объектов;
- наглядность, т. е. данные о родовидовых связях хранятся явно;
- механизм наследования свойств. Фреймы обладают способность наследовать значения характеристик своих родителей, находящихся на более высоком уровне иерархии, что обеспечивает широкое распространение языков такого типа в интеллектуальных системах.
Недостатками фреймовой системы являются:
- высокая сложность систем в целом;
- отсутствие строгой формализации;
- трудно внести изменение в иерархию;
- затруднена обработка исключений.
4. Формально логическая – в основе лежит предикат первого порядка. Подразумевается, что существует конечное, непустое множество объектов предметной области. На этом множестве с помощью функций интерпретаторов установлены связи между объектами. В свою очередь на основе этих связей строятся все закономерности и правила предметной области.
Достоинства логической модели:
- независимо от количества формул и процедур, логическая форма будет иметь только один вывод;
- благодаря тому, что логическая модель использует математические формулы, которые обширно изучены к настоящему времени, методы модели можно точно обосновать;
- благодаря строгому представлению формул в виде процедур, можно однозначно реализовать метод, используя логические языки программирования (например:Prologue, Planner,Visual Prologue, Oz и другие);
- благодаря особенностям процесса вывода новых знаний, в базе знаний можно хранить только множество аксиом, что в свою очередь существенно облегчает базу данных будущего искусственного интеллекта.
Недостатки логической модели:
- из-за того, что факты (формулы) выглядят очень похоже, модель тяжело использовать для конкретных предметной области;
- из-за отсутствия определённости в некоторых сферах науки, в логическую модель тяжело добавить необходимое количество аксиом для корректной работы будущей системы;
- вывод, полученный из верных аксиом, может не иметь смысла со стороны человеческого разума. Программа может верно построить связи, но получить совершенно неверный вывод;
- каждая аксиома должна иметь строгий вывод, зачастую либо
да
, либонет
. Этого очень тяжело добиться в сфере гуманитарных наук, в связи с чем сложность разработки возрастает в геометрической прогрессии.
В последнее время набирает популярность новый способ представления знаний в интеллектуальных системах – онтология. Под онтологией понимают систему понятий (концептов, сущностей), отношений между ними и операций над ними в рассматриваемой предметной области, иными словами, онтология – это спецификация содержания предметной области. [6]
Применение онтологий позволяет избежать потерь машинного времени на анализ понятий, не входящих в предметную область.
7. Обзор моделей классификации текста
7.1 Метод Байеса
Данный алгоритм основан на принципе максимума апостериорной вероятности. Для классифицируемого объекта вычисляются функции правдоподобия каждого из классов, по ним вычисляются апостериорные вероятности классов. Объект относится к тому классу, для которого апостериорная вероятность максимальна.
Преимущества:
- для использования метода достаточно знания априорной информации;
- логически выведенные утверждения легки для понимания;
- метод предоставляет собой способ использования субъективных вероятностных оценок.
Недостатки:
- определение всех взаимодействий в сетях Байеса для сложных систем не всегда выполнимо;
- подход Байеса требует знания множества условных вероятностей, которые обычно получают экспертными методами. Применение программного обеспечения основано на экспертных оценках.
7.2 Метод опорных векторов (англ. SVM)
Применяется для решения задач классификации. Основная идея метода заключается в построении гиперплоскости, разделяющей объекты выборки оптимальным способом. Алгоритм работает в предположении, что чем больше расстояние между разделяющей гиперплоскостью и объектами разделяемых классов, тем меньше будет средняя ошибка классификатора. [7,10]
Преимущества:
- Задача выпуклого квадратичного программирования хорошо изучена и имеет единственное решение.
- Метод опорных векторов эквивалентен двухслойной нейронной сети, где число нейронов на скрытом слое определяется автоматически как число опорных векторов.
- Принцип оптимальной разделяющей гиперплоскости приводит к максимизации ширины разделяющей полосы, а следовательно, к более уверенной классификации.
Недостатки:
- Неустойчивость к шуму: выбросы в исходных данных становятся опорными объектами-нарушителями и напрямую влияют на построение разделяющей гиперплоскости.
- Не описаны общие методы построения ядер и спрямляющих пространств, наиболее подходящих для конкретной задачи.
- Нет отбора признаков.
7.3 Метод k-ближайших соседей
Для того, чтобы найти рубрики, релевантные документу, этот документ сравнивается со всеми документами из обучающей выборки. Для каждого документа из обучающей выборки находится расстояние - косинус угла между векторами признаков. Далее из обучающей выборки выбираются документы, ближайшие к нашему. Для каждой рубрики вычисляется релевантность. Рубрики с релевантностью выше некоторого заданного порога считаются соответствующими документу. [8,11]
Достоинства:
- устойчивость к выбросам и аномальным значениям, поскольку вероятность попадания содержащих их записей в число k-ближайших соседей мала. Если же это произошло, то влияние на голосование (особенно взвешенное) также, скорее всего, будет незначительным, и, следовательно, малым будет и влияние на результаты классификации;
- программная реализация алгоритма относительно проста;
- результаты работы алгоритма легко поддаются интерпретации. Логика работы алгоритма понятна экспертам в различных областях.
Недостатки:
- данный метод не создаёт каких-либо моделей, обобщающих предыдущий опыт, а интерес могут представлять и сами правила классификации;
- при классификации объекта используются все доступные данные, поэтому метод KNN является достаточно затратным в вычислительном плане, особенно в случае больших объёмов данных;
- высокая трудоёмкость из-за необходимости вычисления расстояний до всех примеров;
- повышенные требования к репрезентативности исходных данных.
Все ранее перечисленные методы, кроме метода Байеса, используют векторное представление документа, в котором содержимое представляется в виде вектора терминов, входящих в документ. Классификатор представляет собой особый документ, вектор которого формируется на этапе обучения и состоит из усредненных значений весов терминов, входящих в документы обучающей выборки. Указанные методы имеют довольно много общего и отличаются лишь методом обучения и составления вектора-классификатора. Сама классификация является вычислением угла между двумя векторами, как степени их схожести.
Если для классификации используется онтология предметной области, то вектор документа можно сравнивать с вектором самой онтологии. Отсюда следует два важных отличия от классических методов машинного обучения: [9]
- Описание предметной области в виде онтологии само является классификатором, таким образом, не тратится время и вычислительные ресурсы на построение среднего документа из обучающей выборки.
- При таком подходе в вектор документа включаются только те термины, которые включены в рассматриваемую онтологию. Это значит, что те понятия, которые не входят в набор концептов онтологии, уходят из процесса вычисления весов терминов.
Выводы
На данном этапе выполнения магистерской работы были определены цель и задачи для системы, были исследованы и проанализированы аналогичные инструментальные средства по тематике магистерской работы. Описаны и проанализированы существующие методы представления знаний и предварительной обработки текстов.
При написании данного реферата магистерская работа ещё не завершена. Окончательное завершение: май 2023 года. Полный текст работы и материалы по теме могут быть получены у автора или его руководителя после указанной даты.
Список используемых источников
- RCO Text Categorization Engine [Электронный ресурс]. – Режим доступа: [Ссылка]
- OpenText Auto-Classification [Электронный ресурс]. – Режим доступа: [Ссылка]
- ABBYY FlexiCapture. Универсальная платформа для интеллектуаль¬ной обработки информации [Электронный ресурс]. Режим доступа: [Ссылка]
- Леонова Ю. В., Федотов А. М., Федотова О. А. О подходе к классификации авторефератов диссертаций по темам // Вестн. НГУ. Серия: Информационные технологии. 2017. Т. 15, № 1. С. 47–58.
- Представления знаний в интеллектуальных системах, экспертные системы [Электронный ресурс]. – Режим доступа: [Ссылка]
- Грушин М.А. Автоматическая классификация текстовых документов с помощью онтологий // ФГБОУ ВПО
МГТУ им. Н.Э. Баумана
. Эл No. ФС77-51038 - К. В. Воронцов. Лекции по методу опорных векторов [Электронный ресурс]. – Режим доступа: [Ссылка]
- Классификация данных методом k-ближайших соседей [Электронный ресурс]. – Режим доступа: [Ссылка]
- Данченков С.И., Поляков В.Н. Классификация текстов в системе узлов лексической онтологии // Физико-математические науки. Том 152, кн.1, 2010 г.
- Машина опорных векторов [Электронный ресурс]. – Режим доступа: [Ссылка]
- Метод k взвешенных ближайших соседей (пример) [Электронный ресурс]. – Режим доступа: [Ссылка]