RU   ENG
ДонНТУ   Портал магістрів

Реферат за темою випускної роботи

Зміст

Вступ

Рекламація – назва документа, під яким ховається претензія споживача до постачальника товару чи послуги. Рекламація складається письмово і є підставою для вжиття заходів, що ведуть до усунення виявлених недоліків, дефектів, браку та інших порушень.

У сучасному світі проблемам обслуговування клієнтів, зокрема вирішенню рекламацій, компанії все ще приділяють незаслужено мало уваги, забуваючи, що йдеться про їхню репутацію.

Для того щоб навчитися керувати рекламаціями та використовувати їх для розвитку бізнесу, необхідно вийти за рамки розуміння скарги клієнта, що склалася, просто як висловлення ним свого невдоволення. До раціонального рішення рекламації, що задовольняє обидві сторони можна прийти тільки в доброзичливій обстановці. Необхідно бачити у скарзі прояв найвищої довіри клієнта та спосіб покращити якість товарів та послуг, що надаються.

Рекламація дозволяє покупцеві товару або одержувачу послуги заявити про те, що вони були надані в неналежних умовах. Претензія може складатися за якістю, кількістю, асортиментом, вагою будь-яких товарно-матеріальних цінностей, односторонню зміну їх вартості, сроки поставки та інші параметри.

Рекламація може складатися як від імені приватної особи, так і від імені організації. У другому випадку, цей лист може написати будь-який співробітник компанії, уповноважений на створення подібних претензій і володіє достатнім для цього рівнем знань, кваліфікацією та знайомий із законодавством.

На сьогоднішній день цей документ не має обов'язкового до застосування уніфікованого зразка, тому складатися може у довільній формі.

Важливим завданням при роботі з рекламаціями є їх класифікація за видом претензії та визначення, який відділ чи конкретний співробітник повинен її отримати для аналізу та запобігання описаним помилкам надалі.

Для вирішення цього завдання пропонується створення систему підтримки прийняття рішень процесом управління виробничою документацією (СППР) – комп'ютерна автоматизована система, деякий інтелектуальний інструмент, який використовується людьми, які приймають рішення у складних умовах для повного та об'єктивного аналізу предметної діяльності. СППР призначена для підтримки багатокритеріальних рішень у складному інформаційному середовищі. При цьому під багатокритеріальністю розуміється той факт, що результати прийнятих рішень оцінюються не по одному, а за сукупністю багатьох показників (критеріїв), що розглядаються одночасно.

1. Актуальність теми

У зв'язку зі збільшеним обсягом електронного документообігу, працівникам відділу продажів стало важко обробляти великий масив інформації.

На сьогоднішній день рекламація не має обов'язкового до застосування уніфікованого зразка, тому складатися може у довільній формі і є документом у неструктурованому вигляді. З'являється необхідність отримання корисної інформації та, надалі, класифікації рекламацій за різними критеріями (наприклад, за видом претензії) та визначення відділу, що допустив брак. Актуальним стає завдання розробки сучасної інтелектуальної системи підтримки прийняття управлінських рішеннь у відділі продажів.

Основна діяльність підприємства, що розглядається, пов'язана з виробництвом і збутом косметичної продукції. У ланцюжку підприємство – споживач може виявитися проблеми з продукцією: неправильно наклеєна етикетка, дефектна упаковка, пошкодження товару під час транспортування тощо. У таких випадках у клієнта є можливість звернутися до виробника з метою вирішення ситуації, що виникла – скласти та відправити рекламацію.

2. Мета та завдання дослідження, заплановані результати

Метою створення інтелектуальної системи обробки та класифікації текстів рекламацій на підприємстві є підвищення ефективності процесу обробки рекламацій за рахунок скорочення тимчасових витрат працівників на аналіз інформації.

Для цього необхідно виконати такі завдання:

Об'єктом досліджень є процес обробки рекламацій у відділі продажу.

Предметом роботи є класифікація текстів рекламацій за виглядом проблеми за допомогою попередньої обробки тексту документа, моделі представлення знань та методів класифікації текстів.

Очікувана наукова новизна:

3. Огляд існуючих інструментальних засобів

Розглянемо кілька відомих інструментальних засобів, схожих з тематикою системи, що розробляється:

Розглянуті засоби мають переваги:

Також засоби мають свої недоліки:

Далі розглянемо моделі та методи, які використовуються у існуючих програмних рішеннях.

4. Формалізована постановка задачі

Нехай D – безліч документів, C – безліч категорій, Ф – невідома цільова функція, яка за парою [di, cj] говорить, чи належить документ di категорії cj чи ні.

Завдання класифікації полягає у побудові класифікатора, максимально близького до функції.

Поставлено завдання точної класифікації, тобто кожен документ відноситься лише до однієї категорії.

5. Огляд моделі попередньої обробки текстів документів

Процес отримання індексованого подання тексту документа називається індексацією документа. Індексація виконується у два етапи, що показано на малюнку 1: [4]

  1. Вилучення термів – на цьому етапі виконується пошук і відбір найбільш значущих термінів у всій безлічі документів. Результатом даного етапу є безліч термів T, що використовується для отримання вагових характеристик документів.
  2. Зважування – визначається значимість терміна цього документа. Вага термінів задається спеціальною ваговою функцією.
Етап вилучення термінів

Малюнок 1 - Етап вилучення термінів
(анімація: 12 кадрів; 3 цикли повторення; 116 кілобайт)

Розглянемо докладніше етап вилучення термінів:

  1. Графематичний аналіз – відсіваються всі символи, що не є літерами, (наприклад, html-теги та розділові знаки).
  2. Лемматизація – при побудові класифікатора текстів немає сенсу розрізняти форми слова, оскільки це призводить до надмірного розростання словника, збільшує ресурсоємність, знижує швидкість роботи алгоритмів. Лематизація полягає у приведенні кожного слова до його нормальної форми.
  3. Зменшення розмірності ознакового простору – виконується видалення слів, які представляють корисність для класифікатора.
  4. Виділення ключових термінів – зазвичай як терміни використовуються окремі слова, що зустрічаються в документі. Це може призводити до спотворення або втрати сенсу, який, наприклад, полягає у фразеологізмах, які є неподільними словниковими одиницями з погляду лінгвістики. Тому під час обробки авторефератів замість окремих слів виділяють словосполучення (ключові терміни), специфічні для заданої предметної області.

6. Огляд моделей представлення знань

Модель представлення знань (МПЗ) – це спосіб завдання знань (отриманої інформації з документів) для зберігання, зручного доступу та взаємодії з ними, який підходить під завдання інтелектуальної системи. [5]

Поширені чотири основні МПЗ:

1. Продукційна – в основі лежить конструктивна частина, продукція (правило):

ЯКЩО Умова ТО Дія

Переваги продукційних моделей:

Недоліки продукційної системи:

2. Семантична мережа – основою є орієнтований граф. Вершини графа – поняття, дуги – відносини між поняттями.

Переваги семантичних мереж:

Недоліки семантичних мереж:

3. Фреймова – в основі кадрової моделі лежить кадр. Фрейм – це рамка, шаблон, який описує об'єкт предметної області за допомогою слотів. Слот – це атрибут об'єкта. Слот має ім'я, значення, тип даних, що зберігаються, демон. Демон – процедура автоматично виконується за певних умов.

До переваг фреймової моделі знань відносяться:

Недоліками фреймової системи є:

4. Формально логічна – за основу взято предикат першого порядку. Мається на увазі, що існує кінцева, непорожня безліч об'єктів предметної області. На цій множині за допомогою функцій інтерпретаторів встановлені зв'язки. У свою чергу на основі цих зв'язків будуються всі закономірності та правила предметної галузі.

Плюси логічної моделі:

Недоліки логічної моделі:

Останнім часом набирає популярності новий спосіб представлення знань в інтелектуальних системах – онтологія. Під онтологією розуміють систему понять (концептів, сутностей), відносин між ними та операцій з них у аналізованої предметної області, іншими словами, онтологія – це специфікація змісту предметної галузі. [6]

Застосування онтологій дозволяє уникнути втрат машинного часу на аналіз понять, що не входять до предметної галузі.

7. Огляд моделей класифікації тексту

7.1 Метод Байєса

Цей алгоритм заснований на принципі максимуму апостеріорної ймовірності. Для об'єкта, що класифікується, обчислюються функції правдоподібності кожного з класів, за ними обчислюються апостеріорні ймовірності класів. Об'єкт відноситься до того класу, для якого апостеріорна ймовірність максимальна.

Переваги:

Недоліки:

7.2 Метод опорних векторів (англ. SVM)

Застосовується для розв'язання задач класифікації. Основна ідея методу полягає у побудові гіперплощини, що розділяє об'єкти вибірки оптимальним способом. Алгоритм працює в припущенні, що чим більша відстань між роздільною гіперплощиною і об'єктами класів, що розділяються, тим менше буде середня помилка класифікатора. [7,10]

Переваги:

Недоліки:

7.3 Метод k-найближчих сусідів

Для того, щоб знайти рубрики, релевантні документу, цей документ порівнюється з усіма документами з навчальної вибірки. Для кожного документа з навчальної вибірки є відстань - косинус кута між векторами ознак. Далі з навчальної вибірки вибираються документи, найближчі до нашого. Для кожної рубрики обчислюється релевантність. Рубрики з релевантністю вище за деякий заданий поріг вважаються відповідними документу. [8,11]

Вартості:

Недоліки:

Всі раніше перелічені методи, крім методу Байєса, використовують векторне подання документа, в якому вміст подається у вигляді вектора термінів, що входять до документа. Класифікатор є особливим документом, вектор якого формується на етапі навчання та складається з усереднених значень ваг термінів, що входять до документів навчальної вибірки. Зазначені методи мають досить багато спільного та відрізняються лише методом навчання та складання вектора-класифікатора. Сама класифікація є обчисленням кута між двома векторами як ступеня їх схожості.

Якщо для класифікації використовується онтологія предметної області, вектор документа можна порівнювати з вектором самої онтології. Звідси випливає дві важливі відмінності від класичних методів машинного навчання: [9]

  1. Опис предметної області у вигляді онтології сам класифікатор, таким чином, не витрачається час і обчислювальні ресурси на побудову середнього документа з навчальної вибірки.
  2. При такому підході до вектора документа включаються тільки ті терміни, які включені до онтології. Це означає, що поняття, які входять у набір концептів онтології, йдуть із процесу обчислення ваг термінів.

Висновки

На даному етапі виконання магістерської роботи було визначено мету та завдання для системи, було досліджено та проаналізовано аналогічні інструментальні засоби з тематики магістерської роботи. Описано та проаналізовано існуючі методи подання знань та попередньої обробки текстів.

При написанні цього реферату магістерська робота ще не завершена. Остаточне завершення: травень 2023 року. Повний текст роботи та матеріали на тему можуть бути отримані у автора або його керівника після зазначеної дати.

Список використовуваних джерел

  1. RCO Text Categorization Engine [Електронний ресурс]. – Режим доступу: [Посилання]
  2. OpenText Auto-Classification [Електронний ресурс]. – Режим доступу: [Посилання]
  3. ABBYY FlexiCapture. Универсальная платформа для интеллектуаль¬ной обработки информации [Електронний ресурс]. Режим доступу: [Посилання]
  4. Леонова Ю. В., Федотов А. М., Федотова О. А. О подходе к классификации авторефератов диссертаций по темам // Вестн. НГУ. Серия: Информационные технологии. 2017. Т. 15, № 1. С. 47–58.
  5. Представления знаний в интеллектуальных системах, экспертные системы [Електронний ресурс]. – Режим доступу: [Посилання]
  6. Грушин М.А. Автоматическая классификация текстовых документов с помощью онтологий // ФГБОУ ВПО МГТУ им. Н.Э. Баумана. Эл No. ФС77-51038
  7. К. В. Воронцов. Лекции по методу опорных векторов [Електронний ресурс]. – Режим доступу: [Посилання]
  8. Классификация данных методом k-ближайших соседей [Електронний ресурс]. – Режим доступу: [Посилання]
  9. Данченков С.И., Поляков В.Н. Классификация текстов в системе узлов лексической онтологии // Физико-математические науки. Том 152, кн.1, 2010 г.
  10. Машина опорных векторов [Електронний ресурс]. – Режим доступу: [Посилання]
  11. Метод k взвешенных ближайших соседей (пример) [Електронний ресурс]. – Режим доступу: [Посилання]