Реферат за темою випускної роботи
Зміст
- Вступ
- 1. Актуальність теми
- 2. Мета та завдання дослідження, заплановані результати
- 3. Огляд існуючих інструментальних засобів
- 4. Формалізована постановка завдання
- 5. Огляд моделі попередньої обробки текстів документів
- 6. Огляд моделей представлення знань
- 7. Огляд моделей класифікації тексту
- 7.1 Метод Байєса
- 7.2 Метод опорних векторів (англ. SVM)
- 7.3 Метод k-найближчих сусідів
- Висновки
- Список джерел
Вступ
Рекламація – назва документа, під яким ховається претензія споживача до постачальника товару чи послуги. Рекламація складається письмово і є підставою для вжиття заходів, що ведуть до усунення виявлених недоліків, дефектів, браку та інших порушень.
У сучасному світі проблемам обслуговування клієнтів, зокрема вирішенню рекламацій, компанії все ще приділяють незаслужено мало уваги, забуваючи, що йдеться про їхню репутацію.
Для того щоб навчитися керувати рекламаціями та використовувати їх для розвитку бізнесу, необхідно вийти за рамки розуміння скарги клієнта, що склалася, просто як висловлення ним свого невдоволення. До раціонального рішення рекламації, що задовольняє обидві сторони можна прийти тільки в доброзичливій обстановці. Необхідно бачити у скарзі прояв найвищої довіри клієнта та спосіб покращити якість товарів та послуг, що надаються.
Рекламація дозволяє покупцеві товару або одержувачу послуги заявити про те, що вони були надані в неналежних умовах. Претензія може складатися за якістю, кількістю, асортиментом, вагою будь-яких товарно-матеріальних цінностей, односторонню зміну їх вартості, сроки поставки та інші параметри.
Рекламація може складатися як від імені приватної особи, так і від імені організації. У другому випадку, цей лист може написати будь-який співробітник компанії, уповноважений на створення подібних претензій і володіє достатнім для цього рівнем знань, кваліфікацією та знайомий із законодавством.
На сьогоднішній день цей документ не має обов'язкового до застосування уніфікованого зразка, тому складатися може у довільній формі.
Важливим завданням при роботі з рекламаціями є їх класифікація за видом претензії та визначення, який відділ чи конкретний співробітник повинен її отримати для аналізу та запобігання описаним помилкам надалі.
Для вирішення цього завдання пропонується створення систему підтримки прийняття рішень процесом управління виробничою документацією (СППР) – комп'ютерна автоматизована система, деякий інтелектуальний інструмент, який використовується людьми, які приймають рішення у складних умовах для повного та об'єктивного аналізу предметної діяльності. СППР призначена для підтримки багатокритеріальних рішень у складному інформаційному середовищі. При цьому під багатокритеріальністю розуміється той факт, що результати прийнятих рішень оцінюються не по одному, а за сукупністю багатьох показників (критеріїв), що розглядаються одночасно.
1. Актуальність теми
У зв'язку зі збільшеним обсягом електронного документообігу, працівникам відділу продажів стало важко обробляти великий масив інформації.
На сьогоднішній день рекламація не має обов'язкового до застосування уніфікованого зразка, тому складатися може у довільній формі і є документом у неструктурованому вигляді. З'являється необхідність отримання корисної інформації та, надалі, класифікації рекламацій за різними критеріями (наприклад, за видом претензії) та визначення відділу, що допустив брак. Актуальним стає завдання розробки сучасної інтелектуальної системи підтримки прийняття управлінських рішеннь у відділі продажів.
Основна діяльність підприємства, що розглядається, пов'язана з виробництвом і збутом косметичної продукції. У ланцюжку підприємство – споживач може виявитися проблеми з продукцією: неправильно наклеєна етикетка, дефектна упаковка, пошкодження товару під час транспортування тощо. У таких випадках у клієнта є можливість звернутися до виробника з метою вирішення ситуації, що виникла – скласти та відправити рекламацію.
2. Мета та завдання дослідження, заплановані результати
Метою створення інтелектуальної системи обробки та класифікації текстів рекламацій на підприємстві є підвищення ефективності процесу обробки рекламацій за рахунок скорочення тимчасових витрат працівників на аналіз інформації.
Для цього необхідно виконати такі завдання:
- проаналізувати процес обробки рекламацій на підприємстві;
- дослідити існуючі методи та моделі для завдання класифікації документів;
- розробити модуль імпорту документів із різних джерел;
- розробити алгоритм індексації (попередньої обробки) документів;
- розробити алгоритм класифікації індексованих документів;
- надати користувачеві рекомендації для прийняття рішень щодо усунення проблем надалі;
- протестувати розроблену систему та проаналізувати отримані результати.
Об'єктом досліджень є процес обробки рекламацій у відділі продажу.
Предметом роботи є класифікація текстів рекламацій за виглядом проблеми за допомогою попередньої обробки тексту документа, моделі представлення знань та методів класифікації текстів.
Очікувана наукова новизна:
- розробка онтологічної моделі предметної галузі для роботи з рекламаціями;
- розробка алгоритму класифікації текстів рекламацій.
3. Огляд існуючих інструментальних засобів
Розглянемо кілька відомих інструментальних засобів, схожих з тематикою системи, що розробляється:
- RCO Text Categorization – рішення, яке на підставі лексичних профілів ефективно визначає приналежність тексту до заданої безлічі категорій, для кожного терміна з лексичних профілів, виявленого в тексті, отримує кількість його входження до тексту, і навіть позиції термінів у тексті. [1]
- OpenText Auto-Classification – додаток, який забезпечує впорядковану та безпечну класифікацію контенту. Додаток використовує механізм OpenText Content Analytics, який обробляє кожен документ, електронний лист або пост у соціальній мережі, класифікуючи отримані дані відповідно до корпоративної політики та вимог законодавства. [2]
- ABBYY FlexiCapture – універсальна платформа для інтелектуальної обробки інформації. Система класифікує будь-які типи вхідних документів як на вигляд, так і за текстовим змістом. Класифікація із зображення заснована на машинному навчанні. З його допомогою документи можна сортувати за зовнішнім виглядом або взаємним розташуванням елементів. Текстова класифікація спирається на статистичний та семантичний аналіз. [3]
Розглянуті засоби мають переваги:
- Можливість працювати не лише з електронними документами, а й із сканами документів.
- Обробка різних видів документів.
- Масштабованість та висока продуктивність.
Також засоби мають свої недоліки:
- Непрозорість – не зазначено, які моделі уявлення знань та методи класифікації вони використовують.
- Безпека – невідомо, наскільки можна довіряти цим засобам, наскільки безпечно зберігатимуться та оброблятимуться документи.
- Ціна – всі вищезазначені засоби не мають безкоштовної версії, тому за їх використання потрібно буде платити.
- Впровадження – необхідно підлаштовувати обрану систему під існуючий процес обробки документів.
Далі розглянемо моделі та методи, які використовуються у існуючих програмних рішеннях.
4. Формалізована постановка задачі
Нехай D – безліч документів, C – безліч категорій, Ф – невідома цільова функція, яка за парою [di, cj] говорить, чи належить документ di категорії cj чи ні.
Завдання класифікації полягає у побудові класифікатора, максимально близького до функції.
Поставлено завдання точної класифікації, тобто кожен документ відноситься лише до однієї категорії.
5. Огляд моделі попередньої обробки текстів документів
Процес отримання індексованого подання тексту документа називається індексацією документа. Індексація виконується у два етапи, що показано на малюнку 1: [4]
- Вилучення термів – на цьому етапі виконується пошук і відбір найбільш значущих термінів у всій безлічі документів. Результатом даного етапу є безліч термів T, що використовується для отримання вагових характеристик документів.
- Зважування – визначається значимість терміна цього документа. Вага термінів задається спеціальною ваговою функцією.

Малюнок 1 - Етап вилучення термінів
(анімація: 12 кадрів; 3 цикли повторення; 116 кілобайт)
Розглянемо докладніше етап вилучення термінів:
- Графематичний аналіз – відсіваються всі символи, що не є літерами, (наприклад, html-теги та розділові знаки).
- Лемматизація – при побудові класифікатора текстів немає сенсу розрізняти форми слова, оскільки це призводить до надмірного розростання словника, збільшує ресурсоємність, знижує швидкість роботи алгоритмів. Лематизація полягає у приведенні кожного слова до його нормальної форми.
- Зменшення розмірності ознакового простору – виконується видалення слів, які представляють корисність для класифікатора.
- Виділення ключових термінів – зазвичай як терміни використовуються окремі слова, що зустрічаються в документі. Це може призводити до спотворення або втрати сенсу, який, наприклад, полягає у фразеологізмах, які є неподільними словниковими одиницями з погляду лінгвістики. Тому під час обробки авторефератів замість окремих слів виділяють словосполучення (ключові терміни), специфічні для заданої предметної області.
6. Огляд моделей представлення знань
Модель представлення знань (МПЗ) – це спосіб завдання знань (отриманої інформації з документів) для зберігання, зручного доступу та взаємодії з ними, який підходить під завдання інтелектуальної системи. [5]
Поширені чотири основні МПЗ:
1. Продукційна – в основі лежить конструктивна частина, продукція (правило):
ЯКЩО Умова ТО Дія
Переваги продукційних моделей:
- видалення, зміна, додавання будь-якої продукції може виконуватися незалежно від решти всіх продукцій (не призводить до змін в інших продукціях). Знання запроваджуються невпорядковано як у словнику чи енциклопедії. Практика показує, що це є природним способом поповнення своїх знань для експерта;
- якщо додається або модифікується якесь правило, то все, що було зроблено раніше, залишається в силі і до нового правила не стосується;
- переважна частина людських знань може бути записана у вигляді продукції. Людські знання є модульними і тому продукційні системи ближчі їхнього представлення та легкі для читання;
- системи продукції при необхідності можуть реалізувати будь-які алгоритми і здатні відображати будь-яке процедурне знання, доступне комп`ютеру.
Недоліки продукційної системи:
- за великої кількості продукцій стає складною перевірка несуперечності системи продукцій;
- через властивої системі недетермінованості (неоднозначного вибору продукції з фронту активізованих продукцій) виникають важливі труднощі під час перевірки коректності роботи системи.
2. Семантична мережа – основою є орієнтований граф. Вершини графа – поняття, дуги – відносини між поняттями.
Переваги семантичних мереж:
- універсальність, семантична мережа дозволяє уявити будь-яку існуючу систему у вигляді схеми;
- наочність системи знань, представленої графічно;
- близькість структури мережі, що представляє систему знань, семантичної структури фраз природною мовою.
Недоліки семантичних мереж:
- формування та модифікація семантичної моделі скрутні;
- пошук рішення в семантичній мережі зводиться до завдання пошуку фрагмента мережі, що відповідає підмережі, що відображає поставлений запит;
- що більше відносин між поняттями, тим складніше використовувати та модифікувати знання.
3. Фреймова – в основі кадрової моделі лежить кадр. Фрейм – це рамка, шаблон, який описує об'єкт предметної області за допомогою слотів. Слот – це атрибут об'єкта. Слот має ім'я, значення, тип даних, що зберігаються, демон. Демон – процедура автоматично виконується за певних умов.
До переваг фреймової моделі знань відносяться:
- гнучкість, тобто структурний опис складних об'єктів;
- наочність, тобто дані про родовидові зв'язки зберігаються явно;
- механізм спадкування властивостей. Фрейми мають здатність успадковувати значення характеристик своїх батьків, що знаходяться на вищому рівні ієрархії, що забезпечує широке поширення мов такого типу в інтелектуальних системах.
Недоліками фреймової системи є:
- висока складність систем загалом;
- відсутність суворої формалізації;
- важко внести зміни до ієрархії;
- утруднена обробка винятків.
4. Формально логічна – за основу взято предикат першого порядку. Мається на увазі, що існує кінцева, непорожня безліч об'єктів предметної області. На цій множині за допомогою функцій інтерпретаторів встановлені зв'язки. У свою чергу на основі цих зв'язків будуються всі закономірності та правила предметної галузі.
Плюси логічної моделі:
- незалежно від кількості формул і процедур, логічна форма матиме лише один висновок;
- завдяки тому, що логічна модель використовує математичні формули, які широко вивчені до теперішнього часу, методи моделі можна точно обґрунтувати;
- завдяки суворому представленню формул у вигляді процедур, можна однозначно реалізувати метод, використовуючи логічні мови програмування (наприклад: Prologue, Planner, Visual Prologue, Oz та інші);
- завдяки особливостям процесу виведення нових знань, у базі знань можна зберігати лише безліч аксіом, що у своє чергу істотно полегшує базу даних майбутнього штучного інтелекту.
Недоліки логічної моделі:
- через те, що факти (формули) виглядають дуже схоже, модель важко використовувати для конкретних предметних областей;
- через відсутність певності в деяких сферах науки, в логічну модель важко додати необхідну кількість аксіом для коректної роботи майбутньої системи;
- висновок, отриманий з вірних аксіом, може мати сенсу з боку людського розуму. Програма може чітко побудувати зв'язку, але отримати абсолютно неправильний висновок;
- кожна аксіома повинна мати суворий висновок, часто або
так
, абоні
. Цього дуже важко досягти у сфері гуманітарних наук, у зв'язку з чим складність розробки зростає у геометричній прогресії.
Останнім часом набирає популярності новий спосіб представлення знань в інтелектуальних системах – онтологія. Під онтологією розуміють систему понять (концептів, сутностей), відносин між ними та операцій з них у аналізованої предметної області, іншими словами, онтологія – це специфікація змісту предметної галузі. [6]
Застосування онтологій дозволяє уникнути втрат машинного часу на аналіз понять, що не входять до предметної галузі.
7. Огляд моделей класифікації тексту
7.1 Метод Байєса
Цей алгоритм заснований на принципі максимуму апостеріорної ймовірності. Для об'єкта, що класифікується, обчислюються функції правдоподібності кожного з класів, за ними обчислюються апостеріорні ймовірності класів. Об'єкт відноситься до того класу, для якого апостеріорна ймовірність максимальна.
Переваги:
- для використання методу достатньо знання апріорної інформації;
- логічно виведені твердження є легкими для розуміння;
- метод є способом використання суб'єктивних ймовірнісних оцінок.
Недоліки:
- визначення всіх взаємодій у мережах Байєса для складних систем не завжди можна здійснити;
- підхід Байєса вимагає знання безлічі умовних ймовірностей, які зазвичай одержують експертними методами. Застосування програмного забезпечення ґрунтується на експертних оцінках.
7.2 Метод опорних векторів (англ. SVM)
Застосовується для розв'язання задач класифікації. Основна ідея методу полягає у побудові гіперплощини, що розділяє об'єкти вибірки оптимальним способом. Алгоритм працює в припущенні, що чим більша відстань між роздільною гіперплощиною і об'єктами класів, що розділяються, тим менше буде середня помилка класифікатора. [7,10]
Переваги:
- Завдання опуклого квадратичного програмування добре вивчене і має єдине рішення.
- Метод опорних векторів еквівалентний двошарової нейронної мережі, де число нейронів на прихованому шарі визначається автоматично як число опорних векторів.
- Принцип оптимальної роздільної гіперплощини призводить до максимізації ширини смуги, що розділяє, а отже, до більш впевненої класифікації.
Недоліки:
- Нестійкість до шуму: помилки у вихідних даних стають опорними об'єктами-порушниками і безпосередньо впливають на побудову роздільної гіперплощини.
- Не описані загальні методи побудови ядер та спрямовуючих просторів, що найбільш підходять для конкретного завдання.
- Немає відбору ознак.
7.3 Метод k-найближчих сусідів
Для того, щоб знайти рубрики, релевантні документу, цей документ порівнюється з усіма документами з навчальної вибірки. Для кожного документа з навчальної вибірки є відстань - косинус кута між векторами ознак. Далі з навчальної вибірки вибираються документи, найближчі до нашого. Для кожної рубрики обчислюється релевантність. Рубрики з релевантністю вище за деякий заданий поріг вважаються відповідними документу. [8,11]
Вартості:
- стійкість до викидів і аномальних значень, оскільки ймовірність попадання записів, що містять їх, до k-найближчих сусідів мала. Якщо ж це сталося, то вплив на голосування (особливо зважене) також, швидше за все, буде незначним, і, отже, малим буде впливати на результати класифікації;
- програмна реалізація алгоритму відносно проста;
- результати роботи алгоритму легко піддаються інтерпретації. Логіка роботи алгоритму зрозуміла експертам у різних галузях.
Недоліки:
- даний метод не створює будь-яких моделей, що узагальнюють попередній досвід, а інтерес можуть становити й самі правила класифікації;
- при класифікації об'єкта використовуються всі доступні дані, тому метод KNN є досить витратним у обчислювальному плані, особливо у разі великих обсягів даних;
- висока трудомісткість через необхідність обчислення відстаней до всіх прикладів;
- підвищені вимоги до репрезентативності вихідних даних.
Всі раніше перелічені методи, крім методу Байєса, використовують векторне подання документа, в якому вміст подається у вигляді вектора термінів, що входять до документа. Класифікатор є особливим документом, вектор якого формується на етапі навчання та складається з усереднених значень ваг термінів, що входять до документів навчальної вибірки. Зазначені методи мають досить багато спільного та відрізняються лише методом навчання та складання вектора-класифікатора. Сама класифікація є обчисленням кута між двома векторами як ступеня їх схожості.
Якщо для класифікації використовується онтологія предметної області, вектор документа можна порівнювати з вектором самої онтології. Звідси випливає дві важливі відмінності від класичних методів машинного навчання: [9]
- Опис предметної області у вигляді онтології сам класифікатор, таким чином, не витрачається час і обчислювальні ресурси на побудову середнього документа з навчальної вибірки.
- При такому підході до вектора документа включаються тільки ті терміни, які включені до онтології. Це означає, що поняття, які входять у набір концептів онтології, йдуть із процесу обчислення ваг термінів.
Висновки
На даному етапі виконання магістерської роботи було визначено мету та завдання для системи, було досліджено та проаналізовано аналогічні інструментальні засоби з тематики магістерської роботи. Описано та проаналізовано існуючі методи подання знань та попередньої обробки текстів.
При написанні цього реферату магістерська робота ще не завершена. Остаточне завершення: травень 2023 року. Повний текст роботи та матеріали на тему можуть бути отримані у автора або його керівника після зазначеної дати.
Список використовуваних джерел
- RCO Text Categorization Engine [Електронний ресурс]. – Режим доступу: [Посилання]
- OpenText Auto-Classification [Електронний ресурс]. – Режим доступу: [Посилання]
- ABBYY FlexiCapture. Универсальная платформа для интеллектуаль¬ной обработки информации [Електронний ресурс]. Режим доступу: [Посилання]
- Леонова Ю. В., Федотов А. М., Федотова О. А. О подходе к классификации авторефератов диссертаций по темам // Вестн. НГУ. Серия: Информационные технологии. 2017. Т. 15, № 1. С. 47–58.
- Представления знаний в интеллектуальных системах, экспертные системы [Електронний ресурс]. – Режим доступу: [Посилання]
- Грушин М.А. Автоматическая классификация текстовых документов с помощью онтологий // ФГБОУ ВПО
МГТУ им. Н.Э. Баумана
. Эл No. ФС77-51038 - К. В. Воронцов. Лекции по методу опорных векторов [Електронний ресурс]. – Режим доступу: [Посилання]
- Классификация данных методом k-ближайших соседей [Електронний ресурс]. – Режим доступу: [Посилання]
- Данченков С.И., Поляков В.Н. Классификация текстов в системе узлов лексической онтологии // Физико-математические науки. Том 152, кн.1, 2010 г.
- Машина опорных векторов [Електронний ресурс]. – Режим доступу: [Посилання]
- Метод k взвешенных ближайших соседей (пример) [Електронний ресурс]. – Режим доступу: [Посилання]