ДонНТУ   Портал магістрів


Реферат за темою випускної роботи

Зміст

Вступ

В сучасному світі якісна інформація у великих корпораціях грає ключову роль. І багато проектів безпосередньо залежать від якості даних і реалізації їх на підприємстві. Тому дуже важливо, щоб кожна філія поставляkf такі дані, зміст яких мав невеликий коефіцієнт «забруднених» даних, інакше при їх інтеграції в Сховище даних відсоток «забруднення» зростає за експоненціальним законом.

Очищення даних (data cleaning, data cleansing або scrubbing) виявляє і видаляє помилки і невідповідності цих даних з метою поліпшення якості даних [ 5 ].

1. Актуальність теми

На сьогоднішній день у величезні корпорації надходить і обробляється велики кількість даних, особливо персональних, зібраних з усіх філій компанії. У кожній філії своя структура бази даних, і після інтеграції в єдине джерело даних (наприклад, в Сховища даних (СД)), виникає проблема вилучення достовірних даних через розрізнення даних у різному поданні, які необхідно в подальшому використовувати для аналізу. Такі дані будуть низької якості, тому що в них допускалися помилки, і обробляти їх втрачає всякий сенс. Тому, для отримання реальних висновків з існуючих даних, застосовують різні методи по їх корекції, виключення дублікатів та очищення.

Таким чином, завдання очищення даних в корпоративних інформаційних системах на сьогоднішній день є актуальною.

2. Постановка проблеми очищення даних

В даний час на ринку існує безліч засобів з очищення даних, таких фірм як Trillium Software, Group-1 Software, Innovative Systems, Vality /Ascential Software, First Logic, Deductor тощо [ 7 ]. Вони допомагають виявити і автоматично виправити найбільш важливі типи в персоналізації даних (наприклад: імена і адреси людей з використанням національного каталогу імен та адрес). Але ці засоби не ідеальні. Вони не можуть працювати з усіма типами «брудних» даних, і з цієї причини, не всі компанії використовують вже існуючі засоби. Немаловажну роль в їх застосуванні також відіграє і вартість цих програмних пакетів. Недостатня увага приділяється якості даних, пов’язана з тим, що відсутнє розуміння типів, обсягу забрудненості (які були імпортовані в Сховища даних), їх впливу (вони будуть у майбутньому впливати на достовірність отриманої інформації з Сховища даних).

Процесс очистки данних

Рисунок 1 – Очищення даних
(анімація: 5 кадрів, 6 циклів повторення, 14,2 кілобайт)

Для початку корпораціям необхідно розібратися в різноманітті можливих «брудних» даних, в джерелах їх появи, методах їх виявлення і очищення [ 6 ].

Таблиця 1 - Приклад фрагмента даних
П.І.Б. Пол Місто Адреса Модель машини Телефон
... < td> ... ... ... ... ...
Іванов І.І. М Вул. Ходаковського д.6б кв. 5 Corolla +380502456987
Петров П.П. ж Макіївка Вулиця Леніна д. 7 Camry 0635689568
Сидоров С.С. Донецьк Просп. Ілліча д. 6 кв.8 Yaris (067) 356-87-98
Сидоров С.С. M Донецьк Просп. Ілліча д. 6 кв.8 Yaris (067) 356-87-98
... ... ... ... ... ...

3. Класифікація існуючих помилок

Існує безліч видів помилок, які не залежать від предметної області. Таких помилок виділяють шість типів:

Виходячи з наведених вище даних можна виявити такі типи помилок як:

4. Методи і засоби очищення даних в сучасних корпоративних інформаційних системах

На сьогоднішній день існує величезна кількість методів по очищенню даних від помилок і неточностей. Ніхто з фахівців не скаже, який із них є найефективнішим, бо кожен метод абсолютно по-різному підходить до цієї проблеми.

Дану проблему вирішують трьома різними способами:

Прості методи (регулярні вирази, суворі формальні правила і т.д.) дуже примітивні і можуть вирішити дану задачу тільки частково, тому вчені вирішили задіяти математичну статистику та інтелектуальні методи.

Розраховуються необхідні показники за всіма даними, які є в наявності, тобто охоплює весь діапазон існуючих значень і прийнятих ознаками. На основі отриманих результатів одні методи можуть виділити підозрілу інформацію, яка сильно відрізняється від інших, а інші – Обчислити величини, які ймовірно найбільше схожі на справжні. Таким чином, аналізуючи відомості за допомогою статистичних характеристик, оцінюють загальну картину даних і вже на її тлі визначають можливі помилки з подальшим їх виправленням на підібрані схожі значення [ 2 ].

5. Тип помилок. Пропуски в даних

Цей тип помилок можна вирішити двома різними способами:

  1. Методом машинного словника. Він являє собою упорядкований безліч лінгвістичної інформації, яка зберігається в пам'яті комп'ютера в певному вигляді. Метод шукає необхідне перевиряємого слово в заздалегідь складеному машинному словнику. У нього повинні входити всілякі значення, прийняті даними полем. При роботі з особистою інформацією використовуються класифікатори. Класифікатор – це словник, що складається з назв об'єктів, класифікаційних угруповань, на які вони розбиті за ступенем подібності, і ідентифікують їх кодів. Наприклад, класифікатор телефонних кодів і мобільних операторів, класифікатор адрес і так далі. За допомогою саме класифікаторів можна позбавлятися від пропусків в полях. Тоді незаповнена частина інформації шукається в класифікаторі за наявними даними. Якщо буде знайдений тільки один підходящий варіант, то він вноситься замість пропуску. В іншому випадку всі знайдені значення видаються експерту, що приймає рішення, він вибирає, який з варіантів ближчий до вихідного [ 2 ].
  2. Інтелектуальний метод. Іноді в даних буває так, що забувають вказати місто чи індекс у полі адреси, тоді можна скористатися «поліпшенням». Поліпшення служить додатком до вже існуючої інформації ряду фактів, наприклад, можна додати країну, область, район, довгота і широта зазначеної місцевості і т.д. Також можна за допомогою цього методу привласнити клієнтам пол на підставі аналізу його імені та інших показників його профайла. Найбільш же цінним доповненням клієнтського профайла є додаткові дані, тобто дані третіх фірм, які містять демографічну та психографічну інформацію [ 2 ].

6. Тип помилок. Суперечливість інформації.

  1. Простий метод. За допомогою класифікатора ідентифікують коди визначані як «брудні» дані. Якщо хоча б одному перевіряємому значенню не буде сопоставлен його код або отримані коди пов’язаних даних суперечать один одному, то в них, швидше за все, була допущена помилка. Для того щоб усунути її, необхідно перевірити поля окремо на наявність помилок або розглядають додаткові значення, за якими можливо будуть відновлені втрачені дані. Потім знову необхідно проводити пошук кодів в класифікаторі з уже новими отриманими даними до тих пір, поки не буде усунутий цей тип помилок [ 2 ].
  2. Перевірка допустимості. Буває так, що людина може ввести неправильний код міста, в якому проживає або ж місто, може бути не зіставимо з районом проживання і т.д. В цьому випадку необхідно використовувати інтелектуальні засоби, за допомогою яких можливо здійснити розпізнавання допустимих міжнародних адрес. Деякі програми об’єднуються з програмами перевірки допустимості та файлами поштових адрес, перевіряючих допустимість міжнародних адресних даних [ 1 ].

7. Тип помилок. Дублювання

  1. Метод «жорстких» правил. Суть методу передбачає поетапне порівняння параметрів об’єктів із застосуванням «жорстких» правил розрахунку коефіцієнтів збігу по кожному перевіряється полю. Отриманий коефіцієнт схожості об’єктів розраховується як сума коефіцієнтів по кожному полю і, якщо його значення перевищує заданий поріг, то об’єкти вважаються дублікатами. На малюнку 1 механізм роботи представлений.
    Схема роботи методу «жесткіх» правіл
    Рисунок 3 – Схема роботи методу «жорстких» правил
    • самонавчальний алгоритм пошуку дублікатів. Цей метод заснований на застосуванні самообучающихся моделей для пошуку потенційних дублікатів. Модуль складається з таких кроків: навчання і застосування моделей. На першому кроці необхідно підготувати вибірку даних, на якій буде відбуватися навчання моделі. Після цього кроку модель вводиться в режим промислової експлуатації. Застосування даного підходу передбачає періодичне перенавчання побудованих моделей, що дозволяє адаптувати їх під зміни в даних.
    • Порівняння та обробка результатів. Даний модуль забезпечує порівняння та оцінку результатів, отриманих із застосуванням «жорстких» правил і самообучающихся моделей. Крім того, формується підсумковий набір потенційно схожих об’єктів. Потім потенційні дублікати піддаються угрупованню, правила якої завжди індивідуальні, залежно завдань. Один з доступних варіантів об’єднання дублікатів – формування груп схожих клієнтів, які проживають в одному районі або місто [ 4 ].
  2. Узгодження і консолідація. Узгодження необхідно для розстановки пріоритетів між полями (в процесі узгодження) та контролю черговості порівняння полів.

8. Тип помилок. Невідповідність форматів

Стандартизація. Дані імен, телефонів і адрес можуть вводитися в різних форматах, які цілком граматично коректні. Наприклад, "Вулиця", "Вул." І "Вул" позначають одне і те ж очевидне поняття в складі адреси. Або ж номери телефонів "(063) 111 11 11", "+380631111111" і "+38 (063) 1111111". У поштового і телефонного служби існують стандарти для цих та інших подібних випадків (поки тільки такі служби існує в Сполучених Штатів Америки і в Росії). Найважливішим об’єктом стандартизації є записи по клієнтах, точність яких може бути істотно підвищена за рахунок використання процесу узгодження, описаного далі. Спеціальні програми стандартизації трансформують такі поля в певний шаблон, що підходить для поштового і телефонного служби.

Висновок

Незважаючи на те, що існують безліч платформ, систем, інструментів для перетворення та очищення даних, їх все одно не вистачає. Ці кошти ідеально не приберуть дублювання, втрати даних, невідповідності. Тому і зараз фахівці намагаються знайти оптимальні варіації для рішення очищення даних

Перелік посилань

1. Чубукова И.А. Статья: Процесс Data Mining. Начальные этапы [электронний ресурс] — Режим доступу: http://www.intuit.ru/...
2. Беликова Александра. Статья: Проблема обработки персональных данных [электронний ресурс] — Режим доступу: http://www.basegroup.ru/library/...
3. Арустамов Алексей. Статья: Предобработка и очистка данных перед загрузкой в хранилище [электронний ресурс] — Режим доступу: http://sysdba.org.ua/proektirovanie-bd/etl/predobrabotka-i-ochistka-dannyih-pered-zagruzkoy-v-hranilische.html
4. Basegroup. Статья: Технология обработки клиентских баз [электронний ресурс] — Режим доступу: http://www.dupmatch.com/...
5. Статья: ETL. [электронний ресурс] — Режим доступу: http://ru.wikipedia.org/wiki/ETL
6. Вон Ким. Статья: Три основных недостатка современных хранилищ данных [электронний ресурс] — Режим доступу: http://citforum.ru/data...
7. Роналд Фоурино. Статья: Электронное качество данных: скрытая перспектива очистки данных [электронний ресурс] — Режим доступу: http://www.iso.ru/р... - Электронный ресурс, хранящий статьи, которые были обублекованные в известных журналах