ДонНТУ Портал магістрів

Єгоров Артем Анатолійович

Факультет комп’ютерних наук та технологій

Кафедра програмної інженерії

Спеціальність Програмна інженерія

Дослідження методів і засобів захисту конфіденційних даних при розподіленої обробки в хмарної інфраструктурі

Науковий керівник: ст. викладач Чернишова А. В.

Реферат за темою випускної роботи

× Увага! Даний реферат належить до незавершеної роботи.
Орієнтовна дата завершення: червень 2018 р.
Звертайтеся до автора після зазначеної дати для отримання остаточного варіанту.

Зміст

Вступ

Найбільш активно обговорюваною темою багатьма світовими IT-компаніями за останні 10 років є Big Data (Великі дані). На сьогодні великі дані є одним з драйверів розвитку інформаційних технологій. Це пов'язано з тим, що по всім користувачам інтернету стала накопичуватися величезна кількість інформації.

Термін Великі Дані викликає безліч суперечностей, багато хто припускає, що це тільки обсяг накопиченої інформації. Але також не потрібно забувати і про технічну сторону, даний напрямок включає в себе технології зберігання, обчислення, а також сервісні послуги.

Сфера використання технологій Великих Даних обширна. Наприклад, за допомогою Великих Даних можна дізнатися про переваги клієнтів, про ефективність маркетингових кампаній або провести аналіз ризиків. Але найбільш популярне їх використання зазначилося у торгівлі, охороні здоров'я, телекомунікації, в фінансових компаніях, а також в державному управлінні.

При використанні даної технології в роздрібних магазинах можна накопичити безліч інформації про клієнтів, систему управління запасами, постачання товарної продукції. За допомогою отриманої інформації можна прогнозувати попит або поставки товару, а також оптимізувати витрати.

У фінансових компаніях великі дані надають можливість проаналізувати кредитоспроможність позичальника, тобто на основі виявленого обороту грошових коштів підібрати вигідні та оптимальні умови кредитування, запропонувати додаткові відповідні йому банківські послуги. Застосування такого підходу дозволить значно скоротити час розгляду заявок.

Оператори мобільного зв'язку також, як і фінансові організації, мають величезні бази даних, що дозволяє їм проводити детальний аналіз накопиченої інформації. Крім використання Big Data з метою надання якісних послуг технологію можна застосувати для виявлення та запобігання шахрайству.

Підприємства гірничодобувної та паливно-нафтової промисловості можуть накопичувати інформацію про кількість видобутої продукції і на підставі цих даних робити висновки про ефективність розробки родовища, стежити за станом обладнання, будувати графіки прогнозування попиту на продукцію.

Всі перелічені вище застосування технології великих даних потребують певного захисту інформації. Наприклад, фінансової компанії, яка тільки почала свою комерційну діяльність, можна завдати чималої матеріальної шкоди, якщо конкуруюча фірма отримає доступ до накопичених або оброблених даних. Але найбільшої шкоди можна завдати паливно-енергетичним підприємствам, які безпосередньо пов'язані з державою, якщо не робити спроби захистити свою інформацію [1].

1. Актуальність теми

Актуальність роботи обумовлена тим, що великі дані, які обробляє розподілена система можуть бути:

конфіденційними;
оброблятися у інших провайдерів, що надають хмарну інфраструктуру як послугу (IaaS), наприклад Amazon EC2, Google Compute Engine, Microsoft Azure і т. д.

Це вимагає здійснити ряд рішень і заходів щодо забезпечення багаторівневого захисту даних з можливістю додавання або видалення певного рівня в залежності від мережевої інфраструктури і оброблюваних даних, що вирішують певне завдання.

2. Мета і задачі дослідження та заплановані результати

Мета магістерської роботи полягає в дослідженні існуючих методів і засобів захисту інформації в розподіленій системі.

Основні завдання дослідження:

Проаналізувати загрози інформаційної безпеки в розподілених інформаційних системах і методи їх запобігання. Виявити недоліки в методах захисту конфіденційних даних при розподіленій обробці в існуючих рішеннях.
Вивчити підхід до розробки розподілених алгоритмів на прикладі фреймворка Hadoop, виконати аналіз моделі MapReduce з точки зору безпеки. Засвоїти процес розробки програми з подальшим розгортанням його в хмарної інфраструктурі.

Об'єкт дослідження: методи і засоби захисту інформації.

У межах даної роботи потрібно:

досліджувати розподілену систему Hadoop;
проаналізувати і налаштувати (конфігурувати) засоби захисту для Hadoop в хмарному середовищі;
до практичних результатів планується спроектувати та розробити працюючий прототип (Minimum Viable Product) адміністративної панелі, що дозволяє користувачам використовувати можливості розподіленої обробки інформації з вбудованими в адміністративну панель можливостями захисту конфіденційної інформації користувача.

3. Огляд досліджень та розробок

Тема захисту інформації в розподілених інформаційних системах, яка може перебувати в хмарній інфраструктурі, є популярною не тільки в західних, а й в національних наукових спільнотах.

3.1 Огляд міжнародних джерел

Існує безліч книг і публікацій зарубіжних авторів по темі захисту інформації в розподілених системах.

Наприклад, книга Practical Hadoop Security [2] є чудовою інструкцією для системних адміністраторів, які збираються розгорнути Hadoop у виробничому середовищі і забезпечити захист для даного кластера.

У статті Review on Big Data Security in Hadoop (Огляд безпеки великих даних в Hadoop) [3] описані ризики безпеки у файлової системі Hadoop, показано як можна виконати шифрування/дешифрування даних в HDFS.

У статті A Survey on Data Security System for Cloud Using Hadoop (Огляд системи безпеки даних для хмарних обчислень з використанням Hadoop) [4] надано короткий огляд з безпеки Hadoop: опис роботи протоколу аутентифікації Kerberos.

3.2 Огляд національних джерел

У російськомовному науковому співтоваристві можна виділити наступні публікації з безпеки даних.

Книга Захист інформації в комп'ютерних системах і мережах [5] присвячена методам і засобам багаторівневого захисту інформації в комп'ютерних системах і мережах. У даній книзі сформульовані основні поняття захисту інформації та проаналізовані загрози інформаційній безпеці. Особлива увага приділяється міжнародним і вітчизняним стандартам інформаційної безпеки.

У книзі Інформаційна безпека. Захист і напад [6] наводяться як технічна інформація, що описує атаки і захист від них, так і рекомендації щодо організації процесу забезпечення інформаційної безпеки. Розглянуто практичні приклади для організації захисту персональних даних.

У книзі Захист комп'ютерної інформації від несанкціонованого доступу [7] розглянуті питання захисту комп'ютерної інформації від несанкціонованого доступу на комп'ютери в складі мережі. Особливу увагу надано моделям і механізмам управління доступом до ресурсів, а також архітектурним принципам побудови системи захисту.

У статті Дослідження механізмів забезпечення захищеного доступу до даних, розміщених в хмарній інфраструктурі [8] проведено дослідження, що дозволяє більш детально розібратися в питаннях безпеки, з якими доводиться зустрічатися при проектуванні архітектури хмарних середовищ.

У статті Деякі аспекти інформаційної безпеки в розподіленій комп'ютерній системі [9] розглянута архітектура розподіленої комп'ютерної системи. Окрема увага приділяється особливості інформаційної безпеки.

3.3 Огляд локальних джерел

Серед магістрів ДонНТУ можна назвати наступні публікації.

У статті Аналіз проблем безпеки архітектури розподілених NoSQL додатків на прикладі програмного каркасу Hadoop [10] Чуприн В.І. виділив основні характеристики сховищ для обробки великих масивів даних. Проаналізував особливості архітектури розподілених додатків на прикладі програмного каркаса Hadoop і запропонував рекомендації щодо оптимізації підсистеми безпеки на основі наведених проблем.

В роботі Воротинцева Н.В. Дослідження підходу використання розподілених модулів для забезпечення захисту інформації [11] розповідається про поняття в галузі комп'ютерних мереж і розподілених систем.

4. Аналіз безпеки розподіленої моделі обчислення

За основу обробки даних в розподілених системах покладена модель MapReduce. Перевагою такої моделі є проста масштабованість при наявності декількох обчислювальних вузлів. Робота MapReduce складається в основному з двох етапів: Map (відображення, розподіл) і Reduce (згортка, редукція) [12].

На етапі відображення (Map) виконується попередня обробка вхідних даних. Для цього один з головних вузлів (зазвичай називається master або leader node) отримує вхідні дані розв'язуваної задачі і розділяє їх на незалежні частини. Наприклад, файл з логами, що містить 1000 рядків, можна розділити на 10 частин по 100 рядків. Після того, як дані розділені, їх передають іншим робочим вузлам (slave або follower nodes) для подальшої обробки.

На етапі редукції (Reduce) відбувається згортка оброблених даних. Вузол, який відповідає за вирішення завдання, отримує відповіді від робочих вузлів і на їх основі формується результат.

Щоб усі складові функції MapReduce могли коректно і спільно виконувати обчислення, необхідно прийняти деяку угоду про єдину структуру оброблюваних даних. Воно повинно бути досить гнучким і загальним, а також відповідати потребам більшості додатків обробки даних. До MapReduce в якості основних примітивів використовуються списки і пари ключ/значення. До ролі ключів і значень можуть виступати цілі числа, рядки або складові об'єкти, частина значень яких може бути проігнорована при подальшій обробці [13].

На рисунку 1 показана спрощена схема потоку даних в моделі MapReduce [14].

Рисунок 1 – Схема потоку даних в моделі MapReduce
(Анімація Розмір: 137 Кб; Кадрів: 36; Повторів: 10; Затримка: 0.75 сек)

Як видно з рисунка 1, дана модель має багато точок передачі даних і тому потребує певного захисту інформації. Наприклад, при передачі даних по мережі після угрупування по ключу, зловмисник може додати або прибрати оброблені дані і тим самим порушити загальний результат завдання. Ситуацію може погіршити факт того, що обробка відбувається не у своїй приватній локальній комп'ютерній мережі, а використовується інфраструктура інших провайдерів. Одним з очевидних і простих рішень може служити поділ конфіденційних даних (імені, логіна користувача) і його оброблюваних даних (кількість взятих кредитів і т. д.). При цьому в ролі ключа може використовуватися хеш-значення конфіденційних даних. Але даний підхід не вирішує проблему, якщо самі значення оброблюваних даних є секретними. При такій ситуації необхідно шифрувати і розшифровувати симетричними алгоритмами передані дані під час обробки конкретним вузлом.

5. Аналіз існуючих засобів захисту для розподілених систем

Чимало документно-орієнтованих баз даних на сьогодні вже підтримують вбудоване в свій дистрибутив SSL/TLS шифрування. Наприклад, CouchDB, починаючи з версії 1.3, підтримує (при певному налаштуванні) передачу по протоколу HTTPS [15]. MongoDB також дозволяє вибрати версію дистрибутива, як з підтримкою SSL/TLS, так і без неї [16]. Але крім цього, в комерційній версії (MongoDB Enterprise Server) існують додаткові засоби захисту: шифрування даних в стані спокою, інтеграція з протоколом LDAP й аутентифікацією Kerberos [17]. Для інших NoSQL БД, які не підтримують вбудоване SSL/TLS шифрування, можна використовувати SSL-тунель або VPN, якщо використовується своя (довірена) локальна мережа. При використанні послуг хмарного провайдера, наприклад BaaS (Backend as a service), невідомо як захищена мережна інфраструктура за зворотним проксі-сервером (reverse proxy). Якщо передача даних і зберігання даних на сервері не захищені додатковими засобами, то це істотно підвищує ймовірність виникнення таких ризиків:

витоку даних;
підміни даних при її обробці;
повного або часткового знищення даних.

На рисунку 2 показаний приклад взаємодії клієнта з послугою хмарного зберігання даних.

Рисунок 2 – Взаємодія клієнта з сервером БД через зворотний проксі-сервер

Як і всі розподілені системи, Hadoop використовує мережу для взаємодії між вузлами. Як протокол передачі даних за замовчуванням використовується HTTP, але можна налаштувати підтримку і HTTPS [18]. Hadoop дозволяє шифрувати дані при передачі між вузлами, але крім цього у нього є рішення, призначені для захисту даних за допомогою інфраструктури високо деталізованої авторизації.

Рішення Sentry підтримує створену раніше модель доступу на основі ролей під назвою (RBAC) (Role-based Access Control), яка функціонує поверх форми представлення даних. Модель RBAC має ряд функцій, призначених для захисту корпоративного середовища великих даних. Перша функція – це захищена авторизація, яка забезпечує обов'язкове управління доступом до даних для аутентіфіцированних користувачів. Користувачам присвоюються ролі, а потім надаються відповідні повноваження щодо доступу до даних. Такий підхід за допомогою шаблонів сприяє масштабуванню моделі, розділяючи користувачів на категорії згідно з їх ролями. Інша функція дозволяє організувати адміністрування користувальницьких повноважень таким чином, щоб розподілити цю задачу між декількома адміністраторами на рівні схеми або на рівні бази даних. Також Sentry реалізує аутентифікацію за допомогою протоколу аутентифікації Kerberos, інтегрованого в Hadoop.

Project Rhino – проект з відкритим кодом, розробкою якої займається компанія Intel. Він був створений з метою вдосконалення платформи Hadoop: забезпечити додаткові механізми захисту. Головна мета цього проекту полягає в усуненні прогалин безпеки в стеку Hadoop і в забезпеченні безпеки на всіх рівнях в рамках екосистеми Hadoop. З цією метою Intel здійснює розробку в сфері безпеки за кількома напрямками і орієнтується на криптографічні можливості.

Серед усіх робіт, які виконуються в рамках Project Rhino, найбільш цікаві нові можливості для шифрування/дешифрування файлів в рамках декількох моделей використання. Наприклад, додавання загального рівня абстракції для криптографічних кодеків реалізує API-інтерфейс, за допомогою якого кілька таких кодеків можна зареєструвати і використовувати в деякому середовищі. Для підтримки цієї можливості розробляється відповідне середовище для розподілу ключів та управління ними.

Apache Knox Gateway – це рішення для захисту периметра Hadoop. На відміну від рішення Sentry, яке надає засоби для високодеталізованного контролю доступа до даних, рішення Knox Gateway забезпечує контроль доступа до сервісів платформи Hadoop. Мета Knox Gateway – надати єдину точку безпечного доступу до Hadoop-кластерам. Дане рішення реалізовано у вигляді шлюзу, який представляє доступ до Hadoop-кластерам за допомогою REST API [19].

Висновки

У даний час накопичена інформація представляє величезну цінність. З появою глобальних комп'ютерних мереж, зокрема мережі Інтернет, доступ до інформації значно спростився, що призвело до підвищення загрози порушення безпеки даних при відсутності заходів їх захисту.

У межах магістерської роботи передбачається проаналізувати з точки зору безпеки розподілену модель обробки даних (MapReduce). Виконати аналіз існуючих засобів захисту для розподілених систем. Оцінити їх ефективність.

При проектуванні засобів захисту даних для розподілених систем необхідно враховувати те, що з одного боку вони повинні надійно зберігати конфіденційні дані, а з іншого – підтримувати багаторівневий захист з можливістю додавання або видалення певного рівня в залежності від мережевої інфраструктури і оброблюваних даних.

Список джерел

1. Аналитический обзор рынка Big Data // Хабрахабр. [Электронный ресурс]. – Режим доступа: https://habrahabr.ru/company/moex/blog/256747/
2. Practical Hadoop Security // Amazon. [Электронный ресурс]. – Режим доступа: https://www.amazon.com/Practical-Hadoop-Security-Bhushan-Lakhe/dp/1430265442
3. Review on Big Data Security in Hadoop // International Journal Of Engineering And Computer Science. [Электронный ресурс]. – Режим доступа: https://www.ijecs.in/issue/v3-i12/28%20ijecs.pdf
4. A Survey on Data Security System for Cloud Using Hadoop // International Journal of Innovative Research in Computer and Communication Engineering. [Электронный ресурс]. – Режим доступа: https://www.ijircce.com/upload/2016/november/164_A%20SURVEY.pdf
5. Защита информации в компьютерных системах и сетях // Ozon. [Электронный ресурс]. – Режим доступа: https://www.ozon.ru/context/detail/id/28336100/
6. Информационная безопасность. Защита и нападение // Ozon. [Электронный ресурс]. – Режим доступа: https://www.ozon.ru/context/detail/id/139249153/
7. Защита компьютерной информации от несанкционированного доступа // Ozon. [Электронный ресурс]. – Режим доступа: http://www.ozon.ru/context/detail/id/17981339/
8. Исследование механизмов обеспечения защищенного доступа к данным, размещенным в облачной инфраструктуре // Cyberleninka. [Электронный ресурс]. – Режим доступа: https://cyberleninka.ru/article/n/issledovanie-mehanizmov-obespecheniya-zaschischennogo-dostupa-k-dannym-razmeschennym-v-oblachnoy-infrastrukture
9. Некоторые аспекты информационной безопасности в распределенной компьютерной системе // Молодой ученый. [Электронный ресурс]. – Режим доступа: https://moluch.ru/archive/25/2709/
10. Анализ проблем безопасности архитектуры распределённых NoSQL приложений на примере программного каркаса Hadoop // Портал магистров ДонНТУ. [Электронный ресурс]. – Режим доступа: http://masters.donntu.ru/2014/fknt/chuprin/library/_hadoop-security.htm
11. Исследование подхода использования распределенных модулей для обеспечения защиты информации // Портал магистров ДонНТУ. [Электронный ресурс]. – Режим доступа: http://masters.donntu.ru/2005/fvti/vorotyntsev/diss/index.htm
12. MapReduce // Википедия. [Электронный ресурс]. – Режим доступа: https://ru.wikipedia.org/wiki/MapReduce
13. Чак Лэм. Hadoop в действии. – М.: ДМК Пресс, 2012. – 424 с.: ил.
14. Introduction to MapReduce // sci2s. [Электронный ресурс]. – Режим доступа: http://sci2s.ugr.es/BigData#Big%20Data%20Technologies
15. Native SSL Support // CouchDB. [Электронный ресурс]. – Режим доступа: http://docs.couchdb.org/en/1.3.0/ssl.html
16. MongoDB Support // MongoDB. [Электронный ресурс]. – Режим доступа: https://docs.mongodb.com/v3.2/tutorial/configure-ssl/#mongodb-support
17. MongoDB Download Center // MongoDB. [Электронный ресурс]. – Режим доступа: https://www.mongodb.com/download-center#enterprise
18. Sandeep Karanth. Mastering Hadoop. – Packt Publishing, 2014. – 374 pages.
19. Безопасность данных Hadoop и решение Sentry // IBM developerWorks. [Электронный ресурс]. – Режим доступа: http://www.ibm.com/developerworks/ru/library/se-hadoop/
20. Егоров А.А., Чернышова А.В., Губенко Н.Е. Анализ средств защиты больших данных в распределенных системах // Первая международная научно-практическая конференция Программная инженерия: методы и технологии разработки информационно-вычислительных систем (ПИИВС-2016). Донецк, 2016 г. – Сборник научных трудов. – ДонНТУ, Том 2, с. 28-33.
21. Егоров А.А., Чернышова А.В. Исследование инструментов распределенной системы Hadoop // Конференция Современные информационные технологии в образовании и научных исследованиях (СИТОНИ-2017). Донецк, 2017 г. – Сборник научных трудов. – ДонНТУ

Резюме Біографія