ДонНТУ   Портал магістрів

Реферат з теми випускної роботи

Зміст

Вступ

Комп'ютери були створені для вирішення обчислювальних завдань, проте з часом вони все частіше стали використовуватися для побудови систем обробки документів, а точніше інформації, що міститься в них. Такі системи зазвичай і називають інформаційними.

Інформаційні системи вимагають створення в пам'яті ЕОМ моделі зовнішнього світу, що динамічно оновлюється, з використанням єдиного сховища – бази даних. Словосполучення "динамічно оновлюється" означає, що відповідність бази даних поточному стану предметної області забезпечується не періодично, а в режимі реального часу. При цьому одні й ті ж дані можуть бути по-різному представлені відповідно до потреб різних груп користувачів [1].

Окрім інформаційних мереж найважливіше значення мають динамічні системи. Динамічна система – будь-який об'єкт або процес, в якому відбуваються однозначно певні, цілеспрямовані процеси зміни стану, що розглядаються як зміна сукупних величин в даний момент часу, що супроводжується зміною параметрів, станів протягом певного часу, для яких заданий закон, що описує зміну початкового стану з плином часу [2].

Використання підсистеми баз даних у розподіленому паралельному моделюючому середовищі може позитивно вплинути на роботу всієї системи в цілому, збільшивши її швидкодію, надійність та захищеність.

1. Актуальність теми

В даний час одним з найбільш важливих інструментів прогнозування та аналізу в різних галузях людської діяльності є комп'ютерне моделювання складних динамічних систем. За допомогою нього можна оцінювати ефективність змін, що застосуються в системі, а також передбачати можливі наслідки впровадження цих змін. Результати, отримані в процесі моделювання, дозволяють фахівцям приймати рішення щодо можливої оптимізації параметрів системи з метою підвищення її ефективності та надійності.

Становлення систем керування базами даних (СКБД) збіглося за часом зі значними успіхами у розвитку технологій розподілених обчислень і паралельної обробки. У результаті виникли підсистеми керування базами даних у складі паралельних систем [3].

Таким чином, актуальною є всебічна комп'ютерна підтримка цього процесу – розробка підсистеми баз даних у складі розподіленого паралельного моделюючого середовища (РПМС), яка дозволить значно збільшити ефективність при обробці масиву даних.

2. Мета і завдання дослідження

Метою даної магістерської роботи є проектування та моделювання оптимальної підсистеми баз даних у розподіленому паралельному моделюючому середовищі (РПМС).

Для досягнення поставленої мети необхідно вирішити такі основні задачі:

  1. Вивчити особливості декомпозиції РПМС
  2. Визначити роль підсистеми БД в структурі РПМС
  3. Проаналізувати існуючі структури БД, виділивши переваги і недоліки кожної
  4. Розробити оптимальну архітектуру СКБД
  5. Реалізувати взаємодію розробленої підсистеми з іншими підсистемами в РПМС.

3. Передбачувана наукова новизна

Наукова новизна полягає в тому, що в результаті даної роботи планується отримання оптимальної структури бази даних, яка буде відповідати описаним раніше критеріям. Планується отримати нові підходи до розпаралелювання, вдосконалення методики побудови складних динамічних систем з впровадженням максимально ефективної підсистеми бази даних.

4. Огляд досліджень і розробок по темі

Перед початком досягнення поставленої мети важливо ознайомитися зі станом розробок у цій галузі. Адже ця проблематика не нова і досліджується вже кілька років у багатьох розвинених країнах світу. Основну концепцію РПМС для складних динамічних систем було запропоновано в 1992 році в рамках наукового співробітництва факультету ОТІ (нині КНТ) Донецького національного технічного університету (ДонНТУ) та Інституту паралельних і розподілених систем (IPVS) Штуттгартського університету (Німеччина). Ця концепція була більш детально викладена в доповіді на ASIM-симпозіумі в 1994 році [4] і далі розвинена в роботах багатьох наукових діячів.

У своїй роботі «Універсальні моделюючі середовища» Анопрієнко О.Я., Святний В.А. [12] привели повний опис концепції універсального моделюючого середовища (УМС), а також шляхи забезпечення його універсальності. Були охарактеризовані основні компоненти таких середовищ, що складаються з апаратних і програмних засобів, а також важливі особливості, які повинні мати УМС.

У доповіді «Оцінка масштабованості паралельних обчислень для однокрокових багатоточкових методів вирішення задачі Коші» Фельдман Л.П., Назарова І.А. [13] досліджували масштабованість паралельних обчислень з використанням кластерів ДонНТУ, що мають MIMD-архітектуру з розподіленою пам'яттю (однорідний NeClus-2010 і неоднорідний WCCS-2003). У доповіді так же наведені результати застосування теорії ізоефективного аналізу для неоднорідної паралельної обчислювальної системи, яка може мати у своєму складі, як процесори різної продуктивності, так і мережеве обладнання різної пропускної здатності.

Даною проблематикою займалися також Молдованова А.В., Солонін А.М., Надєєв Д.В. У їхніх роботах розкриваються особливості паралельних моделюючих середовищ.

Зокрема, у статті «Стан розробок і перспективи інтеграції паралельних моделюючих середовищ з Grid-технологіями» Молдованова А.В. [14] розглядає паралельне моделювання як інтердисциплінарну проблему, якою займаються експерти з різних предметних областей. І одним з напрямків розвитку методів і способів паралельного моделювання складних ДСРП є інтеграція концепцій РПМС з концепціями географічно розподілених GRID-систем. У роботі особливу увагу приділено тому, що така інтеграція грунтується на розробці ексклюзивної частини, яка залежить від предметної області і аналізу існуючих компонент.

У роботі «Підсистема обміну даними в розподіленому паралельному моделюючому середовищі» Солонін О.М. [15] повністю описав структуру і функції підсистеми обміну інформацією, розробив систему вимог до цієї системи як об'єкту моделювання, а також навів аналіз апаратної та програмної бази підсистеми.

Наукова праця «Балансування завантаження ресурсів в розподіленому паралельному моделюючому середовищі» Надєєва Д.В. [16] описує апаратно-програмна і структурна організація засобів балансування завантаження в РПМС. Зокрема, визначено, що використання програмних засобів підсистеми балансування завантаження РПМС призвело до підвищення якості паралельного моделювання складних динамічних систем. Це дозволило комплексно вирішити проблему оптимізації обробки моделей СДС в РПМС за критеріями рівномірного завантаження ресурсів і мінімізації часу виконання.

У напрямку підсистеми баз даних РПМС займалися магістри ДонНТУ: Шило А.В., Навоєв А.С., Меренков А.В., Мусенко Е.А., Мельников А.І. та інші. У своїх роботах вони розглянули і визначили основну концепцію функціональності баз даних у складі РПМС і їх інфологічну структуру, запропонували новий підхід до структуризації даних в базі і використанню сучасних СУБД.

У магістерській роботі «Розробка підсистеми баз даних розподіленого паралельного моделюючого середовища» Шило А.В. [17] описав архітектуру підсистеми баз даних, призначену для роботи в розпаралелених системах. Представлена в роботі структура дозволяє виконати всі поставлені завдання, а так само задовольняє основним вимогам щодо реалізації баз даних у розпаралелених системах.

У роботі «Розробка та дослідження засобів обробки масивів даних у розподіленому паралельному моделюючому середовищі (РПМС)» магістра Навоева А.С. [18] наведена структура, поведінка і опис СУБД, яка оперує всіма даними системи. Ці дані необхідно обробляти або аналізувати за допомогою потужних інструментів інтенсивної обробки даних.

Досить інформативним джерелом є магістерська робота Мусенко Е.А. «Розробка підсистеми баз даних у розподіленому паралельному моделюючому середовищі» [7]. У ній докладно розписана структура РПМС в цілому і роль підсистеми баз даних. Особливу увагу в роботі приділено також основним особливостям, якими повинна володіти ефективна підсистема баз даних.

Були також знайдені різні публікації, що стосуються безпосередньо аспектів розвитку паралельного моделювання і розподілених моделюючих систем. У них були описані нові підходи до моделювання в рамках даної проблематики. Зокрема, технологія CUDA, що дозволяє використовувати безліч обчислювальних ядер графічного процесора для універсальних математичних розрахунків, забезпечуючи безпрецедентне зростання продуктивності [19].

5. Розробка підсистеми баз даних у РПМС

5.1 Опис розподіленої паралельної моделюючого середовища (РПМС)

Розподілене паралельне моделююче середовище (РПМС) – це така системна організація спільного функціонування паралельних апаратних ресурсів, системного та моделюючого програмного забезпечення, яка підтримує всі етапи розробки, реалізації та застосування паралельних моделей СДС у відповідності з певними вимогами [5,9].

Характерною особливістю РПМС є здатність виконувати обчислення окремих частин об'єкта одночасно і незалежно один від одного, тобто паралельно. Розпаралелювання дозволяє значно прискорити процес моделювання. Апаратними засобами для цього виступають розподілені системи: комп'ютерні кластери, Grid, паралельні структури з використанням GPU [6].

5.2 Декомпозиція РПМС

Вчені пропонують розглядати РПМС як систему, що складається з наступних десяти підсистем [7]:

  1. Підсистема діалогу (ПД) використовується для відображення презентації функцій і можливостей РПМС. Вона забезпечує діалог системи і розробника, а також узгодження завдань симулювання, планування і управління.
  2. Підсистема топологічного аналізу (ПТА) забезпечує введення заданої топології динамічної системи, її уявлення у внутрішньому форматі, перетворення топологічної інформації у вигляд, зручний для генерації системи рівнянь, виведення результатів аналізу заданої топології. Виконує вербальний і графічний опис кодування для первинних топологій.
  3. Підсистема генерування рівнянь (ПГР) здійснює комунікацію з підсистемою топологічного аналізу для отримання закодованої топології об'єкта, перетворення результатів її роботи у векторно-матричний вигляд.
  4. Підсистема паралельних віртуальних симуляційних моделей (ППВСМ) надає засоби для інтерактивного відображення ієрархії віртуальних паралельних симуляційних моделей в залежності від можливих варіантів розпаралелювання.
  5. Підсистема паралельного вирішувача рівнянь (ППВР) здійснює взаємодію з підсистемами топологічного аналізу та підсистемою віртуальних паралельних моделей. У цій системі проводиться рішення систем рівнянь за допомогою паралельних бібліотек, визначення збіжності, стабільності, точності та оптимізації параметрів, а також формування результатів рішення для представлення у вигляді, зручному для користувача.
  6. Підсистема обміну даними (ПОД) включає повний список компонент і ресурсів РПМС. Визначає структуру даних для обміну, а також здійснює обмін інформацією між підсистемами. За запитом користувача може виводити зміст потоків даних усередині системи.
  7. Підсистема балансування навантаження (ПБН) визначає і оцінює завантаження віртуальних процесів. Здійснюється порівняльний аналіз підходів розпаралелювання за критеріями розподілу навантаження.
  8. Підсистема візуалізації (ПВ) надає можливість підсистемі діалогу виводити результати роботи РПМС в зручному для користувача вигляді (топологія та графіки моделювання у вигляді графічних об'єктів).
  9. Підсистема бази даних (ПБД) здійснює взаємодію з усіма підсистемами РПМС і зберігає дані кожного етапу моделювання, а також інформацію про користувачів, їх запитах і завданнях. З певним інтервалом здійснює резервне копіювання даних.
  10. Підсистема інформаційних технологій (ПІТ) – це віддалений WEB-базований додаток для моделювання [10].

5.3 Підсистема БД у складі РПМС

У роботі досліджується підсистема баз даних, одна з найважливіших у складі РПМС. Вона повинна мати можливість зберігання і швидкого доступу до інформації, що пов'язана з РПМС. До цієї інформації належать:

Важливою функцією підсистеми є можливість архівації та стиснення даних про результати виконання [8].

При виборі програмної платформи для реалізації підсистеми баз даних до неї ставляться такі вимоги:

6. Сховища даних, що масштабуються

Останнім часом інтерес до облачних технологій зростає з кожним днем, тому що це один з найбільш ефективних способів масштабувати прикладну програму, не докладаючи великих зусиль, а найвужчим місцем будь-якого високонавантаженого проекту є сховище даних, зокрема реляційна база даних. Для боротьби з недоліками традиційних БД в основному використовується 2 підходи:

  1. Кешування результатів виконання запитів.
  2. NoSQL рішення.

Перевагою першого підходу є висока швидкість доступу до даних, в той час, коли другий підхід має ефективну горизонтальну масштабованість. Але обидва ці підходи мають також і суттєві недоліки. Проблема першого підходу полягає в тому, що через високі швидкості дані в кеші будуть втрачати свою актуальність і застарівати. Ця ситуація створить додаткове навантаження на систему. Другий підхід характеризується низькою швидкістю отримання результатів, що також негативно впливає на роботу системи в цілому.

Існує такий тип сховища, що об'єднує описані вище переваги, при цьому позбавлен практично всіх перерахованих вище недоліків. Такий тип має назву In-memory-data-grid (IMDG).

IMDG – це кластерне key-value сховище, яке призначене для високонавантажених проектів, що мають великі обсяги даних і підвищені вимоги до масштабованості, швидкості та надійності. Основними частинами IMDG є кеші.

Кэш у IMDG – це розподілений асоціативний масив, що забезпечує швидкий конкурентний доступ до даних з будь-якого вузла кластера.

Розподілений кеш у складі кластера

Рисунок 2 – Розподілений кеш у складі кластера

Кеш також дозволяє проводити обробку цих даних розподілено, тобто модифікація будь-яких даних може бути проведена з будь-якого вузла кластера.

Всі дані в кешах зберігаються в серіалізованому вигляді, а це означає, що час отримання будь-якого об'єкта з кешу = (час переміщення об'єкта на конкретний вузол кластера) + (час на десеріалізацію). Якщо, припустимо, об'єкт, який необхідно отримати, розташований на тому ж вузлі, тоді (час отримання) = (час на десеріалізацію), що є нераціональним. Тому в концепцію IMDG було введено поняття near-cache.

Near-cache – це локальний кеш об'єктів для швидкого доступу, усі об'єкти в ньому зберігаються готовими до використання. Якщо near-cache для даного кешу зконфігурований, то об'єкти туди потрапляють автоматично при першому get-запиті цих об'єктів.

Розподілена і локальна кеш-пам'ять у складі кластера

Рисунок 3 – Розподілена і локальна кеш-пам'ять у складі кластера

Таким чином, технологія In-memory-data-grid об'єднує в собі переваги NoSQL і систем кешування, усуває деякі їх суттєві недоліки і дозволяє підняти продуктивність системи на новий рівень [11].

Висновки

В результаті проведеної роботи, яка має, загалом, дослідницький характер, можна впевнено сказати, що підсистема баз даних відіграє важливу роль в комплексному функціонуванні РПМС, так як вона оперує всіма даними системи, які необхідно обробляти або аналізувати. Великі обсяги цих даних вимагають ефективної організації процесу обміну, зберігання і обробки даних для забезпечення швидкої та безпечної роботи системи. І саме використання нових технологій, які будуть враховувати властивості як програмного забезпечення, так і апаратної частини є актуальним сучасним напрямком розвитку РПМС.

Таким чином, дослідження і розробка цієї підсистеми – це ще один крок у розвитку і РПМС і систем моделювання в цілому.

При написанні даного реферату магістерська робота ще не завершена. Остаточне завершення: грудень 2013 року. Повний текст роботи та матеріали по темі можуть бути отримані у автора або його керівника після вказаної дати.

Перелік джерел

  1. Зеленков Ю.А. Введение в базы данных [Електронний ресурс]. — Режим доступу: http://www.mstu.edu.ru/study/materials/zelenkov/toc.html , вільний. — Загл. з екрану.
  2. Feldmann L.P., Svjatnyj V.A., Resch M., Zeitz M.: Forschungsgebiet: parallele Simulationstechnik [Електронний ресурс]. — Режим доступу: http://www.nbuv.gov.ua/portal/natural/Npdntu/Pm/2008/08flpfps.pdf, вільний. — Загл. з екрану.
  3. М. Тамер Оззу, Патрик Валдуриз – журнал Системы Управления Базами Данных # 4/1996, издательский дом «Открытые системы» Новая редакция: Сергей Кузнецов, 2009г.
  4. Святний В.А. Паралельне моделювання складних динамічних систем // Моделирование — 2006: Международная конференция. Киев, 2006 г. — Киев, 2006. — С. 83–90.
  5. Абрамов Ф.А., Фельдман Л.П., Святный В.А. Моделирование динамических процессов рудничное Аэрология.– К.: Наук. Мысль, 1981.-284с.
  6. Мирошниченко К.В. Разработка и исследование подсистемы топологического анализа сетевых динамических систем как объектов моделирования [Електронний ресурс]. — Режим доступу: http://masters.donntu.ru/2011/fknt/myroshnychenko/diss/index.htm, вільний. — Загл. з екрану.
  7. Мусенко Е.А. Разработка подсистемы баз данных в распределенной параллельной моделирующей среде [Електронний ресурс]. — Режим доступу: http://masters.donntu.ru/2012/fknt/musenko/diss/index.htm, вільний. — Загл. з екрану.
  8. Меренков А.В.Разработка и организация подсистемы баз данных распределенной параллельной моделирующей среды (РПМС) [Електронний ресурс]. — Режим доступу: http://masters.donntu.ru/2010/fknt/merenkov/diss/index.htm, вільний. — Загл. з екрану.
  9. Святный В.А. Моделирование аэрогазодинамических процессов и разработка систем управления проветривание систем шахт. Докт. дисс, Донецк, ДПИ, 1986
  10. Мельников А.И. Подсистема обмена данными в распределенной параллельной моделирующей среде [Електронний ресурс]. — Режим доступу: http://masters.donntu.ru/2012/fknt/melnikov/diss/index.htm, вільний. — Загл. з екрану.
  11. In-memory-data-grid. Масштабируемые хранилища данных [Електронний ресурс]. — Режим доступу: http://habrahabr.ru/post/126580/, вільний. — Загл. з екрану.
  12. Аноприенко А.Я., Святный В.А. Универсальные моделирующие среды // Сборник трудов факультета вычислительной техники и информатики. Вып.1. – Донецк: ДонГТУ. – 1996. С.8-23.
  13. Фельдман Л.П., Назарова И.А. Оценка масштабируемости параллельных вычислений для одношаговых многоточечных методов решения задачи Коши [Електронний ресурс]. — Режим доступу: http://ea.donntu.ru:8080/jspui/handle/123456789/8337, вільний. — Загл. з екрану.
  14. Святний, В.А., Молдованова, О.В., Чут, А.М. Стан розробок та перспективи інтеграції паралельних моделюючих середовищ з Grid-технологіями [Електронний ресурс]. — Режим доступу: http://ea.donntu.ru:8080/jspui/handle/123456789/7339, вільний. — Загл. з екрану.
  15. Солонин А.Н. Подсистема обмена данными в распределенной параллельной моделирующей среде [Електронний ресурс]. — Режим доступу: http://ea.donntu.ru:8080/jspui/handle/123456789/1584, вільний. — Загл. з екрану.
  16. Надеев Д.В. Балансирование загрузки ресурсов в распределенной параллельной моделирующей среде [Електронний ресурс]. — Режим доступу: http://ea.donntu.ru:8080/jspui/handle/123456789/17429, вільний. — Загл. з екрану.
  17. Шило А.В. Разработка подсистемы баз данных распределенной параллельной моделирующей среды [Електронний ресурс]. — Режим доступу: http://masters.donntu.ru/2011/fknt/shilo/diss/index.htm, вільний. — Загл. з екрану.
  18. Навоев А.С. Разработка и исследования средств оброботки массивов данных в распределенной параллельной моделирующей среды (РПМС) [Електронний ресурс]. — Режим доступу: http://masters.donntu.ru/2011/fknt/navoev/diss/index.htm, вільний. — Загл. з екрану.
  19. Технология CUDA: Что такое CUDA? [Електронний ресурс]. — Режим доступу: http://www.nvidia.ru/object/what_is_cuda_new_ru.html, вільний. — Загл. з екрану.