ДонНТУ   Портал магистров

Реферат по теме выпускной работы

Содержание

Введение

Компьютеры были созданы для решения вычислительных задач, однако со временем они все чаще стали использоваться для построения систем обработки документов, а точнее, содержащейся в них информации. Такие системы обычно и называют информационными.

Информационные системы требуют создания в памяти ЭВМ динамически обновляемой модели внешнего мира с использованием единого хранилища – базы данных. Словосочетание «динамически обновляемая» означает, что соответствие базы данных текущему состоянию предметной области обеспечивается не периодически, а в режиме реального времени. При этом одни и те же данные могут быть по-разному представлены в соответствии с потребностями различных групп пользователей [1].

Помимо информационных систем важнейшее значение имеют динамические системы. Динамическая система – любой объект или процесс, в котором происходят однозначно определенные, целенаправленные процессы изменения состояния, рассматриваемые как изменение совокупных величин в данный момент времени, сопровождающийся изменением параметров, состояний на протяжении определенного времени, для которых задан закон, описывающий изменение начального состояния с течением времени [2].

Использование подсистемы баз данных в распределенной параллельной моделирующей среде может положительно повлиять на работу всей системы в целом, увеличив быстродействие, надежность и защищенность.

1. Актуальность темы

В настоящее время одним из наиболее важных инструментов прогнозирования и анализа в различных областях человеческой деятельности является компьютерное моделирование сложных динамических систем. При помощи него можно оценивать эффективность изменений, применяемых в систему, а также предвидеть возможные последствия внедрения этих изменений. Результаты, получаемые в процессе моделирования, позволяют специалистам принимать решения по возможным оптимизациям параметров системы с целью повышения её эффективности и надежности.

Становление систем управления базами данных (СУБД) совпало по времени со значительными успехами в развитии технологий распределенных вычислений и параллельной обработки. В результате возникли подсистемы управления базами данных в составе параллельных систем [3].

Таким образом, актуальным является всесторонняя компьютерная поддержка этого процесса – разработка подсистемы баз данных в составе распределенной параллельной моделирующей среды (РПМС), которая позволит значительно увеличить эффективность при обработке массива данных.

2. Цель и задачи исследования

Целью данной магистерской работы является проектирование и моделирование оптимальной подсистемы баз данных в распределенной параллельной моделирующей среде (РПМС).

Для достижения поставленной цели необходимо решить следующие основные задачи:

  1. Изучить особенности декомпозиции РПМС
  2. Определить роль подсистемы БД в структуре РПМС
  3. Проанализировать существующие структуры БД, выделив преимущества и недостатки каждой
  4. Разработать оптимальную архитектуру СУБД
  5. Реализовать взаимодействие разработанной подсистемы с другими подсистемами в РПМС

3. Предполагаемая научная новизна

Научная новизна состоит в том, что в результате данной работы планируется получение оптимальной структуры базы данных, которая будет соответствовать описанным ранее критериям. Планируется получить новые подходы к распараллеливанию, развитие методики построения сложных динамических систем с внедрением максимально эффективной подсистемы базы данных.

4. Обзор исследований и разработок по теме

Перед началом достижения поставленной цели важно ознакомиться с состоянием разработок в этой области. Ведь эта проблематика не нова и исследуется уже несколько лет во многих развитых странах мира. Основную концепцию РПМС для сложных динамических систем было предложено в 1992 году в рамках научного сотрудничества факультета ВТИ (ныне КНТ) Донецкого национального технического университета (ДонНТУ) и Института параллельных и распределенных систем (IPVS) Штуттгартского университета (Германия). Эта концепция была более детально изложена в докладе на ASIM-симпозиуме в 1994 году [4] и далее развита в работах многих научных деятелей.

В своей работе «Универсальные моделирующие среды» Аноприенко А.Я., Святный В.А. [12] привели полное описание концепции универсальной моделирующей среды (УМС), а также пути обеспечения её универсальности. Были охарактеризованы основные компоненты таких сред, состоящие из аппаратных и программных средств, а также важные особенности, которыми должны обладать УМС.

В докладе «Оценка масштабируемости параллельных вычислений для одношаговых многоточечных методов решения задачи Коши» Фельдман Л.П., Назарова И.А. [13] исследовали масштабируемость параллельных вычислений с использованием кластеров ДонНТУ, имеющих MIMD-архитектуру с распределенной памятью (однородный NeClus-2010 и неоднородный WCCS-2003). В докладе так же приведены результаты применения теории изоэффективного анализа для неоднородной параллельной вычислительной системы, которая может иметь в своем составе, как процессоры разной продуктивности, так и сетевое оборудование разной пропускной способности.

Данной проблематикой занимались также Молдованова А.В., Солонин А.М., Надеев Д.В. В их работах раскрываются особенности параллельных моделирующих сред.

В частности, в статье «Состояние разработок и перспективы интеграции параллельных моделирующих сред с Grid-технологиями» Молдовановой А.В. [14] параллельное моделирование рассматривается как интердисциплинарная проблема, которой занимаются эксперты из разных предметных областей. И одним из направлений развития методов и способов параллельного моделирования сложных ДСРП является интеграция концепций РПМС с концепциями географически распределенных GRID-систем. В работе особое внимание уделено тому, что такая интеграция основывается на разработке эксклюзивной части, которая зависит от предметной области и анализа существующих компонент.

В работе «Подсистема обмена данными в распределенной параллельной моделирующей среде» Солонин А.Н. [15] полностью описал структуру и функции подсистемы обмена информацией, разработал систему требований к этой системе как объекту моделирования, а также привел анализ аппаратной и программной базы подсистемы.

В научном труде «Балансирование загрузки ресурсов в распределенной параллельной моделирующей среде» Надеева Д.В. [16] описана аппаратно-программная и структурная организация средств балансирования загрузки в РПМС. В частности, определено, что использование программных средств подсистемы балансирования загрузки РПМС привело к повышению качества параллельного моделирования сложных динамических систем. Это позволило комплексно решить проблему оптимизации обработки моделей СДС в РПМС по критериям равномерной загрузки ресурсов и минимизации времени выполнения.

В направлении подсистемы баз данных РПМС занимались магистры ДонНТУ: Шило А.В., Навоев А.С., Меренков А.В., Мусенко Е.А., Мельников А.И. и другие. В своих работах они рассмотрели и определили основную концепцию функциональности баз данных в составе РПМС и ее инфологическую структуру, предложили новый подход к структуризации данных в базе и использованию современных СУБД.

В магистерской работе «Разработка подсистемы баз данных распределенной параллельной моделирующей среды» Шило А.В. [17] описал архитектуру подсистемы баз данных, предназначенную для работы в распараллеленной системе. Представленная в работе структура позволяет выполнить все поставленные задачи, а так же удовлетворяет основным требования по реализации баз данных в распараллеленных системах.

В работе «Разработка и исследования средств оброботки массивов данных в распределенной параллельной моделирующей среды (РПМС)» магистра Навоева А.С. [18] приведена структура, поведение и описание СУБД, которая оперирует всеми данными системы. Эти данные необходимо обрабатывать или анализировать с помощью мощных инструментов интенсивной обработки данных.

Довольно информативным источником является магистерская работа Мусенко Е.А. «Разработка подсистемы баз данных в распределенной параллельной моделирующей среде» [7]. В ней подробно расписана структура РПМС в целом и роль подсистемы баз данных в ней. Особое внимание в работе уделено также основным особенностям, которыми должна обладать эффективная подсистема баз данных.

Были также найдены различные публикации, касающиеся непосредственно аспектов развития параллельного моделирования и распределенных моделирующих систем. В них были описаны новые подходы к моделированию в рамках данной проблематики. В частности, технология CUDA, позволяющая использовать множество вычислительных ядер графического процессора для универсальных математических расчетов, обеспечивая беспрецедентный рост производительности [19].

5. Разработка подсистемы баз данных в РПМС

5.1 Описание распределенной параллельной моделирующей среды (РПМС)

Распределенная параллельная моделирующая среда (РПМС) – это такая системная организация совместного функционирования параллельных аппаратных ресурсов, системного и моделирующего программного обеспечения, которая поддерживает все этапы разработки, реализации и применения параллельных моделей СДС в соответствии с определенными требованиями [5,9].

Характерной особенностью РПМС является способность выполнять вычисления отдельных частей объекта одновременно и независимо друг от друга, т.е. параллельно. Распараллеливание позволяет значительно ускорить процесс моделирования. Аппаратными средствами для этого выступают распределенные системы: компьютерные кластеры, Grid, параллельные структуры с использованием GPU [6].

5.2 Декомпозиция РПМС

Ученые предлагают рассматривать РПМС как систему, состоящую из следующих десяти подсистем [7].:

  1. Подсистема диалога (ПД) используется для отображения презентации функций и возможностей РПМС. Она обеспечивает диалог системы и разработчика, а также согласование задач симулирования, планирования и управления.
  2. Подсистема топологического анализа (ПТА) обеспечивает ввод заданной топологии динамической системы, ее представление во внутреннем формате, преобразование топологической информации в вид, удобный для генерации системы уравнений, вывод результатов анализа заданной топологии. Выполняет вербальное и графическое описание кодировки для первичных топологий.
  3. Подсистема генерирования уравнений (ПГУ) осуществляет коммуникацию с подсистемой топологического анализа для получения кодированной топологии объекта, превращение результатов ее работы в векторно-матричный вид.
  4. Подсистема параллельных виртуальных симуляционных моделей (ППВСМ) предоставляет средства для интерактивного отображения иерархии виртуальных параллельных симуляционных моделей в зависимости от возможных вариантов распараллеливания.
  5. Подсистема параллельного решателя уравнений (ППРУ) осуществляет взаимодействие с подсистемами топологического анализа и подсистемой виртуальных параллельных моделей. В этой системе производится решение систем уравнений с помощью параллельных библиотек, определение сходимости, стабильности, точности и оптимизации параметров, а также формирование результатов решения для представления в виде, удобном для пользователя.
  6. Подсистема обмена данными (ПОД) включает полный список компонент и ресурсов РПМС. Определяет структуру данных для обмена, а также осуществляет обмен информацией между подсистемами. По запросу пользователя может выводить содержание потоков данных внутри системы.
  7. Подсистема балансировки нагрузки (ПБН) определяет и оценивает загрузку виртуальных процессов. Осуществляется сравнительный анализ подходов распараллеливания по критериям распределения нагрузки.
  8. Подсистема визуализации (ПВ) предоставляет возможность подсистеме диалога выводить результаты работы РПМС в удобном для пользователя виде (топология и графики моделирования в виде графических объектов).
  9. Подсистема базы данных (ПБД) осуществляет взаимодействие со всеми подсистемами РПМС и хранит данные каждого этапа моделирования, а также информацию о пользователях, их запросах и задачах. С определенным интервалом осуществляет резервное копирование данных.
  10. Подсистема информационных технологий (ПИТ) удаленное WEB-базированное приложение для моделирования [10].

5.3 Подсистема БД в составе РПМС

В работе исследуется подсистема баз данных, одна из самых важных в составе РПМС. Она должна иметь возможность хранения и быстрого доступа к информации, которая связана с РПМС. К этой информации относятся:

Информационный состав БД

Рисунок 1 – Информационный состав БД (анимация: объем 110KB, размер 318x245, количество кадров 6, задержка между кадрами 80мс, задержка между последним и первым кадром 160 мс, количество циклов повторения 5)

Важной функцией подсистемы является возможность архивации и сжатия данных о результатах выполнения [8].

При выборе программной платформы для реализации подсистемы баз данных к ней ставятся следующие требования:

6. Масштабируемые хранилища данных

В последнее время интерес к облачным архитектурам растет с каждым днем, так как это один из наиболее эффективных способов масштабировать приложение, не прикладывая больших усилий, а самым узким местом любого высоконагруженного проекта является хранилище данных, в частности реляционная база данных. Для борьбы с недостатками традиционных БД в основном используется 2 подхода:

  1. Кэширование результатов выполнения запросов.
  2. NoSQL решения.

Преимуществом первого подхода является высокая скорость доступа к данным, в то время, когда второй подход обладает хорошей горизонтальной масштабируемостью. Но оба эти подхода имеют также и существенные недостатки. Проблема первого подхода заключается в том, что из-за высоких скоростей данные в кеше будут терять свою актуальность и устаревать. Эта ситуация создаст дополнительную нагрузку на систему. Второй подход характеризуется низкой скоростью получения результатов, что также отрицательно оказывает влияние на работу системы в целом.

Существует такой тип хранилища, который объединяет описанные выше преимущества, при этом лишен практически всех вышеперечисленных недостатков. Такой тип имеет название In-memory-data-grid (IMDG).

IMDG – это кластерное key-value хранилище, которое предназначено для высоконагруженных проектов, имеющих большие объемы данных и повышенные требования к масштабируемости, скорости и надежности. Основными частями IMDG являются кэши.

Кэш в IMDG – это распределенный ассоциативный массив, обеспечивающий быстрый конкурентный доступ к данным с любого узла кластера.

Распределенный кеш в составе кластера

Рисунок 2 – Распределенный кеш в составе кластера

Кэш также позволяет производить обработку этих данных распределенно, т.е. модификация любых данных может быть произведена с любого узла кластера.

Все данные в кэшах хранятся в сериализованном виде, а это значит, что (время получения какого-либо объекта из кэша) = (время перемещения объекта на конкретный узел кластера) + (время на десериализацию). Если, допустим, запрашиваемый объект расположен на том же узле, тогда (время получения) = (время на десериализацию), что является нерациональным. Поэтому в концепцию IMDG было введено понятие near-cache.

Near-cache – это локальный кэш объектов для быстрого доступа, все объекты в нем хранятся готовыми к использованию. Если near-cache для данного кэша сконфигурирован, то объекты туда попадают автоматически при первом get-запросе этих объектов.

Распределенная и локальная кеш-память в составе кластера

Рисунок 3 – Распределенная и локальная кеш-память в составе кластера

Таким образом, технология In-memory-data-grid объединяет в себе достоинства NoSQL и систем кэширования, устраняет некоторые их существенные недостатки и позволяет поднять производительность системы на новый уровень [11].

Выводы

В результате проведенной работы, которая имеет, в общем, исследовательский характер, можно уверенно сказать, что подсистема баз данных играет важную роль в комплексном функционировании РПМС, так как она оперирует всеми данными системы, которые необходимо обрабатывать или анализировать. Большие объемы этих данных требуют эффективной организации процесса обмена, хранения и обработки данных для обеспечения быстрой и безопасной работы системы. И именно использование новых технологий, которые будут учитывать свойства как программного обеспечения, так и аппаратной части является актуальным современным направлением развития РПМС.

Таким образом, исследование и разработка этой подсистемы – это еще один шаг в развитии РПМС и систем моделирования в целом.

При написании данного реферата магистерская работа еще не завершена. Окончательное завершение: декабрь 2013 года. Полный текст работы и материалы по теме могут быть получены у автора или его руководителя после указанной даты.

Список источников

  1. Зеленков Ю.А. Введение в базы данных [Электронный ресурс]. — Режим доступа: http://www.mstu.edu.ru/study/materials/zelenkov/toc.html, свободный. — Загл. с экрана.
  2. Feldmann L.P., Svjatnyj V.A., Resch M., Zeitz M.: Forschungsgebiet: parallele Simulationstechnik [Электронный ресурс]. — Режим доступа: http://www.nbuv.gov.ua/portal/natural/Npdntu/Pm/2008/08flpfps.pdf, свободный. — Загл. с экрана.
  3. М. Тамер Оззу, Патрик Валдуриз – журнал Системы Управления Базами Данных # 4/1996, издательский дом «Открытые системы» Новая редакция: Сергей Кузнецов, 2009г.
  4. Святний В.А. Паралельне моделювання складних динамічних систем // Моделирование — 2006: Международная конференция. Киев, 2006 г. — Киев, 2006. — С. 83–90.
  5. Абрамов Ф.А., Фельдман Л.П., Святный В.А. Моделирование динамических процессов рудничное Аэрология.– К.: Наук. Мысль, 1981.-284с.
  6. Мирошниченко К.В. Разработка и исследование подсистемы топологического анализа сетевых динамических систем как объектов моделирования [Электронный ресурс]. — Режим доступа: http://masters.donntu.ru/2011/fknt/myroshnychenko/diss/index.htm, свободный. — Загл. с экрана.
  7. Мусенко Е.А. Разработка подсистемы баз данных в распределенной параллельной моделирующей среде [Электронный ресурс]. — Режим доступа: http://masters.donntu.ru/2012/fknt/musenko/diss/index.htm, свободный. — Загл. с экрана.
  8. Меренков А.В.Разработка и организация подсистемы баз данных распределенной параллельной моделирующей среды (РПМС) [Электронный ресурс]. — Режим доступа: http://masters.donntu.ru/2010/fknt/merenkov/diss/index.htm, свободный. — Загл. с экрана.
  9. Святный В.А. Моделирование аэрогазодинамических процессов и разработка систем управления проветривание систем шахт. Докт. дисс, Донецк, ДПИ, 1986
  10. Мельников А.И. Подсистема обмена данными в распределенной параллельной моделирующей среде [Электронный ресурс]. — Режим доступа: http://masters.donntu.ru/2012/fknt/melnikov/diss/index.htm, свободный. — Загл. с экрана.
  11. In-memory-data-grid. Масштабируемые хранилища данных [Электронный ресурс] / Хабрахабр. — Режим доступа: http://habrahabr.ru/post/126580/, свободный. — Загл. с экрана.
  12. Аноприенко А.Я., Святный В.А. Универсальные моделирующие среды // Сборник трудов факультета вычислительной техники и информатики. Вып.1. – Донецк: ДонГТУ. – 1996. С.8-23.
  13. Фельдман Л.П., Назарова И.А. Оценка масштабируемости параллельных вычислений для одношаговых многоточечных методов решения задачи Коши [Электронный ресурс]. — Режим доступа: http://ea.donntu.ru:8080/jspui/handle/123456789/8337, свободный. — Загл. с экрана.
  14. Святний, В.А., Молдованова, О.В., Чут, А.М. Стан розробок та перспективи інтеграції паралельних моделюючих середовищ з Grid-технологіями [Электронный ресурс]. — Режим доступа: http://ea.donntu.ru:8080/jspui/handle/123456789/7339, свободный. — Загл. с экрана.
  15. Солонин А.Н. Подсистема обмена данными в распределенной параллельной моделирующей среде [Электронный ресурс]. — Режим доступа: http://ea.donntu.ru:8080/jspui/handle/123456789/1584, свободный. — Загл. с экрана.
  16. Надеев Д.В. Балансирование загрузки ресурсов в распределенной параллельной моделирующей среде [Электронный ресурс]. — Режим доступа: http://ea.donntu.ru:8080/jspui/handle/123456789/17429, свободный. — Загл. с экрана.
  17. Шило А.В. Разработка подсистемы баз данных распределенной параллельной моделирующей среды [Электронный ресурс]. — Режим доступа: http://masters.donntu.ru/2011/fknt/shilo/diss/index.htm, свободный. — Загл. с экрана.
  18. Навоев А.С. Разработка и исследования средств оброботки массивов данных в распределенной параллельной моделирующей среды (РПМС) [Электронный ресурс]. — Режим доступа: http://masters.donntu.ru/2011/fknt/navoev/diss/index.htm, свободный. — Загл. с экрана.
  19. Технология CUDA: Что такое CUDA? [Электронный ресурс]. — Режим доступа: http://www.nvidia.ru/object/what_is_cuda_new_ru.html, свободный. — Загл. с экрана.