Реферат по теме выпускной работы
Содержание
- Введение
- 1. Актуальность темы
- 2. Цель и задачи исследования
- 3. Предполагаемая научная новизна
- 4. Обзор исследований и разработок по теме
- 5. Разработка подсистемы баз данных в РПМС
- 5.1 Описание распределенной параллельной моделирующей среды (РПМС)
- 5.2 Декомпозиция РПМС
- 5.3 Подсистема БД в составе РПМС
- 6. Масштабируемые хранилища данных
- Выводы
- Список источников
Введение
Компьютеры были созданы для решения вычислительных задач, однако со временем они все чаще стали использоваться для построения систем обработки документов, а точнее, содержащейся в них информации. Такие системы обычно и называют информационными.
Информационные системы требуют создания в памяти ЭВМ динамически обновляемой модели внешнего мира с использованием единого хранилища – базы данных. Словосочетание «динамически обновляемая» означает, что соответствие базы данных текущему состоянию предметной области обеспечивается не периодически, а в режиме реального времени. При этом одни и те же данные могут быть по-разному представлены в соответствии с потребностями различных групп пользователей [1].
Помимо информационных систем важнейшее значение имеют динамические системы. Динамическая система – любой объект или процесс, в котором происходят однозначно определенные, целенаправленные процессы изменения состояния, рассматриваемые как изменение совокупных величин в данный момент времени, сопровождающийся изменением параметров, состояний на протяжении определенного времени, для которых задан закон, описывающий изменение начального состояния с течением времени [2].
Использование подсистемы баз данных в распределенной параллельной моделирующей среде может положительно повлиять на работу всей системы в целом, увеличив быстродействие, надежность и защищенность.
1. Актуальность темы
В настоящее время одним из наиболее важных инструментов прогнозирования и анализа в различных областях человеческой деятельности является компьютерное моделирование сложных динамических систем. При помощи него можно оценивать эффективность изменений, применяемых в систему, а также предвидеть возможные последствия внедрения этих изменений. Результаты, получаемые в процессе моделирования, позволяют специалистам принимать решения по возможным оптимизациям параметров системы с целью повышения её эффективности и надежности.
Становление систем управления базами данных (СУБД) совпало по времени со значительными успехами в развитии технологий распределенных вычислений и параллельной обработки. В результате возникли подсистемы управления базами данных в составе параллельных систем [3].
Таким образом, актуальным является всесторонняя компьютерная поддержка этого процесса – разработка подсистемы баз данных в составе распределенной параллельной моделирующей среды (РПМС), которая позволит значительно увеличить эффективность при обработке массива данных.
2. Цель и задачи исследования
Целью данной магистерской работы является проектирование и моделирование оптимальной подсистемы баз данных в распределенной параллельной моделирующей среде (РПМС).
Для достижения поставленной цели необходимо решить следующие основные задачи:
- Изучить особенности декомпозиции РПМС
- Определить роль подсистемы БД в структуре РПМС
- Проанализировать существующие структуры БД, выделив преимущества и недостатки каждой
- Разработать оптимальную архитектуру СУБД
- Реализовать взаимодействие разработанной подсистемы с другими подсистемами в РПМС
3. Предполагаемая научная новизна
Научная новизна состоит в том, что в результате данной работы планируется получение оптимальной структуры базы данных, которая будет соответствовать описанным ранее критериям. Планируется получить новые подходы к распараллеливанию, развитие методики построения сложных динамических систем с внедрением максимально эффективной подсистемы базы данных.
4. Обзор исследований и разработок по теме
Перед началом достижения поставленной цели важно ознакомиться с состоянием разработок в этой области. Ведь эта проблематика не нова и исследуется уже несколько лет во многих развитых странах мира. Основную концепцию РПМС для сложных динамических систем было предложено в 1992 году в рамках научного сотрудничества факультета ВТИ (ныне КНТ) Донецкого национального технического университета (ДонНТУ) и Института параллельных и распределенных систем (IPVS) Штуттгартского университета (Германия). Эта концепция была более детально изложена в докладе на ASIM-симпозиуме в 1994 году [4] и далее развита в работах многих научных деятелей.
В своей работе «Универсальные моделирующие среды» Аноприенко А.Я., Святный В.А. [12] привели полное описание концепции универсальной моделирующей среды (УМС), а также пути обеспечения её универсальности. Были охарактеризованы основные компоненты таких сред, состоящие из аппаратных и программных средств, а также важные особенности, которыми должны обладать УМС.
В докладе «Оценка масштабируемости параллельных вычислений для одношаговых многоточечных методов решения задачи Коши» Фельдман Л.П., Назарова И.А. [13] исследовали масштабируемость параллельных вычислений с использованием кластеров ДонНТУ, имеющих MIMD-архитектуру с распределенной памятью (однородный NeClus-2010 и неоднородный WCCS-2003). В докладе так же приведены результаты применения теории изоэффективного анализа для неоднородной параллельной вычислительной системы, которая может иметь в своем составе, как процессоры разной продуктивности, так и сетевое оборудование разной пропускной способности.
Данной проблематикой занимались также Молдованова А.В., Солонин А.М., Надеев Д.В. В их работах раскрываются особенности параллельных моделирующих сред.
В частности, в статье «Состояние разработок и перспективы интеграции параллельных моделирующих сред с Grid-технологиями» Молдовановой А.В. [14] параллельное моделирование рассматривается как интердисциплинарная проблема, которой занимаются эксперты из разных предметных областей. И одним из направлений развития методов и способов параллельного моделирования сложных ДСРП является интеграция концепций РПМС с концепциями географически распределенных GRID-систем. В работе особое внимание уделено тому, что такая интеграция основывается на разработке эксклюзивной части, которая зависит от предметной области и анализа существующих компонент.
В работе «Подсистема обмена данными в распределенной параллельной моделирующей среде» Солонин А.Н. [15] полностью описал структуру и функции подсистемы обмена информацией, разработал систему требований к этой системе как объекту моделирования, а также привел анализ аппаратной и программной базы подсистемы.
В научном труде «Балансирование загрузки ресурсов в распределенной параллельной моделирующей среде» Надеева Д.В. [16] описана аппаратно-программная и структурная организация средств балансирования загрузки в РПМС. В частности, определено, что использование программных средств подсистемы балансирования загрузки РПМС привело к повышению качества параллельного моделирования сложных динамических систем. Это позволило комплексно решить проблему оптимизации обработки моделей СДС в РПМС по критериям равномерной загрузки ресурсов и минимизации времени выполнения.
В направлении подсистемы баз данных РПМС занимались магистры ДонНТУ: Шило А.В., Навоев А.С., Меренков А.В., Мусенко Е.А., Мельников А.И. и другие. В своих работах они рассмотрели и определили основную концепцию функциональности баз данных в составе РПМС и ее инфологическую структуру, предложили новый подход к структуризации данных в базе и использованию современных СУБД.
В магистерской работе «Разработка подсистемы баз данных распределенной параллельной моделирующей среды» Шило А.В. [17] описал архитектуру подсистемы баз данных, предназначенную для работы в распараллеленной системе. Представленная в работе структура позволяет выполнить все поставленные задачи, а так же удовлетворяет основным требования по реализации баз данных в распараллеленных системах.
В работе «Разработка и исследования средств оброботки массивов данных в распределенной параллельной моделирующей среды (РПМС)» магистра Навоева А.С. [18] приведена структура, поведение и описание СУБД, которая оперирует всеми данными системы. Эти данные необходимо обрабатывать или анализировать с помощью мощных инструментов интенсивной обработки данных.
Довольно информативным источником является магистерская работа Мусенко Е.А. «Разработка подсистемы баз данных в распределенной параллельной моделирующей среде» [7]. В ней подробно расписана структура РПМС в целом и роль подсистемы баз данных в ней. Особое внимание в работе уделено также основным особенностям, которыми должна обладать эффективная подсистема баз данных.
Были также найдены различные публикации, касающиеся непосредственно аспектов развития параллельного моделирования и распределенных моделирующих систем. В них были описаны новые подходы к моделированию в рамках данной проблематики. В частности, технология CUDA, позволяющая использовать множество вычислительных ядер графического процессора для универсальных математических расчетов, обеспечивая беспрецедентный рост производительности [19].
5. Разработка подсистемы баз данных в РПМС
5.1 Описание распределенной параллельной моделирующей среды (РПМС)
Распределенная параллельная моделирующая среда (РПМС) – это такая системная организация совместного функционирования параллельных аппаратных ресурсов, системного и моделирующего программного обеспечения, которая поддерживает все этапы разработки, реализации и применения параллельных моделей СДС в соответствии с определенными требованиями [5,9].
Характерной особенностью РПМС является способность выполнять вычисления отдельных частей объекта одновременно и независимо друг от друга, т.е. параллельно. Распараллеливание позволяет значительно ускорить процесс моделирования. Аппаратными средствами для этого выступают распределенные системы: компьютерные кластеры, Grid, параллельные структуры с использованием GPU [6].
5.2 Декомпозиция РПМС
Ученые предлагают рассматривать РПМС как систему, состоящую из следующих десяти подсистем [7].:
- Подсистема диалога (ПД) используется для отображения презентации функций и возможностей РПМС. Она обеспечивает диалог системы и разработчика, а также согласование задач симулирования, планирования и управления.
- Подсистема топологического анализа (ПТА) обеспечивает ввод заданной топологии динамической системы, ее представление во внутреннем формате, преобразование топологической информации в вид, удобный для генерации системы уравнений, вывод результатов анализа заданной топологии. Выполняет вербальное и графическое описание кодировки для первичных топологий.
- Подсистема генерирования уравнений (ПГУ) осуществляет коммуникацию с подсистемой топологического анализа для получения кодированной топологии объекта, превращение результатов ее работы в векторно-матричный вид.
- Подсистема параллельных виртуальных симуляционных моделей (ППВСМ) предоставляет средства для интерактивного отображения иерархии виртуальных параллельных симуляционных моделей в зависимости от возможных вариантов распараллеливания.
- Подсистема параллельного решателя уравнений (ППРУ) осуществляет взаимодействие с подсистемами топологического анализа и подсистемой виртуальных параллельных моделей. В этой системе производится решение систем уравнений с помощью параллельных библиотек, определение сходимости, стабильности, точности и оптимизации параметров, а также формирование результатов решения для представления в виде, удобном для пользователя.
- Подсистема обмена данными (ПОД) включает полный список компонент и ресурсов РПМС. Определяет структуру данных для обмена, а также осуществляет обмен информацией между подсистемами. По запросу пользователя может выводить содержание потоков данных внутри системы.
- Подсистема балансировки нагрузки (ПБН) определяет и оценивает загрузку виртуальных процессов. Осуществляется сравнительный анализ подходов распараллеливания по критериям распределения нагрузки.
- Подсистема визуализации (ПВ) предоставляет возможность подсистеме диалога выводить результаты работы РПМС в удобном для пользователя виде (топология и графики моделирования в виде графических объектов).
- Подсистема базы данных (ПБД) осуществляет взаимодействие со всеми подсистемами РПМС и хранит данные каждого этапа моделирования, а также информацию о пользователях, их запросах и задачах. С определенным интервалом осуществляет резервное копирование данных.
- Подсистема информационных технологий (ПИТ) удаленное WEB-базированное приложение для моделирования [10].
5.3 Подсистема БД в составе РПМС
В работе исследуется подсистема баз данных, одна из самых важных в составе РПМС. Она должна иметь возможность хранения и быстрого доступа к информации, которая связана с РПМС. К этой информации относятся:
- аппаратная архитектура системы
- данные о программном обеспечении
- данные о пользователях
- данные о процессе моделирования
- данные о результатах тестирования
Важной функцией подсистемы является возможность архивации и сжатия данных о результатах выполнения [8].
При выборе программной платформы для реализации подсистемы баз данных к ней ставятся следующие требования:
- высокая скорость выполнения кода;
- простота и высокая надежность;
- модульность;
- развитый инструментарий [10].
6. Масштабируемые хранилища данных
В последнее время интерес к облачным архитектурам растет с каждым днем, так как это один из наиболее эффективных способов масштабировать приложение, не прикладывая больших усилий, а самым узким местом любого высоконагруженного проекта является хранилище данных, в частности реляционная база данных. Для борьбы с недостатками традиционных БД в основном используется 2 подхода:
- Кэширование результатов выполнения запросов.
- NoSQL решения.
Преимуществом первого подхода является высокая скорость доступа к данным, в то время, когда второй подход обладает хорошей горизонтальной масштабируемостью. Но оба эти подхода имеют также и существенные недостатки. Проблема первого подхода заключается в том, что из-за высоких скоростей данные в кеше будут терять свою актуальность и устаревать. Эта ситуация создаст дополнительную нагрузку на систему. Второй подход характеризуется низкой скоростью получения результатов, что также отрицательно оказывает влияние на работу системы в целом.
Существует такой тип хранилища, который объединяет описанные выше преимущества, при этом лишен практически всех вышеперечисленных недостатков. Такой тип имеет название In-memory-data-grid (IMDG).
IMDG – это кластерное key-value хранилище, которое предназначено для высоконагруженных проектов, имеющих большие объемы данных и повышенные требования к масштабируемости, скорости и надежности. Основными частями IMDG являются кэши.
Кэш в IMDG – это распределенный ассоциативный массив, обеспечивающий быстрый конкурентный доступ к данным с любого узла кластера.
Кэш также позволяет производить обработку этих данных распределенно, т.е. модификация любых данных может быть произведена с любого узла кластера.
Все данные в кэшах хранятся в сериализованном виде, а это значит, что (время получения какого-либо объекта из кэша) = (время перемещения объекта на конкретный узел кластера) + (время на десериализацию). Если, допустим, запрашиваемый объект расположен на том же узле, тогда (время получения) = (время на десериализацию), что является нерациональным. Поэтому в концепцию IMDG было введено понятие near-cache.
Near-cache – это локальный кэш объектов для быстрого доступа, все объекты в нем хранятся готовыми к использованию. Если near-cache для данного кэша сконфигурирован, то объекты туда попадают автоматически при первом get-запросе этих объектов.
Таким образом, технология In-memory-data-grid объединяет в себе достоинства NoSQL и систем кэширования, устраняет некоторые их существенные недостатки и позволяет поднять производительность системы на новый уровень [11].
Выводы
В результате проведенной работы, которая имеет, в общем, исследовательский характер, можно уверенно сказать, что подсистема баз данных играет важную роль в комплексном функционировании РПМС, так как она оперирует всеми данными системы, которые необходимо обрабатывать или анализировать. Большие объемы этих данных требуют эффективной организации процесса обмена, хранения и обработки данных для обеспечения быстрой и безопасной работы системы. И именно использование новых технологий, которые будут учитывать свойства как программного обеспечения, так и аппаратной части является актуальным современным направлением развития РПМС.
Таким образом, исследование и разработка этой подсистемы – это еще один шаг в развитии РПМС и систем моделирования в целом.
При написании данного реферата магистерская работа еще не завершена. Окончательное завершение: декабрь 2013 года. Полный текст работы и материалы по теме могут быть получены у автора или его руководителя после указанной даты.
Список источников
- Зеленков Ю.А. Введение в базы данных [Электронный ресурс]. — Режим доступа: http://www.mstu.edu.ru/study/materials/zelenkov/toc.html, свободный. — Загл. с экрана.
- Feldmann L.P., Svjatnyj V.A., Resch M., Zeitz M.: Forschungsgebiet: parallele Simulationstechnik [Электронный ресурс]. — Режим доступа: http://www.nbuv.gov.ua/portal/natural/Npdntu/Pm/2008/08flpfps.pdf, свободный. — Загл. с экрана.
- М. Тамер Оззу, Патрик Валдуриз – журнал Системы Управления Базами Данных # 4/1996, издательский дом «Открытые системы» Новая редакция: Сергей Кузнецов, 2009г.
- Святний В.А. Паралельне моделювання складних динамічних систем // Моделирование — 2006: Международная конференция. Киев, 2006 г. — Киев, 2006. — С. 83–90.
- Абрамов Ф.А., Фельдман Л.П., Святный В.А. Моделирование динамических процессов рудничное Аэрология.– К.: Наук. Мысль, 1981.-284с.
- Мирошниченко К.В. Разработка и исследование подсистемы топологического анализа сетевых динамических систем как объектов моделирования [Электронный ресурс]. — Режим доступа: http://masters.donntu.ru/2011/fknt/myroshnychenko/diss/index.htm, свободный. — Загл. с экрана.
- Мусенко Е.А. Разработка подсистемы баз данных в распределенной параллельной моделирующей среде [Электронный ресурс]. — Режим доступа: http://masters.donntu.ru/2012/fknt/musenko/diss/index.htm, свободный. — Загл. с экрана.
- Меренков А.В.Разработка и организация подсистемы баз данных распределенной параллельной моделирующей среды (РПМС) [Электронный ресурс]. — Режим доступа: http://masters.donntu.ru/2010/fknt/merenkov/diss/index.htm, свободный. — Загл. с экрана.
- Святный В.А. Моделирование аэрогазодинамических процессов и разработка систем управления проветривание систем шахт. Докт. дисс, Донецк, ДПИ, 1986
- Мельников А.И. Подсистема обмена данными в распределенной параллельной моделирующей среде [Электронный ресурс]. — Режим доступа: http://masters.donntu.ru/2012/fknt/melnikov/diss/index.htm, свободный. — Загл. с экрана.
- In-memory-data-grid. Масштабируемые хранилища данных [Электронный ресурс] / Хабрахабр. — Режим доступа: http://habrahabr.ru/post/126580/, свободный. — Загл. с экрана.
- Аноприенко А.Я., Святный В.А. Универсальные моделирующие среды // Сборник трудов факультета вычислительной техники и информатики. Вып.1. – Донецк: ДонГТУ. – 1996. С.8-23.
- Фельдман Л.П., Назарова И.А. Оценка масштабируемости параллельных вычислений для одношаговых многоточечных методов решения задачи Коши [Электронный ресурс]. — Режим доступа: http://ea.donntu.ru:8080/jspui/handle/123456789/8337, свободный. — Загл. с экрана.
- Святний, В.А., Молдованова, О.В., Чут, А.М. Стан розробок та перспективи інтеграції паралельних моделюючих середовищ з Grid-технологіями [Электронный ресурс]. — Режим доступа: http://ea.donntu.ru:8080/jspui/handle/123456789/7339, свободный. — Загл. с экрана.
- Солонин А.Н. Подсистема обмена данными в распределенной параллельной моделирующей среде [Электронный ресурс]. — Режим доступа: http://ea.donntu.ru:8080/jspui/handle/123456789/1584, свободный. — Загл. с экрана.
- Надеев Д.В. Балансирование загрузки ресурсов в распределенной параллельной моделирующей среде [Электронный ресурс]. — Режим доступа: http://ea.donntu.ru:8080/jspui/handle/123456789/17429, свободный. — Загл. с экрана.
- Шило А.В. Разработка подсистемы баз данных распределенной параллельной моделирующей среды [Электронный ресурс]. — Режим доступа: http://masters.donntu.ru/2011/fknt/shilo/diss/index.htm, свободный. — Загл. с экрана.
- Навоев А.С. Разработка и исследования средств оброботки массивов данных в распределенной параллельной моделирующей среды (РПМС) [Электронный ресурс]. — Режим доступа: http://masters.donntu.ru/2011/fknt/navoev/diss/index.htm, свободный. — Загл. с экрана.
- Технология CUDA: Что такое CUDA? [Электронный ресурс]. — Режим доступа: http://www.nvidia.ru/object/what_is_cuda_new_ru.html, свободный. — Загл. с экрана.