Назад в библиотеку



Слабоструктурированнные базы данных в гибридной облачной инфраструктуре

Авторы: Плужник Е.В., Никульчев Е.В.
Источник: Электронный научный журнал «Современные проблемы науки и образования»



Анотация: Статья посвящена исследованию вопросов построения и эффективности использования облачных технологий для построения информационных систем научно-образовательного назначения, работающих со слабоструктурированными базами данных. Определены основные принципы функционирования автоматизированных систем управления облачными ресурсами. Особенностями предложенной архитектуры является использование портальных технологий, автоматическое управление ресурсами и гибридная облачная инфраструктура. Для формирования системы управления рабочими потоками запросов к системе научно-образовательного содержания проведены экспериментальные исследования запросов к гибридной базе данных с XML-данными. Приведены результаты экспериментов, показывающие эффективность использования запросов к облачным сервисам. Показано, что для сложных запросов к слабоструктурированным данным время передачи данных из внешнего облака сравнимо с поиском на локальных серверах. На основе опыта разработки систем приведена технология формирования информационных систем, ориентированных на использование облачных сервисов.

Ключевые слова: гибридные облачные инфраструктуры, образовательные информационные системы,распределенные базы данных, облачные вычисления.



Постановка задачи

Под облачными вычислениями, как правило, понимают интернет-сервисы, предоставляемые специализированными центрами обработки данных в виде аппаратного и системного программного обеспечения [9]. В соответствии с [5] облачные вычисления – это распределенная вычислительная система, состоящая из набора взаимосвязанных виртуальных машин, позволяющая динамически предоставлять вычислительные ресурсы с определенным уровнем обслуживания.

Оба приведенных определения дают представление о современном направлении в информационных технологиях — облачных сервисах, дающих возможность размещать программные приложения и базы данных во внешних центрах обработки данных и делать их доступными через Интернет. Разделяют три вида облачных сервисов: инфраструктура как услуга (IaaS), платформа как услуга (PaaS) и программное обеспечение как услуга (SaaS). Для поддержки приложений Amazon, HP, IBM, Google развернули облачные центры обработки данных по всему миру.

Управление информационными системами на основе полноценного использования облачной инфраструктуры предлагает решение сложных задач [6-8]:

В целом мировые тенденции таковы, что облачные сервисы вытесняют «классические» архитектуры информационных систем, основанные на построении и сопровождении собственных дата-центров (в настоящее время обеспечение отказоустойчивости и критического восьмичасового времени восстановления требует вложения не одной сотни миллионов рублей в серверную плюс затраты на энергообеспечение и строительные работы; последние часто во многих зданиях вообще не осуществимы). Поэтому надо быть готовым к переносу существующих систем в облака. Особенно это актуально для вузов [3], использующих современные дистанционные технологии, и компаний, оказывающих услуги по Интернету для большой пространственно-распределенной группы потребителей [9].

В последнее время появилось значительное количество работ зарубежных авторов, посвященных разработке автоматизированных систем управления динамическим распределением облачных ресурсов. Автономные системы управления облачными ресурсами объединяют в себе свойства самоконтроля, самовосстановления и оптимизации, основанные на мониторинге собственных ресурсов и вычислении настройки собственной работы [6].

Статья посвящена разработке методологии построения информационных систем академического назначения, использующих технологию гибридных облаков, основанную на опыте Московского технологического института «ВТУ». Особенностью систем научного и образовательного назначения является значительное количество слабоструктурированных данных [4].

1. Архитектура управления облачными системами

В [6] определены основные принципы функционирования автоматизированных систем управления ресурсами. Применительно к задачам построения информационных систем в облачной инфраструктуре (компоненты архитектуры) они будут иметь вид, приведенный на рис. 1.

pic1
Рисунок 1 – Структура облачных сервисов с автоматическим управлением.

Основными компонентами архитектуры являются:

2. Структура экспериментального исследования запросов

Для формирования блока управления рабочими потоками запросов к системе научно-образовательного содержания проведены экспериментальные исследования, которые схематично можно представить в виде рис. 2. Для экспериментального исследования использовались базы данных, структура которых приведена на рис. 3а.

pic1
Рисунок 2 – Структура экспериментального построения системы управления потоками.
pic1
Рисунок 3 – Структуры данных. а) Схема данных локальной БД б) Схема данных Гибридного хранилища

В таблице Articles хранятся статьи, размер статьи от 100 Кб до 3 Мб. В таблице Authers содержатся данные авторов статей. Таблица AuthorOfArticles связывает автора со статьёй. У одной статьи может быть один главный автор и несколько соавторов. В тестовой загрузке может быть от 0 до 9 соавторов.

В локальной БД (articlesLocal) данные об авторах и статье хранятся в реляционной базе данных MS SQL Server. Занимаемая память на сервере БД (articlesLocal) 26667,25 МБ.

Структура гибридной БД приведена на рис. 2б. В гибридной БД (articlesHybrid) информация об авторах и статьях в локальной БД на MS SQL Server, а тело статьи — в облачном хранилище Azure Storage. Занимаемая память на сервере БД (articlesHybrid) 47,08 Мб, в облаке — приблизительно 27 Гб.

Произведены тестовые поисковые запросы. Результаты двух экспериментов приведены в табл. 1, 2 и на рис. 4, 5.

Таблица 1. Результаты эксперимента 1.

Записей в секунду

Число записей в запросе

Время извлечения всех статей

Среднее время выполнения запроса

Локальная

Гибридная

Локальная

Гибридная

Локальная

Гибридная

0,908074

0,826204

1

110,123

121,035

1,101

1,210

0,335978

0,329768

2

297,638

303,243

2,976

3,032

0,21054

0,208225

3

474,969

480,248

4,749

4,802

0,150936

0,149446

4

662,533

669,136

6,625

6,691

Таблица 2. Результаты эксперимента 2.

Записей в секунду

Число записей в запросе

Время извлечения всех статей

Среднее время выполнения запроса

Локальная

Гибридная

Локальная

Гибридная

Локальная

Гибридная

0,556313

0,545451

1

179,755

183,334

1,7975

1,833

0,244723

0,242872

2

408,625

411,739

4,0862

4,117

0,160304

0,159421

3

623,816

627,270

6,238

6,272

0,113419

0,113139

4

881,689

883,8712

8,8168

8,838

0,091235

0,090954

5

1096,066

1099,451

10,960

10,994

0,075317

0,075191

6

1327,718

1329,938

13,277

13,299

0,062359

0,062254

7

1603,613

1606,330

16,036

16,063

0,050944

0,050865

8

1962,932

1965,999

19,629

19,659

0,04377

0,043714

9

2284,675

2287,614

22,846

22,876

0,03787

0,037819

10

2640,578

2644,182

26,405

26,441

Рис. 4. Результаты эксперимента 1.

 

Рис. 5. Результаты эксперимента 2.

3. Технология построения облачных информационных систем

Проведенные исследования показали, что для больших баз данных со сложными запросами к слабоструктурированным данным имеет место отсутствие временных потерь на передачу данных в проведенном эксперименте.

Таким образом, для построения информационных систем научного и образовательного содержания со слабоструктурированными данными разработана технология, состоящая из четырех этапов.

  1. Оценка общих параметров системы (максимальное количество пользователей для одновременной работы, возможность масштабирования сервисов, наличия персонифицированного доступа).
  2. Оценка стоимости проекта (наличие собственных серверных мощностей, сравнение стоимости построения со стоимостью аренды сервисов).
  3. Оценка времени доступа к данным, оценка производительности запросов для облачных инфраструктур.
  4. Построение автоматической системы распределения ресурсов и направления запросов в распределенной базе данных.

Для решения первого этапа используются многокритериальные методы принятия решений, второй этап реализуется на основе экономико-математических методов оценки проектов; третий и четвертый - на основе методов оптимизации и эффективной оценки поисковых запросов.

Результаты использованы для построения систем в НОУ ВПО «Московский технологический институт «ВТУ».

Работа выполнена частично при финансовой поддержке РФФИ (грант № 11‑07‑00772‑а).

Рецензенты:

Ковшов Е.Е., д.т.н., профессор, зав. кафедрой управления в технических система МГТУ «СТАНКИН», г. Москва.

Барахнин В.Б., д.т.н., доцент, с.н.с. ИВТ СО РАН, г. Новосибирск.

Список источников