Развитие распределенных технологий и систем

Авторы: А.Н. Алпатов

Источник: Международный электронный научный журнал «Перспективы Науки и Образования» Выпуск №2(14)/2015 http://cyberleninka.ru/article/n/razvitie-raspredelennyh-tehnologiy-i-sistem

Аннотация

Статья состояние и развитие распределенных систем. Описаны основные типы распределенных систем. Раскрывается использование распределенных информационных систем и распределенных вычислительных систем. Приведены примеры распределенных информационных систем. Описаны особенности их функционирования.

Рассмотрены концепции создания и построения GRID систем. Основная задача построения данных систем направлена на решение вопросов самоорганизации и автоматизации процессов, происходящих в GRID. Рассматриваются концепция под названием «автономные вычисления» для реализации которой необходимо, чтобы система удовлетворяла ряду требований: самовосстановлению, самоконфигурированию и самозащите.

Выявлены различия и сходства между распределёнными информационными системами (РИС) и распределенными вычислительными системами (РВС). Общим для обеих типов является структура и организация, а различие состоит в функциях пространственного распределения.

Ключевые слова: информационные системы, информационные потоки, распределенные системы, распределенные вычислительные системы, распределённые информационные системы

Введение

Сетевые информационные технологии входят во многие сферы производства. Стремительное развитие данной области привело к многообразию построения распределенных информационных систем различного назначения. Классифицировать и типизировать распределенные системы можно по различным признакам: по количеству элементов в системе, по уровню организации, по типу ресурсов и т.д. Анализ показывает [1, 2, 3], что по назначению можно выделить следующие типы: распределенные вычислительные системы [4]; распределенные информационные системы [5, 6]; распределенные системы обнаружения вторжений [7]. В зависимости от размещения узлов в пространстве можно выделить [2] следующую типизацию распределенных систем: пространственно-распределенные; локально распределенные системы. По характеру связи и управления процессами распределенные системы делятся на синхронные и асинхронные системы. В современном обществе существует необходимость в повышении качества и скорости обработки в первую очередь «больших данных» [8]. В связи с этим возрастает значение распределенных систем хранения [9] и обработки данных [6], как средства решения этой проблемы.

Распределенные информационные системы

Распределенные информационные системы (РИС) получили широкое распространение при построении корпоративных информационных систем. Концепции построения распределенных информационных систем характеризуются наличием большого множества технологий для их реализации. Одним из возможных вариантов реализации РИС является их построение на основе протокола ANSI/NISO Z39.50. Протокол Z39.50 предназначен для осуществления связи между компьютерными системами и определяет модель поиска информации и формат ее выдачи, но не определяет форматы хранения информации в базах данных [10]. Благодаря чему клиент может осуществлять поиск информации между базами данных различных поставщиков информации, в независимости от их функциональных особенностей и программой организации. В результате использования данного протокола возможно создание распределенных информационных систем, в состав которых входят базы данных различных организаций.

При реализации проектов информационных порталов встает вопрос обеспечения качественного и быстрого поиска требуемой информации по различным источникам информации. В отличие от поисковых машин (Google, Yandex), где поиск строится на основе предварительной индексации, корпоративные поисковые системы зачастую не удовлетворяют необходимому качеству выдаваемой информации. Использование протокола Z39.50 позволяет обеспечить необходимую скорость и качество поисковой выдачи. Основным отличием от других подобных систем является особая модель поиска информации. Благодаря функциональным особенностям протокола для организации поискового запроса достаточно указать список серверов, по которым будет осуществлен поиск и сам поисковый запрос. При этом пользователь не знает общую структуру той или иной базы данных. Язык запросов стандарта основан на логических высказываниях с использованием логических операторов (AND,OR,AND-NOT).

Данный протокол активно применяется при реализации информационных систем как зарубежными, так и отечественными организациями. Среди проектов, построенных с использованием протокола Z39.50, можно выделить [2]:

в области корпоративных электронных библиотек — ZLOT, Арбикон;
в области гуманитарных наук и искусства — AHDS;
в области геоинформационных систем —IAI —DIS , Clearinghouse.

Отечественным проектом по созданию распределенных информационных систем, реализованных с использованием протокола Z39.50 является проект АРБИКОН. Ассоциация Региональных Библиотечных Консорциумов (АР- БИКОН) была создана с целью создания единого библиотечного консорциума и повышения качества управления деятельностью библиотек. Вхождение участников предполагалось осуществлять на добровольной некоммерческой основе. [12] Анонсирования проекта состоялось в мае 2002 года. На сегодняшний момент к проекту подключено большинство ведущих библиотек в 57 регионах РФ. С технической точки зрения портал проекта АРБИКОН является Z39.50- WWW шлюзом, с возможностью поиска материалов по базам монографий, научных статей и т.д.

Проект AHDS был инициализирован национальной службой Великобритании с целью сохранения в цифровом виде информационных ресурсов в областях искусства и гуманитарных наук. Проект стартовал в 1996 году и прекратил свое существование в 2008 году, хотя все веб-сервисы, связанные с данным проектом, функционируют до сегодняшнего момента. На момент прекращения финансирования, проект включал большое количество территориально-распределенных баз данных. С целью координации действий были созданы пять координирующих центров, каждый из которых отвечал за предметную область:

археология — Университет Йорка
история — Университет Эссекса
литература, языки и лингвистика — Оксфордский университет
театры — университет Глазго
изобразительное искусство — Ньюкасл.

Особое внимание уделяют проектам по созданию распределенных геоинформационных систем, созданных с применением данного протокола. Распределенные системы находят широкое применение в областях . При проектировании и реализации распределенной ГИС необходимо учитывать специфику данной области. Для успешного функционирования подобного рода систем необходимо обеспечить ряд требований [13]:

распределенный доступ к системе
распределенное хранение данных
распределенная обработка данных

С учетом вышеизложенных требований для протокола Z39.50 был создан профиль GEO (Geospatial Metadata).[14] GEO профиль фокусируется прежде всего на реализации GEO-сервера, работающего в среде Интернет. Клиенты могут соединяться и взаимодействовать с любым GEO-сервером. При этом клиенты, которые поддерживают протокол Z39.50, но не используют профиль GEO, будут иметь доступ к информации, но будут ограничены по функционалу [15].

Среди реализованных проектов с по созданию распределенных геоинформационных систем можно выделить такие проекты, как Clearinghouse, IAI-DIS и отечественные проекты ИВТ СО РАН с реализованной информационно-поисковой системой атлас «Мхи России» (см. рис.1).

Проект распределенной информационной системы ИВТ СО РАН с целью обеспечения единой точки входа для обеспечения эффективного поиска в распределенных базах данных и удобного анализа полученных результатов поиска. Исходный код системы распространяется по лицензии GNU General Public License. Характерной чертой системы является т обстоятельство, что доступ к системе осуществляется посредством WWW, то есть клиентом системы может быть любой браузер. С технической точки зрения данная система построена по модульному принципу. Обеспечение принципа распределенной ГИС достигается за счет использования Z39.50 и профиля Cip (фактический новый протокол Z39.50 CIP). Распределенные ГИС находят широкое применение в Системе государственного топографического мониторинга [17].

Распределенные вычислительные системы.

Главной особенностью таких систем, является характер распределения ресурсов. Все ресурсы (память, процессоры и др.) реализованы не на одном устройстве, а распределены на узлах системы [4].

До конца 90-х годов прошлого века основным вектором развития распределенных вычислительных систем (РВС) являлась парадигма создания сосредоточенных систем. Типичным примером данного подхода явилось создание вычислительных кластеров научных организаций. Под термином вычислительный кластер обычно понимают систему, состоящую из вычислительных узлов, объединенных коммутационной сетью. Среди реализованных проектов можно выделить кластеры таких научных организаций, как ИРЭ РАН и ВЦ РАН. Данные системы были созданы для решения трудоемких задач, во многих областях науки, таких, например, как меторологические исследования, исследования задач динамики и ряда др. Использование РВС для решения подобных задач является необходимым условием для качественного решения, так как многие задачи не могут быть решены на одном вычислительном узле за полиноминальное время.

Особого внимания заслуживает разработки отечественных ученых по построению распределенных вычислительных систем с программируемой структурой. Исследования в данном направлении активно поддерживаются Сибирским отделением РАН. Под вычислительной системой с программируемой структурой стоит понимать совокупность элементарных машин (ЭМ), действие которой основано на модели коллектива вычислителей [4]. Основной задачей данных систем является распределенная обработка информации. Первыми опытными разработками по созданию ВС с программируемой архитектурой начались в 60-х годах прошлого века. Среди реализованных проектов ВС можно выделить такие системы как МИНИМАКС, СУММА, МИКРОС-1, МИКРОС-2, МИКРОС-T.

Идеология объединения географически распределенных кластеров развилась в начале 90-х годов прошлого века. Основная сложность для развития данного подхода была заключена в объединении гетерогенных компонентов вычислительных узлов. Частично, данная проблема была решена благодаря новому подходу к построению ПО, за счет его разделение на два слоя:

слой распределенного приложения
связующий слой программного обеспечения (англ. middleware)

Первыми экспериментами по объединению территориально-разрозненных вычислительных компьютерных центров стали американский проект CASA и отечественный Астра. Именно в то время и возник термин метакомпьютинг. Первыми экспериментальными системами по объединению территориально-распределенных стали такие проекты, как FAFNER и I-WAY [17]. Хотя, конечно же, проекты FAFNER и I-WAY были созданы для различных целей (FAFNER предполагал объединение в единую сеть простых рабочих станций, а проект I-WAY предполагал объединение ресурсов суперкомпьютерных центров), но все же они имели немало общих черт. Основной задачей для данных проектов являлось создание распределенных систем с эффективным обменом данными, управлением ресурсами и обработкой данных.

Проект FAFNER (англ. Factoring via Network enabled recursion) был создан для умножения простых чисел криптографических задач, путем разделения задачи на небольшие фрагменты и их дальнейшего распределения на узлы системы.

Целью создания проект I-WAY являлось объединение ресурсов вычислительных центров в единое целое. Отличительной особенностью данного проекта являлось использование для управлением потоками задач брокера ресурсов. Идеи, заложенные в проекты FAFNER и I-WAY, оказали сильное влияние на развитие таких проектов, как ГЛОБУС (Globus) [18] и Legion [19].

Первым отечественным опытом по созданию территориально-распределенной вычислительной системой стал проект Астра, иницированный ИМ СО АН СССР и Новосибирским электротехническим институтом MB и ССО РСФСР. Проект предполагал построение территориально-распределенных систем на базе ЭВМ «Минск-32» и телефонных каналов связи. Первая рабочая конфигурация системы была введена в эксплуатацию в 1972 г. Система предполагала неограниченные возможности по наращиванию вычислительных мощностей, но каждая ЭВМ, входящая в состав системы, могла соединяться только лишь с двумя соседними ЭВМ. На рис.2 представлена схема распределенной системы Астра [4]. В дальнейшем, работа по модернизации системы продолжилась. Весь опыт по построению системы Астра, в дальнейшем лег в основу системы АРАККС (Асинхронная Распределенная вычислительная система с Комбинированными Каналами Связи).

Существенный прорыв в области построения пространственно-распределенных систем образовался благодаря развитию концепции GRID (Global Resource Information Distribution). Концепция Grid Computing (распределенные сети, или "решетки" вычислительных ресурсов) на сегодняшний день представляет собой ведущую технологию создания распределенных вычислительных систем (РВС).

В 1998 году Фостер и Кельман опубликовали статью [20], в которой предложили концептуально новый подход к организации глобально-распределенных систем. Как следует из статьи, грид-системы являются «программно- аппаратными структурами, обеспечивающими надежный и недорогой доступ к высокопроизводительным вычислительным возможностям». По своей сути, идеология компьютерных грид-системы является моделированием электрических сетей. Грид – архитектура позволяет соединять между собой географически рассредоточенные вычислительные узлы посредством сети Интернет в некоторую абстрактную решетку (англ. GRID – решетка), в которой каждый узел предоставляет ресурсы для совместного использования в конкретной задаче. Данная вычислительная модель системы позволяет объединять не только сосредоточенные кластеры, но и ПК обычных пользователей сети Интернет в некий единый виртуальный суперкомпьютер. Возможность использования данного подхода к организации территориально-распределенных систем стало возможным, благодаря развитию общей индустрии информационных технологий, а именно:

развитию высокоскоростных сетей передачи данных;
увеличению производительности ПК;
созданию стандартизированных протоколов передачи данных.

На рис.3 представлена одна из возможных структур Grid Computing.

Среди значимых систем второго поколения можно выделить такие проекты как Globus, gLite, Legion, Unicore. Проект Globus с разработанным инструментарием Globus Toolkit, позволяет объединить множество территориально распределенных гетерогенных ресурсов в единую виртуальную систему. Инструментарий Globus Toolkit имеет открытый исходный код. Стоит понимать, что данный инструментарий не является готовым техническим решением для организации распределенных вычислений, а представляет собой лишь набор стандартов и инструментов. Широкое применение инструментария обуславливается, прежде всего, отсутствием жесткой модели программирования, в результате чего разработчик может использовать широкий набор инструментов в соответствии с потребностью. Проект Globus был поддержан многими производителями программного обеспечения, такими как IBM, Sun, HP, Intel.

Проект Legion был разработан в университете Вирджиния и предоставляет собой программную среду для организации географически распределенной системы, в состав которой могут входить рабочие станции, векторные суперкомпьютеры и параллельные суперкомпьютеры [19]. Основное отличие от подобного рода систем является поддержка объектно-ориентированного модели, в которой грид представлялся в виде легиона и все компоненты являются компонентами. Однако многих исследователей отталкивала объектно-ориентированная модель, вследствие чего их внимание смещалось в сторону Globus, а проект был закрыт.

Концепция грид-систем активно развивается и отечественными учеными. К примеру, исследователями Лаборатории вычислительных систем Института физики полупроводников им. А.В. Ржанова СО РАН и Центром параллельных вычислительных технологий Сибирского государственного университета телекоммуникаций и информатики (СибГУТИ) создана масштабируемая GRID-модель – пространственно-распределенная мультикластерная ВС. В состав системы входят вычислительные кластеры данных организаций. Операционная система системы построена на ядре Linux. Так же в состав системы входит инструментарий разработчика для разработки программных продуктов, включающий такие средства как GCC, ряд библиотек для организации параллельных вычислений(MPI, OpenMP).

Дальнейшим развитием в области построения пространственно-распределенных систем явилась разработка третьего поколения GRID. Основная задача построения данных систем направлена не на стандартизации интерфейсов, а на решение вопросов самоорганизации и автоматизации процессов, происходящих в GRID [20]. Стоит понимать, что исследования в области стандартизации интерфейсов не остановились, а продолжают развиваться в таких концепциях, как SOA и SOC, что привело к созданию новых коммуникационных протоколов, в частности SOAP (Simple Object Access Protocol).

Ярким примером демонстрирующий вектор развития систем является концепция, выдвинутая фирмой IBM в 2001 году, которая получила название «автономные вычисления». Для реализации концепции автономных вычислений необходимо, чтобы система удовлетворяла ряду требований:

Самовосстановление. Система должна восстанавливаться в рабочее состояние в случае возникновения сбоя;
Самоконфигурирования. Система должна самостоятельно конфигурировать свое ПО в случае обновления;
Самозащита. Система должна обеспечивать сохранность данных при возможных попытках вторжения в систему.

Развитием создания грид-систем с идеологией «автономных вычислений» являлся такой проект как IBM OptimalGrid. В дальнейшем идеология автономных грид-систем была подхвачена многими проектами в области распределенной обработки данных и существующие системы в той или иной степени поддерживают идеологию автономных вычислений.

Заключение

Распределенные системы являются новым инструментарием позволяющим решать большое количество известных и новых задач. Распределенные системы позволяют наращивать вычислительные мощности. Различают распределенные информационные системы (РИС) и распределенные вычислительные системы (РВС). Общим для обеих типов является структура и организация. Различие в функциях пространственном распределении. РИС ориентированы на поиск, хранение и передачу информации. Они могут быть локализованными и пространственно-распределенными. Например, пространственно распределенные ГИС, пространственно-распределенные базы данных. РВС локализованы. Они имеют распределенную структуру и распределение информационных потоков, которые подвергаются обработке. Оба типа систем решают социальные задачи. Они расширяют доступ к обработке, хранению и представлению информации для множества пользователей.

Литература

И.Б. Бурдонов, А.С. Косачев, В.Н. Пономаренко, В.З. Шнитман. Обзор подходов к верификации распределенных систем. М.: Российская Академия Наук. Институт системного программирования (ИСП РАН). 2003. 51 с.
Цветков В.Я., Алпатов А.Н. Проблемы распределённых систем // Перспективы науки и образования. 2014. № 6. С.31-36.
Blaze M. et al. The role of trust management in distributed systems security // Secure Internet Programming. Springer Berlin Heidelberg, 1999. pр.185-210.
Хорошевский В.Г. Распределенные вычислительные системы с программируемой архитектурой // Вестник СибГУТИ. 2010. № 2. С.3-41.
Поляков А.А., Цветков В.Я. Прикладная информатика: Учебно-методическое пособие: В 2-х частях: Часть.2 / Под общ. ред. А.Н. Тихонова. М.: МАКС Пресс. 2008. 860 с.
Шокин Ю. И. и др. Распределенная информационно-аналитическая система для поиска, обработки и анализа пространственных данных // Вычислительные технологии. 2007. Т. 12. №. 3. С. 108-115.
Распознавание и отслеживание новых опасных червей при помощи разветвленной системы обнаружения вторжения [Электронный ресурс]. URL: http://www.securitylab.ru/analytics/216247.php
Tsvetkov V. Yа., Lobanov A. A. Big Data as Information Barrier // European Researcher, 2014, Vol.(78), № 7-1, pp. 1237-1242.
Цветков В.Я. Базы данных. Эксплуатация информационных систем с распределенными базами данных. М.: МИИГАиК, 2009. 88 с.
Жижимов О.Л. Введение в Z39.50: 4-е изд. доп. и перераб. Новосибирск: Изд-во НГОНБ, 2003. 261 с.
Воройский Ф.С. Концепция создания и использования информационных ресурсов ассоциации «АРБИКОН» // Электрон. дан.URL: http://www.arbicon.ru.
Иванников А.Д., Кулагин В.П., Тихонов А.Н., Цветков В.Я. Прикладная геоинформатика. М.: МаксПресс, 2005. 360 с.
Z39.50 Application Profile for Geospatial Metadata or "GEO" [Electronic resource]. URL: http://www.fgdc.gov/standards/ projects/GeoProfile/
Майоров А.А., Соловьёв И.В., Цветков В.Я., Дубов С. С., Шкуров Ф.Ф. Мониторинг инфраструктуры пространственных данных. М.:Изд-во МИИГАиК, 2012. 198 с.
Молородов Ю.И., Смирнов В.В., Федотов А.М. Сервисы геоинформационной системы сбора, хранения и обработки данных натурных наблюдений. / в сб. Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды XI Всероссийской научной конференции RCDL"2009 (Петрозаводск, Россия, 17-21 сентября 2009 г.). Петрозаводск: КарНЦ РАН, 2009. 487 с.
Бровко Е.А. Проблема создания Системы государственного топографического мониторинга: оценка вероятности ее реализации на основе программно-целевого метода и графо-аналитического моделирования // Славянский форум. 2013. № 1(3). С.14-32.
F. Berman, G. C. Fox and A. J. G. Hey. Grid Computing: Making the Global Infrastructure a Reality, Ed. Wiley, 2003.
Lewis M., Grimshaw A. The core Legion object model // High Performance Distributed Computing, 1996., Proceedings of 5th IEEE International Symposium on. IEEE, 1996. pp. 551-561.
I. Foster and C. Kesselman. The Grid: Blueprint for a New Computing Infrastructure. Morgan Kaufmann, San Francisco, CA, 1998.