Резюме Биография Реферат Библиотека Ссылки Отчет о поиске Индивидуальный раздел

Тема: Методы и алгоритмы оптимизации доступа к пространственным данным в СУБД HBase


Содержание:


  1. Цели и задачи
  2. Актуальность
  3. Научная новизна
  4. Планируемые практические результаты
  5. Обзор геоинформационных систем
  6. Системы распределенного хранения и обработки данных
  7. Математические методы решения задачи
  8. Заключение
  9. Литература

Цели и задачи

Типичные задачи интеллектуального анализа пространственных данных включают кластеризацию, классификацию и определение трендов. Основное отличие между извлечением знаний в обычных базах данных и в пространственных – это то, что атрибуты соседей определенного пространственного объекта имеют влияние на сам этот объект. Поэтому алгоритмы извлечения знаний из пространственных данных сильно зависят от эффективности процесса определения отношения соседства для какого-либо пространственного объекта. Операция определения отношения соседства между пространственными объектами требует много вычислительного времени. Простой алгоритм поиска соседних объектов имеет вычислительную сложность , так как необходимо просматривать все пары объектов. Таким образом, целью работы является анализ проблемы актуальности данных генерирующихся в ГИС, а также выявление методов и алгоритмов, с помощью которых можно эффективно индексировать пространственные данные [1].


Актуальность

В последнее время появляется большое количество информационных систем генерирующих пространственные данные. Такие системы обычно называют геоинформационными системами (ГИС). Это такие системы как сенсорные сети, системы дистанционного зондирования Земли, спутниковый мониторинг транспорта и др. Все это говорит о том, что количество и объемы пространственных баз данных будут продолжать быстро расти. Интеллектуальный анализ этих данных может дать много полезной информации о реальном физическом мире и помочь в решении своих задач экспертам таких предметных областей как экология, землеустройство, муниципальное управление, транспорт, экономика и многих других.


Научная новизна

Научная новизна состоит в использовании кодов Мортона и древовидной структуры данных такой, как дерево квадрантов, которые позволят индексировать пространственные объекты для их дальнейшей обработки. Такой подход должен обеспечить высокую производительность в распределенных системах использующих СУБД HBase.


Планируемые практические результаты

С помощью данной работы предполагается получить решение проблемы индексации пространственных данных получаемых из геоинформационных систем.


Обзор геоинформационных систем

Существенным отличием ГИС от других информационных систем с пространственной локализацией данных является включение в описание пространственных объектов топологических характеристик и классификация на этой основе пространственных объектов на: точечные, линейные и площадные (ареальные). Временной аспект, как правило, включает три фактора долговременный, средне временный и оперативный. С этим аспектом связана характеристика качества информации – актуальность и процедура актуализации данных. По временной характеристики информация, хранимая и ГНС, обычно подразделяется на:
• долгосрочную (десятки лет хранения);
• среднесрочную (годы);
• годовую и сезонную;
• оперативную.
Однако временной аспект данных в ГИС определяется и классом решаемых задач. Например, в большинстве ГИС оперативное и определяется от одной недели до двух-трех недель. В специальных ГИС­ (военная разведка, анализ чрезвычайных ситуаций) оперативность может составлять минуты. Тематическая информация в ГИС не ограничена. Именно это создает возможность использования ГИС как универсальной информационной системы для решения разнообразных задач. Мало того, именно тематическая информация является основной, в то время как пространственная информация служит связующим звеном для объединения, сопоставления, поиска и интерпретации разнообразной тематической информации. В большинстве технологий ГИС для определения места используют два класса данных: один класс – позиционные (координатные) данные; другой класс – атрибутивные данные для определения параметров времени и тематической направленности.



Системы распределенного хранения и обработки данных

Для работы с большими объемами данных в последнее время все активнее используется распределенное хранение и обработка. Причем наблюдается переход от использования высокопроизводительных мэйнфреймов к кластерным системам, состоящим из большого числа недорогих серверов с архитектурой x86-64 [2]. После опубликования фирмой Google статей раскрывающей принципы хранения и обработки данных, реализованные ей для своих сервисов [3, 4], появились открытые проекты, реализующие эти принципы. Наиболее успешным из них на сегодняшний день является проект Hadoop. Hadoop является свободным Java фреймворком, поддерживающим выполнение распределённых приложений, работающих на больших кластерах, объединяющих обычные сервера под управлением открытой операционной системы Linux. Для распределенного хранения данных используется файловая система Hadoop Distributed File System (HDFS), которая является открытым аналогом Google File System (GFS). Поверх этой файловой системы работает СУБД HBase, которая является аналогом СУБД BigTable от Google [3]. В Hadoop реализована вычислительная парадигма, известная как MapReduce [4]. Согласно этой парадигме приложение разделяется на большое количество небольших заданий, каждое из которых может быть выполнено на любом из узлов кластера. Все эти технологии позволяют достичь очень высокой агрегированной пропускной способности кластера. Эта система позволяет приложениям легко масштабироваться до уровня тысяч узлов и петабайт данных. Поэтому разработку пространственных индексов мы будем выполнять для СУБД HBase.


Математические методы решения задачи

Для построения пространственного индекса предлагается использовать структуру данных дерево квадрантов (quadtree) . Дерево квадрантов – это древовидная структура данных, в которой корневой и каждый внутренний узел имеет четыре дочерних узла [4]. Эта структура данных была разработана специально для разбивки двумерного пространства с помощью рекурсивного разделения его на четыре квадранта (рис. 1).

Принцип использования дерева квадрантов

Рисунок 1 – Принцип использования дерева квадрантов



Индексация пространственных объектов, разбивка на блоки

Рисунок 2 – Индексация пространственных объектов, разбивка на блоки


Корень дерева делит область на 4 квадранта СВ, СЗ, ЮЗ, ЮВ (в соответствии с картой). Каждый уровень дерева квадрантов требует два бита кода Мортона. Для кодирования географических координат мы предлагаем использовать код длиной 64 бита. Так как географические координаты Земли варьируются от -90° до 90° по широте и от -180° до 180° по долготе 64-х битный код Мортона позволит задавать координаты с точностью вплоть до седьмого знака после запятой в десятичном представлении градусов. Коды Мортона были выбраны благодаря простоте расчета номера ячейки по геометрическим координатам. Пространственные базы данных оперируют такими двумерными геометрическими объектами как точка, ломаная линия и многоугольник. Точка в двумерном пространстве представляется двумя географическими координатами: долготой и широтой. Рассмотрим алгоритм определения кода Мортона для координат точки в двумерном пространстве: для того, чтобы получить код Мортона для узла содержащего точку , достаточно перевести индексы x и y в бинарное представление, после чего построить новое число, по очереди беря по одному разряду из двоичного представления каждого числа [5, 6]. Рассмотрим теперь более сложный случай, когда индексируется пространственный объект, представленный ломаной или многоугольником. Любой двумерный объект может быть заменен описанным прямоугольником (bounding box) [7, 8] с некоторой потерей точности. Это позволяет упростить расчеты и значительно увеличить скорость обработки пространственных запросов. Использование этого подхода является обычной практикой при построении индексов пространственных данных. Таким образом, произвольный двумерный объект при индексации представляется в виде описанного прямоугольника. Дерево квадрантов обладает свойством адаптивности. Это означает. Что пространственные объекты могут индексироваться узлами разного уровня. Все зависит от площади индексируемого объекта. Если индексируется точка, то используется узел нижнего уровня (рис. 2, рис. 3). Если же индексируется объект представленный прямоугольником, то ссылка на него записывается в узел, размер которого минимально превышает размер этого прямоугольника [1].


Индексация пространственных объектов, древовидная структура

Рисунок 3 – Индексация пространственных объектов, древовидная структура


Взаимное влияние между пространственными объектами определяется топологическим отношением, расстоянием и направлением между объектами. Для определения топологических отношений между двумя пространственными объектами A и B обычно используются следующие предикаты [9, 10]:
• equals – объект A совпадает с объектом B;
• disjoint – объект A пространственно разделен с объектом B;
• intersects – объект A пересекается с объектом B;
• touches – объект A соприкасается с объектом B;
• crosses – объект A пространственно скрещивается с объектом B;
• within – объект A находится внутри объекта B;
• contains – объект A содержит объект B;
• overlaps – объект A частично пространственно перекрывает объект B.
Подробное описание этих предикатов можно найти в стандарте Open Geospatial Consortium (OGC) [10]. Кроме топологических отношений, между пространственными объектами существуют отношения направления (например, объект A находится к северу от объекта B). Для задания отношения направления при разработке индексов мы использовали англоязычные выражения: south, southwest, west, northwest, north, northeast, east, southeast и any_direction. Расстояние между двумя пространственными объектами задается вещественным числом. Объекты считаются соседними, если расстояние между ними не превышает некоторое заданное значение. В индексных таблицах вместе с топологическим отношением и отношением направления мы будем хранить расстояние между объектами [11]. Для уменьшения размера индексной таблицы необходимо обеспечить возможность задания максимального расстояния между объектами, при котором они будут считаться соседними. Это расстояние может быть константой, либо зависеть от площадей индексируемых объектов [1].


Заключение

В результате работы был проведен анализ геоинформационных систем, выявлены основные их недостатки в плане индексирования и извлечения пространственных данных. Для решения данной проблемы был разработан метод индексации пространственный данных в СУБД HBase.


Литература


1. А. Телятников, С. Гимадеев, Индексация пространственных данных для ускорения их интеллектуального анализа, ISDMCI ′2011 / Материалы международной научной конференции. Евпатория, ХНТУ, 2011, с. 317–321.
2. Gartner. Gartner Predicts Video Telepresence Will Replace 2.1 Million Airline Seats Per Year by 2012. http://www.gartner.com/it/page.jsp?id=876512.
3. Chang F., Dean J., Ghemawat S., et al. Bigtable: a distributed storage system for structured data. In Proceedings of the 7th USENIX Symposium on Operating Systems Design and Implementation – Volume 7 (OSDI '06), Vol. 7. USENIX Association, Berkeley, CA, USA, 15.
4. Dean J., Ghemawat, S. Mapreduce: simplified data processing on large clusters. Commun. ACM, January 2008, 51:107–113 pp.
5. Morton G.M. A computer oriented geodetic data base and a new technique in file sequencing. Technical report, IBM Ltd., Ottawa, Ontario, Mar. 1966.
6. Larsson, Thomas, and Tomas Akenine-Moller, Collision Detection for Continuously Deforming Bodies, Eurographics 2001.
7. Samet H. The Design and Analysis of Spatial Data Structures. Addison-Wesley, Reading, MA, 1990.
8. Finkel R., Bentley J.L. Quad Trees: A Data Structure for Retrieval on Composite Keys. Acta Informatica 4 (1): 1–9 pp., 1974.
9. Ester M., Kriegel H.-P., Sander J. Knowledge Discovery in Spatial Databases, invited paper at 23rd German Conf. on Artificial Intelligence (KI '99), Bonn, Germany, 1999.
10. Cormen, T.H., C.E. Leiserson, and R. Rivest, Introduction to Algorithms, MIT Press, Inc., Cambridge, Massachusetts, 1990.
11. Yiwei Wu, Yingshu Li, Distributed Indexing and Data Dissemination in Large Scale Wireless Sensor Networks, http://www.cs.gsu.edu/yli/papers/icccn09.pdf