ОБЗОР МЕТОДОВ ОТОБРАЖЕНИЯ ПРОСТРАНСТВЕННЫХ ДАННЫХ ПОСРЕДСТВОМ КЛАСТЕРИЗАЦИИ

Приходько А.С., Телятников А.О.
Донецкий национальный технический университет кафедра Автоматизированных систем управления

Источник: Тезисы доклада к III международной научно–технической конференции студентов, аспирантов и молодых ученых «Информационные управляющие системы и компьютерный мониторинг — 2012»
 

Аннотация:
Приходько А.С., Телятников А.О. Обзор Методов отображения пространственных данных посредством кластеризации. Рассмотрены существующие проблемы отображения пространственных данных на примере геоинформационной системы Google Map. Выбран наилучший из методов их решения — кластеризация. Рассмотрены существующие методы кластеризации. Определены основные параметры и метрики, необходимые для эффективной кластеризации.

Общая постановка проблемы

За последние 10 лет Интернет распространился в десятки, сотни и даже в тысячи раз (в некоторых странах). И согласно последним данным — сегодня каждый 3 человек на планете находится в интернете. Количество пользователей продолжает увеличиваться.

В тоже время объем данных, хранящихся в Интернете, вплотную приблизился к отметке в 1500 экзабайтов (1500 млрд Гб). По прогнозам аналитиков, через полтора года количество данных вырастет еще в 2 раза. Аналитики подчеркивают, что объем хранящейся в Интернете информации удваивается приблизительно каждые полтора года. Большой процент всех данных, хранящихся в Интернете, составляет геоинформация.

Геоинформационная система предназначена для сбора, хранения, анализа и графической визуализации пространственных данных и связанной с ними информации о представленных в ГИС объектах. Термин также используется в более узком смысле — ГИС как инструмент (программный продукт), позволяющий пользователям искать, анализировать и редактировать цифровые карты, а также дополнительную информацию об объектах.

Но, с ростом объема данных, хранящихся в Интернете, возникли проблемы визуализации большого объема пространственных данных.

В наше время, наиболее распространенной геоинформационной системой является Google Maps. Но и в данной системе существуют свои проблемы с отображением большого количества пространственных данных. Отображение геоинформационных данных может занять большое количество времени — даже для высокоскоростного Интернета такие операции могут стать серьезным испытанием, не говоря уже о скорости подключения у среднестатистического пользователя. Одним из решений данной проблемы является кластеризация.

На данный момент существует большое количество методов кластеризации, использующих разные меры и метрики. Но, несмотря на это, проблема актуальна, разрабатываются новые алгоритмы и подходы. Данная проблема достаточно сложная, поэтому полностью не решена, так как для каждой задачи необходимо выбрать соответствующий алгоритм и меры расстояний. Выбор метрики полностью лежит на исследователе, поскольку результаты кластеризации могут существенно отличаться при использовании разных мер.

Исследования

Кластеризация, основные понятия и цели

Кластеризация (или кластерный анализ) — это задача разбиения множества объектов на группы, называемые кластерами. Внутри каждой группы должны оказаться «похожие» объекты, а объекты разных групп должны быть отличны друг от друга. Главное отличие кластеризации от классификации состоит в том, что перечень групп четко не задан и определяется в процессе работы алгоритма.[4]

Кластерный анализ выполняет следующие основные задачи:

Независимо от предмета изучения, применение кластерного анализа предполагает следующие этапы:

Кластерный анализ предъявляет следующие требования к данным:

После получения и анализа результатов возможна корректировка выбранной метрики и метода кластеризации до получения оптимального результата.

Цели кластеризации: