Автор: Власюк Д.А., Коломойцева И.А.
Источник: Материалы студенческой секции IX Международной научно-технической конференции «Информатика, управляющие системы, математическое и компьютерное моделирование» (ИУСМКМ-2018). – Донецк: ДонНТУ, 2018. – С.63-67.
Власюк Д.А., Коломойцева И.А. Анализ этапов обработки и хранения информации о спортивных состязаниях В работе выполнен анализ этапов обработки информации, а также модели баз данных, необходимых для хранения обработанной информации. Представлены показатели и характеристики, спортивных состязаний с которыми необходимо работать внутри системы.
В наше время существует огромное количество информации, которая находится в глобальной сети Интернет. Данные представляют собой неструктурированный материал, среди которого обычно находится большое количество повторяющихся сведений, а также не актуальных для пользователя. Также происходит процесс постоянного роста информации, а значит, существует необходимость в развитии технологий, которые позволят использовать данные для выполнения определенных задач.
Предварительная обработка информации разделяется на несколько этапов, таких как, консолидация, трансформация и очистка. Наиболее сложным является консолидация, так как именно она и включает в себя получение и сбор информации.
Для того чтобы вручную собрать и проанализировать данные хотя бы из одного источника уйдет большое количество времени, поэтому автоматический сбор и обработка информации крайне необходим для современности. Полученные сведения можно использовать в различных направлениях, в том числе и для прогнозирования будущих событий, например, результатов спортивных состязаний.
Цель работы – анализ этапов обработки информации, а также а также моделей представления данных.
Как было сказано ранее, обработка информации разделяется на 3 этапа, такие как консолидация, трансформация и очистка.
Консолидация – комплекс методов и процедур, направленных на извлечение данных из различных источников, обеспечение необходимого уровня их информативности и качества, преобразование в единый формат, в котором они могут быть загружены в хранилище данных или аналитическую систему [1].
Консолидация данных является начальным этапом реализации любой аналитической задачи или проекта. В основе консолидации лежит процесс сбора и организации хранения данных в виде, оптимальном с точки зрения их обработки на конкретной аналитической платформе или решения конкретной аналитической задачи. Сопутствующими задачами консолидации являются оценка качества данных и их обогащение.
Основные критерии оптимальности с точки зрения консолидации данных[1]:
Ключевым понятием консолидации является источник данных – объект, содержащий структурированные данные, которые могут оказаться полезными для решения аналитической задачи. Необходимо, чтобы используемая аналитическая платформа могла осуществлять доступ к данным из этого объекта непосредственно либо после их преобразования в другой формат [2].
Аналитические приложения, как правило, не содержат развитых средств ввода и редактирования данных, а работают с уже сформированными выборками. Таким образом, формирование массивов данных для анализа в большинстве случаев ложится на плечи заказчиков аналитических решений. В процессе консолидации данных решаются следующие задачи [1]:
Сначала осуществляется выбор источников, содержащих данные, которые могут иметь отношение к решаемой задаче, затем определяются тип источников и методика организации доступа к ним.
При разработке стратегии консолидации данных необходимо учитывать характер расположения источников данных — локальный, когда они размещены на том же ПК, что и аналитическое приложение, либо удаленный, если источники доступны только через локальную или Глобальную компьютерные сети. Характер расположения источников данных может существенно повлиять на качество собранных данных (потеря фрагментов, несогласованность во времени их обновления, противоречивость и т.д.).
Другой важной задачей, которую требуется решить в рамках консолидации, является оценка качества данных с точки зрения их пригодности для обработки с помощью различных аналитических алгоритмов и методов. В большинстве случаев исходные данные являются «грязными», то есть содержат факторы, не позволяющие их корректно анализировать, обнаруживать скрытые структуры и закономерности, устанавливать связи между элементами данных и выполнять другие действия, которые могут потребоваться для получения аналитического решения. К таким факторам относятся ошибки ввода, пропуски, аномальные значения, шумы, противоречия и т.д. Поэтому перед тем, как приступить к анализу данных, необходимо оценить их качество и соответствие требованиям, предъявляемым аналитической платформой. Если в процессе оценки качества будут выявлены факторы, которые не позволяют корректно применить к данным те или иные аналитические методы, необходимо выполнить соответствующую очистку данных [1].
Трансформация – комплекс методов и алгоритмов, направленных на оптимизацию представления и форматов данных с точки зрения решаемых задач и целей анализа. Трансформация не ставит целью изменить информационное содержание данных. Её задача – представить эту информацию в таком виде, чтобы она могла быть использована наиболее эффективно. Данный этап является важным в процессе анализа, потому что эффективность анализа, достоверность и точность результатов зависит от того, насколько грамотно будет выполнен данный этап [3].
Очистка данных – комплекс методов и процедур, направленных на устранение причин, мешающих корректной обработке: аномалий, пропусков, дубликатов, противоречий и шумов [1].
Автоматический сбор информации был бы намного легче, если бы существовала единая система построения сайтов и размещения информации в них. Однако не существует таких стандартов, а значит необходимо извлекать информацию иным способом. Такой подход имеет свои достоинства и недостатки. К достоинствам можно отнести:
Недостатками является то, что необходимо четко отлавливать исключения и ошибки, так как малейшая из них может привести к потере данных.
База данных – совокупность данных, организованных в соответствии с концептуальной структурой, описывающей характеристики этих данных и взаимоотношения между ними, причём такое собрание данных, которое поддерживает одну или более областей применения [4].
По модели данных рассмотрим такую классификацию:
Иерархическая модель данных — это модель данных, где используется представление базы данных в виде древовидной (иерархической) структуры, состоящей из объектов различных уровней [5]. Файловая система компьютера является наглядным примером иерархической базы данных.
Такой тип базы хорошо оптимизирован для чтения информации, что дает возможность быстро выбирать и выдавать необходимую информацию пользователю. Однако недостатком такой структуры является то, что нельзя быстро перебирать информацию, так как необходимо последовательно проходить по всей ветке, что требует много времени и ресурсов. На рисунке 1 представлена структура иерархической базы данных.
Сетевые базы данных представляют из себя некую модификацию иерархической базы данных, если сравнить структуры иерархической и сетевой моделей данных (рис. 1-2), то можно заметить что они схожи между собой, отличием является только то, что в сетевой модели у дочернего элемента может быть несколько предков, то есть, элементов стоящих выше него.
Объектно-ориентированные базы данных – базы данных, в которых информация представлена в виде объектов, как в объектно-ориентированных языках программирования. Основными преимуществами этого подхода являются такие характеристики:
Однако есть ряд недостатков:
Реляционная база данных — это совокупность взаимосвязанных таблиц, каждая из которых содержит информацию об объектах определенного типа. Строка таблицы содержит данные об одном объекте (например, товаре, клиенте), а столбцы таблицы описывают различные характеристики этих объектов – атрибутов (например, наименование, код товара, сведения о клиенте). Записи, то есть строки таблицы, имеют одинаковую структуру – они состоят из полей, хранящих атрибуты объекта. Каждое поле, то есть столбец, описывает только одну характеристику объекта и имеет строго определенный тип данных. Все записи имеют одни и те же поля, только в них отображаются различные информационные свойства объекта [8].
Базы данных — это достаточно абстрактное понятие, так как таблица предназначена для хранения информации, а вот набор таблиц, которые связаны между собой – база данных.
Проектирование структуры базы данных является самой трудоемкой задачей при работе с реляционной моделью. На данном этапе необходимо продумать и создать набор таблиц, связей, таким образом, чтобы увеличение информации не приводило к большому замедлению работы системы. Реляционная модель позволяет модифицировать данные, то есть добавлять, удалять записи без особых усилий. Это дает возможность качественной работы с хранением информации, полученной со страниц Интернет о спортивных состязаниях, так как эта область требует постоянного обновления и добавления информации. К таким данным, можно отнести такие характеристики и статистические показатели:
База данных должна быть максимально информативна и в тоже время компактна и не избыточна. Это даст возможность проще работать с ней и обрабатывать данные, которые можно будет использовать в дальнейшем для прогнозирования результатов состязаний.
Анализ источников показал, что тема получения информации из web-страниц и ее обработки актуальна как в международном, национальном так и в локальном научных сообществах.
В данной работе был выполнен анализ этапов обработки информации, каждый из которых так или иначе будет использоваться для получения необходимых, структурированных сведений; проанализированы модели данных и хранение информации о спортивных состязаниях. Наиболее подходящей моделью является реляционный подход, так как он склонен к модифицированию данных, прост в понимании, а также использовании. Были выделены показатели и характеристики, которые необходимо получать со страниц Интернет и хранить в базе данных.