Реферат по теме выпускной работы

При написании данного реферата магистерская работа еще не завершена. Окончательное завершение: июнь 2019 года. Полный текст работы и материалы по теме могут быть получены у автора или его руководителя после указанной даты.

Содержание

Введение

В наше время существует огромное количество информации, которая находится в глобальной сети Интернет. Данные представляют собой неструктурированный материал, среди которого обычно находится большое количество повторяющихся сведений, а также не актуальных для пользователя. Также происходит процесс постоянного роста информации, а значит, существует необходимость в развитии технологий, которые позволят использовать данные для выполнения определенных задач.

1. Актуальность темы

Предварительная обработка информации разделяется на несколько этапов, таких как, консолидация, трансформация и очистка. Наиболее сложным является консолидация, так как именно она и включает в себя получение и сбор информации.

Для того чтобы вручную собрать и проанализировать данные хотя бы из одного источника уйдет большое количество времени, поэтому автоматический сбор и обработка информации крайне необходим для современности. Выбранная тема является актуальной, так как полученные сведения можно использовать в различных направлениях, в том числе и для прогнозирования будущих событий, например, результатов спортивных состязаний.

2. Цель и задачи исследования, планируемые результаты

Целью исследования является анализ этапов обработки информации, а также методов прогнозирования с точки зрения применения их в системе предсказания спортивных состязаний.

Основные задачи исследования:

3. Обзор исследований и разработок

Исследуемая тема популярна не только в международных, но и в национальных научных сообществах.

3.1 Обзор международных источников

Среди международных источников были найдены материалы, посвященные автоматизированному предсказанию результата спортивных состязаний, рассмотрены и проработаны методы извлечения, хранения и обработки информации, полученной из html-страниц.

Так в работе Xin Luna Dong, Evgeniy Gabrilovich, Geremy Heitz и пр. Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion [1] авторы рассматривают методы машинного обучения для слияния отдельных источников информации, ее синтеза и дополнения новыми материалами без повторов. В статье приведены результаты нескольких исследований, которые демонстрируют относительную полезность различной информации, источники и методы извлечения.

Eftim Zdravevski и Andrea Kulakov в статье System for prediction of the winner in a sports game [2] представляют систему, которая облегчает прогнозирование победителя спортивных соревнований. Система состоит из методов для: сбора данных из интернета о различных видах спорта, предварительной обработки полученных данных, выбора информации и построение модели. Использованные алгоритмы были проверены на применимость для такого рода вопросов, результаты так же приведены в материалах статьи.

В статье Rory P. Bunker и Fadi Thabtah A machine learning framework for sport result prediction [3] представлен критический анализ литературы по машинному обучению, в котором основное внимание уделяется применению искусственной нейронной сети (ANN) для прогнозирования спортивных результатов. При этом определенеы используемые методики обучения, источники данных, соответствующие средства оценки моделей и конкретные проблемы прогнозирования спортивных результатов. В последствии был разработан новый подход к спортивному прогнозированию, с помощью которого машинное обучение можно использовать в качестве учебной стратегии.

3.2 Обзор национальных источников

Среди национальных источников можно отметить работу Поляковой М.Ю. и Судакова Б.Н. Разработка подхода к созданию алгоритма синтаксического анализа естественно-языкового текста информационно-поисковых систем [4]. В статье рассмотрены существующие методы синтаксического анализа естественно-языкового текста и выделены основные преимущества и недостатки, разработан усовершенствованный алгоритм синтаксического анализа. Авторы доказывают и обосновывают опытным путем, что параллельное использование синтаксического и семантического анализа позволяет сократить временные затраты на обработку естественно-языкового текста.

В книге Интернетика. Навигация в сложных сетях: модели и алгоритмы Ландэ Д.В, Снарского А.А. и Безсуднова И.В. [5] рассматриваются вопросы, относящиеся к информационной структуре веб-пространства, теории сложных сетей, моделям информационного поиска и глубинного анализа текстов, общим закономерностям современных информационных потоков и их моделированию.

Благодаря взаимодействию ученых различных направлений, компания Яндекс провела мероприятие, посвященное анализу данных в спорте. В статье Анализ данных в спорте: взаимодействие учёных, клубов и федераций. Лекция в Яндексе [6] коротко рассказано о задачах и принимаемых решениях с помощью анализа данных в спорте. Рассмотрен потенциал спортивного рынка, анализ данных в мировом спорте, приведены ссылки на журналы, которые ведут работу в данном направлении.

3.3 Обзор локальных источников

В реферате Арбузовой О.В. Разработка и исследование алгоритмов для повышения эффективности интеллектуального анализа web-контента [7] описан анализ существующих подходов к извлечению данных и знаний из Web, рассмотрены этапы извлечения значимых документов с Web-страниц и фильтрация шума. Разработаны алгоритмы извлечения объектов из текстовых документов на основе шаблонного метода.

Анохина В. С. в автореферате на тему Автоматизация извлечения знаний из Internet в форме онтологии для построения прикладных баз знаний [8] приводит теоретические понятия семантических сетей, повествует об онтологии как способе представления знаний.

4. Анализ методов извлечения знаний из сети Интернет и их хранение

4.1 Автоматический сбор и обработка информации

Как было сказано ранее, обработка информации разделяется на 3 этапа, такие как консолидация, трансформация и очистка.

Консолидация – комплекс методов и процедур, направленных на извлечение данных из различных источников, обеспечение необходимого уровня их информативности и качества, преобразование в единый формат, в котором они могут быть загружены в хранилище данных или аналитическую систему [9].

Консолидация данных является начальным этапом реализации любой аналитической задачи или проекта. В основе консолидации лежит процесс сбора и организации хранения данных в виде, оптимальном с точки зрения их обработки на конкретной аналитической платформе или решения конкретной аналитической задачи. Сопутствующими задачами консолидации являются оценка качества данных и их обогащение.

Основные критерии оптимальности с точки зрения консолидации данных [9]:

Ключевым понятием консолидации является источник данных – объект, содержащий структурированные данные, которые могут оказаться полезными для решения аналитической задачи. Необходимо, чтобы используемая аналитическая платформа могла осуществлять доступ к данным из этого объекта непосредственно либо после их преобразования в другой формат [10].

Аналитические приложения, как правило, не содержат развитых средств ввода и редактирования данных, а работают с уже сформированными выборками. Таким образом, формирование массивов данных для анализа в большинстве случаев ложится на плечи заказчиков аналитических решений. В процессе консолидации данных решаются следующие задачи [9]:

Сначала осуществляется выбор источников, содержащих данные, которые могут иметь отношение к решаемой задаче, затем определяются тип источников и методика организации доступа к ним.

При разработке стратегии консолидации данных необходимо учитывать характер расположения источников данных — локальный, когда они размещены на том же ПК, что и аналитическое приложение, либо удаленный, если источники доступны только через локальную или Глобальную компьютерные сети. Характер расположения источников данных может существенно повлиять на качество собранных данных (потеря фрагментов, несогласованность во времени их обновления, противоречивость и т.д.).

Другой важной задачей, которую требуется решить в рамках консолидации, является оценка качества данных с точки зрения их пригодности для обработки с помощью различных аналитических алгоритмов и методов. В большинстве случаев исходные данные являются «грязными», то есть содержат факторы, не позволяющие их корректно анализировать, обнаруживать скрытые структуры и закономерности, устанавливать связи между элементами данных и выполнять другие действия, которые могут потребоваться для получения аналитического решения. К таким факторам относятся ошибки ввода, пропуски, аномальные значения, шумы, противоречия и т.д. Поэтому перед тем, как приступить к анализу данных, необходимо оценить их качество и соответствие требованиям, предъявляемым аналитической платформой. Если в процессе оценки качества будут выявлены факторы, которые не позволяют корректно применить к данным те или иные аналитические методы, необходимо выполнить соответствующую очистку данных [9].

Трансформация – комплекс методов и алгоритмов, направленных на оптимизацию представления и форматов данных с точки зрения решаемых задач и целей анализа. Трансформация не ставит целью изменить информационное содержание данных. Её задача – представить эту информацию в таком виде, чтобы она могла быть использована наиболее эффективно. Данный этап является важным в процессе анализа, потому что эффективность анализа, достоверность и точность результатов зависит от того, насколько грамотно будет выполнен данный этап [11].

Очистка данных – комплекс методов и процедур, направленных на устранение причин, мешающих корректной обработке: аномалий, пропусков, дубликатов, противоречий и шумов [9].

Автоматический сбор информации был бы намного легче, если бы существовала единая система построения сайтов и размещения информации в них. Однако не существует таких стандартов, а значит необходимо извлекать информацию иным способом. Такой подход имеет свои достоинства и недостатки. К достоинствам можно отнести:

Недостатками является то, что необходимо четко отлавливать исключения и ошибки, так как малейшая из них может привести к потере данных.

4.2 Модели баз данных и хранение информации о спортивных состязаниях

База данных – совокупность данных, организованных в соответствии с концептуальной структурой, описывающей характеристики этих данных и взаимоотношения между ними, причём такое собрание данных, которое поддерживает одну или более областей применения [12].

По модели данных рассмотрим такую классификацию:

Иерархическая модель данных — это модель данных, где используется представление базы данных в виде древовидной (иерархической) структуры, состоящей из объектов различных уровней [13]. Файловая система компьютера является наглядным примером иерархической базы данных.

Такой тип базы хорошо оптимизирован для чтения информации, что дает возможность быстро выбирать и выдавать необходимую информацию пользователю. Однако недостатком такой структуры является то, что нельзя быстро перебирать информацию, так как необходимо последовательно проходить по всей ветке, что требует много времени и ресурсов. На рисунке 1 представлена структура иерархической базы данных.

Структура иерархической модели данных

Рисунок 1 – Структура иерархической модели данных

Сетевые базы данных представляют из себя некую модификацию иерархической базы данных, если сравнить структуры иерархической и сетевой моделей данных (рис. 1-2), то можно заметить что они схожи между собой, отличием является только то, что в сетевой модели у дочернего элемента может быть несколько предков, то есть, элементов стоящих выше него.

Структура сетевой модели данных

Рисунок 2 – Структура сетевой модели данных

Объектно-ориентированные базы данных – базы данных, в которых информация представлена в виде объектов, как в объектно-ориентированных языках программирования. Основными преимуществами этого подхода являются такие характеристики:

Однако есть ряд недостатков:

Реляционная база данных — это совокупность взаимосвязанных таблиц, каждая из которых содержит информацию об объектах определенного типа. Строка таблицы содержит данные об одном объекте (например, товаре, клиенте), а столбцы таблицы описывают различные характеристики этих объектов – атрибутов (например, наименование, код товара, сведения о клиенте). Записи, то есть строки таблицы, имеют одинаковую структуру – они состоят из полей, хранящих атрибуты объекта. Каждое поле, то есть столбец, описывает только одну характеристику объекта и имеет строго определенный тип данных. Все записи имеют одни и те же поля, только в них отображаются различные информационные свойства объекта [16].

Базы данных — это достаточно абстрактное понятие, так как таблица предназначена для хранения информации, а вот набор таблиц, которые связаны между собой – база данных.

Проектирование структуры базы данных является самой трудоемкой задачей при работе с реляционной моделью. На данном этапе необходимо продумать и создать набор таблиц, связей, таким образом, чтобы увеличение информации не приводило к большому замедлению работы системы. Реляционная модель позволяет модифицировать данные, то есть добавлять, удалять записи без особых усилий. Это дает возможность качественной работы с хранением информации, полученной со страниц Интернет о спортивных состязаниях, так как эта область требует постоянного обновления и добавления информации. К таким данным, можно отнести такие характеристики и статистические показатели:

База данных должна быть максимально информативна и в тоже время компактна и не избыточна. Это даст возможность проще работать с ней и обрабатывать данные, которые можно будет использовать в дальнейшем для прогнозирования результатов состязаний.

Выводы

Анализ источников показал, что тема получения информации из web-страниц и ее обработки актуальна как в международном, национальном так и в локальном научных сообществах.

В данной работе был выполнен анализ этапов обработки информации, каждый из которых так или иначе будет использоваться для получения необходимых, структурированных сведений; проанализированы модели данных и хранение информации о спортивных состязаниях. Наиболее подходящей моделью является реляционный подход, так как он склонен к модифицированию данных, прост в понимании, а также использовании. Были выделены показатели и характеристики, которые необходимо получать со страниц Интернет и хранить в базе данных.

Список источников

  1. Xin Luna Dong, Evgeniy Gabrilovich, Geremy Heitz, Wilko Horn, Ni Lao, Kevin Murphy, Thomas Strohmann, Shaohua Sun, Wei Zhang. Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion [Текст] / Xin Luna Dong, Evgeniy Gabrilovich, Geremy Heitz, Wilko Horn, Ni Lao, Kevin Murphy, Thomas Strohmann, Shaohua Sun, Wei Zhang [Электронный ресурс]. – Режим доступа: https://www.cs.ubc.ca/~murphyk/papers/kv-kdd14.pdf.
  2. Eftim Zdravevski, Andrea Kulakov. System for Prediction of the Winner in a Sports Game [Текст] / Eftim Zdravevski, Andrea Kulakov [Электронный ресурс]. – Режим доступа: https://www.researchgate.net/profile/Eftim_Zdravevski/publication/226597761_System_for_Prediction_of_the_Winner_in_a_Sports_Game/links/5577fee408aeb6d8c01cec9c/System-for-Prediction-of-the-Winner-in-a-Sports-Game.pdf.
  3. Rory P.Bunkera, Fadi Thabtah. A machine learning framework for sport result prediction [Текст]/ Rory P.Bunkera, Fadi Thabtah [Электронный ресурс]. – Режим доступа: https://www.sciencedirect.com/science/article/pii/S2210832717301485.
  4. Полякова М.Ю., Судаков Б.Н. Разработка подхода к созданию алгоритма синтаксического анализа естественно-языкового текста информационно-поисковых систем [Текст] / М.Ю. Полякова, Б.Н. Судаков [Электронный ресурс]. – Режим доступа: https://cyberleninka.ru/article/n/razrabotka-podhoda-k-sozdaniyu-algoritma-sintaksicheskogo-analiza-estestvenno-yazykovogo-teksta-informatsionno-poiskovyh-sistem.
  5. Ландэ Д.В., Снарский А.А., Безсуднов И.В. Интернетика. Навигация в сложных сетях: модели и алгоритмы [Текст] / Д.В Ландэ, А.А. Снарский, И.В. Безсуднов [Электронный ресурс]. – Режим доступа: http://dwl.kiev.ua/art/internetica/internetica.pdf.
  6. Анализ данных в спорте: взаимодействие учёных, клубов и федераций. Лекция в Яндексе [Электронный ресурс]. – Режим доступа: https://habr.com/company/yandex/blog/351948/.
  7. Арбузова О.В. Разработка и исследование алгоритмов для повышения эффективности интеллектуального анализа web-контента [Электронный ресурс]. – Режим доступа: http://masters.donntu.ru/2013/fknt/arbuzova/index.htm.
  8. Анохина В.С. Автоматизация извлечения знаний из Internet в форме онтологии для построения прикладных баз знаний [Электронный ресурс]. – Режим доступа: http://www.masters.donntu.ru/2005/fvti/anohina/index.html.
  9. Консолидация данных – ключевые понятия [Электронный ресурс]. – Режим доступа: http://www.cfin.ru/itm/olap/cons.shtml.
  10. Задачи консолидации [Электронный ресурс]. – Режим доступа: http://bourabai.kz/tpoi/olap01.htm.
  11. Трансформация данных [Электронный ресурс]. – Режим доступа: https://basegroup.ru/community/glossary/transformation.
  12. База данных [Электронный ресурс]. – Режим доступа: https://ru.wikipedia.org/wiki/База_данных.
  13. Иерарическая модель данных [Электронный ресурс]. – Режим доступа: https://ru.wikipedia.org/wiki/Иерархическая_модель_данных.
  14. Введение в объектно-ориентированные базы данных [Электронный ресурс]. – Режим доступа: https://habr.com/post/56399/.
  15. Объектно-ориентированные базы данных: достижения и проблемы [Электронный ресурс]. – Режим доступа: https://www.osp.ru/os/2004/03/184042/.
  16. Реляционная база данных и ее особенности. Виды связей между реляционными таблицами [Электронный ресурс]. – Режим доступа: http://www.yaklass.ru/materiali?chtid=511&mode=cht.