Автореферат

квалификационной работы магистра

"Построение прогностического комплекса и внедрения его в электронную сеть университета"


Актуальность

Адекватный (правдивый) прогноз погоды – это одна из важных современных проблем, имеющих практическое применение. Очень часто погодные условия становятся для людей бедственными. В развитых странах погода и климат давно стали категориями экономическими. Каждый год в мире стихийные бедствия уносят около 250 тысяч человеческих жизней, размер ущерба, наносимого имуществу, лежит в пределах 50-100 млрд. долларов США. Но мировая статистика показывает, если доверять гидрометеорологической информации и адекватно на нее реагировать, то можно предотвратить от 30 до 40% потерь и полностью избежать человеческих жертв.

Особенно заметный экономический эффект дает использование метеорологической информации в авиации, энергетике, строительстве, рыболовстве и судоходстве, сельском хозяйстве.

Предсказание погоды с научной точки зрения – одна из сложнейших задач физики атмосферы. За последние десятилетия развитие идей и методов прогнозирования заметно продвинулось вперед, и этому способствовало как развитие математических подходов и усовершенствование методов исследования атмосферы, так и использование современной компьютерной техники. Существуют различные методы для прогнозирования метеорологических явлений и их величин, например, синоптические, численные, статистические методы, но в полном объеме ни один из них пока не обеспечивает точного прогноза [1]. Это делает  тему и исследования в области прогнозирования погодных условий не только полезными, но и актуальными.

Цели и задачи

Цель дипломной работы – разработать программный комплекс в виде программного продукта, объединяющего ряд современных методов составления прогнозов метеорологических данных. Произвести синхронизацию комплекса с метеостанцией, интегрировать в электронную сеть университета и адаптировать его к лабораторным исследованиям (работам).

Объектом исследования являются временные ряды основным метеопараметоров.

Предметом исследования - методы прогнозирования, качество и дальность их результатов.

Гипотеза исследования - процесс составления прогноза будет проходить успешнее и продуктивнее при следующих условиях:

1) прямое взаимодействие прогностического комплекса с метеостанцией;

2) использование современных методов при работе с временными рядами, такими как метод Эглайса [4], метод главных компонент, метод неформальной (мягкой) логики;

3) внедрение в практику прогностического комплекса, интеграция его в электронную сеть университета;

4) адаптирование комплекса под лабораторные исследования.

Таким образом, задачами магистерской работы являются:

1. Синхронизировать разработанный программный продукт с метеостанцией. Обеспечить передачу данных с метеостанции в программу;

2. Изучить новые методы обработки временных рядов и внедрить их в существующий программный продукт.

3. Провести апробацию прогностический комплекса;

4. Обеспечить информационную защиту программного комплекса;

5. Внедрить комплекс в электронную сеть университета;

6. Адаптировать прогностический комплекс для лабораторных исследований. Расширить инструментарий и обеспечить высокую его интерактивность при диалоге с пользователем.

Практическая значимость состоит в разработке прогностического комплекса, который позволит проводить адекватные краткосрочные прогнозы основных метеопараметров дальностью 12 часов. Компелекс будет направлен на использование его в лабораторных и практических целях.

Обзор предметной области исследования

Построение прогностической модели основано на обработке временных рядов, полученных  с метеостанции Vantage Pro 2, установленной на факультете КНТ ДонНТУ. Данная метеостанция позволяет снимать следующие данные:

  • температура;
  • влажность;
  • давление;
  • скорость ветра.

Все данные сохраняются на сервере кафедры КСМ и «АКИАМ». Интервал замеров составляет 10 минут. Таким образом, в процессе его эксплуатации постоянно формируется и постепенно накапливается совокупность временных рядов. Наличие этой информации делает вполне реальной  задачу разработки   прогностического комплекса.

В последние десятилетия в рамках нелинейной динамики получен ряд фундаментальных теоретических результатов и разработаны методики, обосновывающие принципиальную возможность прогнозирования физических процессов на базе их временных рядов. Теоретическим фундаментом  этих разработок  и методов является теорема Такенса. Одной из его основополагающих идей  является то, что при построении эмпирических моделей по временному ряду в качестве недостающих переменных можно использовать или последовательные значения доступной наблюдаемой величины, или ее последовательные производные. Было доказано, что при реконструкции по скалярной временной реализации динамической системы и метод временных задержек, и метод последовательных производных гарантируют, что в новых переменных будет получено эквивалентное описание исходной динамической системы  при достаточно большой размерности восстановленных векторов D. А именно, должно выполняться условие D>2d, где d – размерность множества M в фазовом пространстве исходной системы, на котором происходит моделируемое движение[2]. Эти утверждения и составляют содержание знаменитых теорем Такенса.

Анализ последних исследований

На данный момент на кафедре КСМ уже разработан программный продукт, основой которого была разработка методики краткосрочного прогноза погоды по временным рядам метеопараметоров [2]. Он позволяет на основе рядов, снимаемых с метеостанции ставить краткосрочные прогнозы температуры, влажности, давления и скорости ветра. Алгоритм работы комплекса разбивается на ряд этапов, которые можно представить в виде схемы (рис. 1)

Схема построения модели по временному ряду

Рисунок 1 – Схема построения модели по временному ряду

Рассмотрим более подробно каждый этап:

- этап №1. Ряды снятые с метеостанции обрабатываются и систематизируются. После чего проводится их анализ с помощью различных методов, с целью выявления выраженных закономерностей, которые могли бы упростить выбор модельных уравнений. Это, например, визуальный анализ в виде графиков зависимости переменной от времени, восстановление фазовой траектории, спектральный и статистический анализ и другие [3].;

- этап №2. Формируется структура модели. Первоначально выбирается тип уравнений, далее задается вид входящих в них функций, после чего устанавливается связь динамических переменных (компонент вектора x) с наблюдаемыми величинами a. В качестве переменных могут выступать сами наблюдаемые, но в более общем случае эту связь задают в виде a = h(x) , где h называют измерительной функцией. Часто вводят еще случайную добавку e: a = h(x) + e, чтобы учесть измерительный шум. Чтобы сделать модель более реалистичной, случайную добавку вводят нередко и в сами уравнения – так называемый динамический шум.

Формирование структуры модели – наиболее сложный и творческий этап процедуры моделирования. На данном этапе выбирается тип уравнений, вид входящих в них функций и их аргументов.

Задача определения аргументов функции состоит в том, чтобы определить наименьшую размерность модели, обеспечивающую однозначность прогноза. Для решения этой задачи используется различные методы оценки: метод ложных соседей, метод главных компонент, метод Грассбергера – Прокаччиа, метод хорошо приспособленного базиса. Первый из них заключается в следующем.

Он основан на проверке того свойства, что фазовая траектория, восстановленная в пространстве достаточной размерности не должна иметь самопересечений. При пробной размерности D для каждого восстановленного вектора xk отыскивают одного (самого близкого) соседа; увеличив D на 1, определяют, какие из соседей оказались ложными (сильно разошлись), а какие – истинными. Подсчитывают отношение числа ложных соседей к общему числу восстановленных векторов. Если при увеличении D это число становится малым при некотором значении D*, то последнее и есть оценка размерности пространства, в котором достигается вложение траектории моделируемого движения [1].;

- этап №3. Далее следует этап определения структуры модельных уравнений. Для этого используются различные методы аппроксимации функций многих переменных: метод обобщенного многочлена, использование радиальных базисных функций, искусственные нейронные сети, локальные модели, поиск близких соседей.

Чаще всего для решения задач аппроксимации используют двухслойные ИНС, реже – трехслойные. Увеличение числа слоев не приводит к существенному улучшению. Улучшения добиваются за счет увеличения числа нейронов в слоях K1,K2. Теоретическая основа использования ИНС – обобщенная аппроксимационная теорема (ее частным случаем является теорема Вейерштрасса), которая утверждает, что любая непрерывная функция может быть сколь угодно точно равномерно приближена с помощью ИНС.

Процедура расчета параметров ИНС путем минимизации – ее «обучение» – это сложная задача многомерной нелинейной оптимизации, для решения которой развиты специальные «технологии»: алгоритм обратного распространения ошибки, обучение с расписанием, обучение с шумом, стохастическая оптимизация (генетические методы, метод имитации отжига). ИНС может содержать очень много лишних элементов, и структуру этой модели (архитектуру сети) желательно сделать более компактной. Для этого нейроны, веса и пороги которых слабо меняются в процессе обучения, исключаются из сети.

Если имеется несколько альтернативных ИНС с разной архитектурой, полученных в результате обучения по тренировочному ряду, то лучшую из них обычно выбирают по наименьшей тестовой ошибке аппроксимации. Для получения «честного» показателя прогностической эффективности модели используют еще один ряд (не тренировочный и не тестовый, т.к. оба они использовались для построения модели), который называют «экзаменационным».

После выбора структуры выполняют «подгонку модели». Для этого, как правило, проводится поиск экстремального значения некоторой целевой функции, например, минимизируется сумма квадратов отклонений решения модельных уравнений от наблюдаемых данных. При необходимости на данном этапе проводятся предварительные преобразования наблюдаемого ряда: фильтрация от шумов, численное дифференцирование или интегрирование и т.п. Это, в основном, технический этап численных расчетов, но и здесь нужно сделать выбор принципа расчета параметров и методики для его реализации.

Из большого числа существующих конфигураций нейронных сетей, с учетом их ориентации на классы решаемых задач и результатов предварительных экспериментов, в работе для реконструкции модельных уравнений были выбраны три типа сетей: однослойная линейная, двухслойная нелинейная и обобщенная регрессионная. Для расчета значений прогноза применяются различные прогностические схемы, основанные на итерировании базовых, и ансамблевые варианты [1].

- этап №4. На последнем этапе проверяется качество модели. Проводится проверка эффективности модели для достижения требуемой точности прогноза [1]. Если модель признана удовлетворительной (эффективной), полученная модель берется в дело, иначе – возвращается на доработку на любой из этапов представленных на рис. 1.

Апробация

Результаты роботы докладывались на на I всеукраинской научно-технической конференции студентов, аспирантов и молодых ученных «Информационные управляющие системы и компьютерный мониторинг 19-21 мая 2010 г. и опубликованы в соответствующем сборнике.

Текущие и планируемые результаты

В качестве программных средств разработки используется среда Matlab, являющаяся высокоуровневым языком технических расчетов, интерактивной средой разработки алгоритмов и современным инструментом анализа данных. Эффективность обусловлена прежде всего ее ориентацией на матричные вычисления с программной эмуляцией параллельных вычислений и упрощенными средствами задания циклов. Удачно реализованы средства работы с многомерными массивами, большими и разреженными матрицами и многими типами данных.

К настоящему времени реализованы первые две задачи, а именно:

- сформирована база данных на сервере кафедры КСМ, в которую происходит сохранение данных с метеостанции Vantage Pro 2, установленной на факультете КНТ ДонНТУ. Произведена настройка и подготовка сервера для его дальнейшей синхронизации с программным продуктом. Выполнена синхронизация программы с сервером с использованием инструментов Matlab;

- проведена попытка определения главных компонент временного ряда метеоданных.

На очереди реализация следующих задач:

- внедрение в комплекс ряда методов обработки временных рядов – метод главных компонент, метод Эглайса [4], методы неформальной логики;

- расширение инструментария программного продукта. Формирование его более интерактивным;

- апробация;

- формирование информационной защиты программного комплекса;

- внедрение его в электронную сеть университета;

- адаптация для лабораторных исследований.

Общая схема работы программного комплекса представлена на рисунке 2.

Схема работы прогностического
комплекса

Рисунок 2 – Схема работы прогностического комплекса
(анимация: объем - 67,3 КБ; размер - 600x300; количество кадров - 11; бесконечное число циклов повторения; задержка между кадрами - 1,3 мс; задержка между последним и первым кадром - 1,3 мс)

Заключение

В качестве основной задачи построения прогностического комплекса была принята задача усовершенствования и синхронизации прогностического комплекса с метеостанцией, а так же интеграция его в электронную сеть университета В результате работы был проведен анализ литературы по методам прогнозирования и оптимизации (сжатия) временных рядов. Был налажен сбор метеопараметров с локальной метеостанции, установленной в ДонНТУ, показана возможность прогнозирования метеопараметров, с помощью методов реконструкции модельных уравнений, основанных на анализе временных рядов, сформулирована концепция работы прогностического комплекса в электронной сети университета.

При написании данного автореферата магистерская работа еще не завершена. Окончательная готовность работы – декабрь 2010 года. Полный текст работы и материалы по теме могут быть получены у автора или его руководителя после указанной даты.


Список литературы

1. Гриценко А.В. Реконструкция уравнений и прогнозирование метеопараметров по их временным рядам. – Донецк, ДонНТУ, 2010. – 149 с.

2. Takens F. Detecting strange attractors in turbulence // Lec. NotesMath., 1981. V. 898. 366-381.

3. Безручко Б.П., Смирнов Д.А. Математическое моделирование и хаотические временные ряды. Саратов: ГосУНЦ «Колледж», 2005. – 320 с.

4. Эглайс В.О. Аппроксимация табличных данных многомерным уравнением регрессии. – Вопросы динамики и прочности: Рига, 1981, Вып. 39. – с. 120-125.

5. Заенцев И.В. Нейронные сети: основные модели. Воронеж, 1999. 76 с.

6. Гриценко А.В. Прогнозирование метеопараметров по временным рядам. – Компьютерный мониторинг и информационные технологии 2008 / Материалы IV международной научной конференции студентов, аспирантов и молодых ученых. – Донецк, ДонНТУ – 2009.

7. Гриценко А.В. Использование локальных метеостанций для прогноза погоды. Метеокомплекс VANTAGE PRO 2. – Охрана окружающей среды и рациональное использование природных ресурсов 2009 / Материалы VIII международной научной конференции аспирантов и студентов. – Донецк, ДонНТУ – 2009.

8. Горбань А.Н. Функции многих переменных и нейронные сети // Соросовский образовательный журнал. 1998. № 12. С. 105-112.

9. Christopher R. Williams. Applying neural network models to prediction and data analysis in meteorology and oceanography // Journal of Atmospheric and Oceanic Technology, Volume 79, Issue 9 (September 1998) pp. 1855-1870

10. Will Dwinnell. Putting PCA to work. [Электронный ресурс] - Режим доступа к статье: http://matlabdatamining.blogspot.com/2010/02/putting-pca-to-work.html



© 2010 Артём Сивяков, ДонНТУ

Сивяков Артем Сергеевич