автобиография

ОБЗОР СУЩЕСТВУЮЩИХ СИСТЕМ, РЕШАЮЩИХ ЗАДАЧИ ПРОГНОЗИРОВАНИЯ

Возможности системы Exel

В состав Microsoft Excel входит набор средств анализа данных (называемый пакет анализа), предназначенный для решения сложных статистических и инженерных задач. Для проведения анализа данных с помощью этих инструментов следует указать входные данные и выбрать параметры; анализ будет проведен с помощью подходящей статистической или инженерной макрофункции, а результат будет помещен в выходной диапазон. Другие инструменты позволяют представить результаты анализа в графическом виде.

Для работы с инструментами анализа данные следует представить в виде строк или столбцов листа Excel. Совокупность ячеек, содержащих анализируемые данные, называется входным диапазоном.

Регрессионный анализ в Exel

Microsoft Excel позволяет заполнить ячейки рядом значений, соответствующих простой линейной или экспоненциальной зависимости. Прогнозируемые значения определяются на основе начальных данных, указанных на листе. Чтобы экстраполировать данные в соответствии с линейной зависимостью Microsoft Excel прибавляет или вычитает постоянную величину, равную разности указанных начальных значений. В случае экспоненциальной зависимости Microsoft Excel умножает начальные значения на указанную постоянную величину.

Для экстраполяции комплексных и нелинейных данных применяются соответствующие функции листа. Функция ПРЕДСКАЗ позволяет сделать прогноз, применяя линейную регрессию диапазона известных данных или массивов (x,y). Например, исходя из общего дохода за каждый из предыдущих шести кварталов, функция ПРЕДСКАЗ может рассчитать ожидаемый доход за следующие два квартала. Функции ТЕНДЕНЦИЯ и РОСТ дают возможность установить линейную или экспоненциальную зависимость, наилучшим образом описывающую некоторый процесс (разумеется, в рамках предположения о линейной или экспоненциальной зависимости). Эти функции возвращают значения y, соответствующие заданным значениям x. По этим данным можно построить график процесса. Функции ЛИНЕЙН и ЛГРФПРИБЛ возвращают данные регрессионного анализа, включая наклон и смещение графика относительно оси Y.

Линейный регрессионный анализ заключается в подборе графика для набора наблюдений с помощью метода наименьших квадратов. Регрессия используется для анализа воздействия на отдельную зависимую переменную значений одной или более независимых переменных. Например, на спортивные качества атлета влияют несколько факторов, включая возраст, рост и вес. Регрессия пропорционально распределяет меру качества по этим трем факторам на основе данных функционирования атлета. Результаты регрессии впоследствии могут быть использованы для предсказания качеств нового, непроверенного атлета.

Способы прогнозирования с помощью анализа “что-если”

Новый метод прогнозирования “что-если”, позволяющий получить несколько возможных способов решения и прогнозирования той или иной задачи. Каждое из них имеет определённое назначение, а их использование зависит от желаемого результата. Пример задач, решаемых этим способом: что произойдет, если увеличить разницу между себестоимостью и продажной ценой или увеличить зарплату сотрудникам на 1%? Какой рост необходим, если к 2001 году нужно добиться увеличения объема продаж на 10 млн. долларов? Какой получится прирост, если изменится разница между себестоимостью и продажной ценой? Эти задачи решаются при помощи таблиц данных, позволяющих выполнять вычисления нескольких величин сразу. Наиболее важным является то, что это средство выводит на экран несколько решений, позволяющих увидеть, каким образом величины влияют друг на друга при их варьировании.

Таблицей подстановки данных называется диапазон ячеек, показывающий, как изменение значений подстановки влияет на возвращаемый формулой результат. Таблицы подстановки обеспечивают быстрый доступ к выполнению одной операции разными способами, а также возможность просмотра и сравнения полученных результатов. Например, используйте таблицу подстановки с одной переменной, если необходимо отобразить то, как различные ставки влияют на месячные выплаты по закладным. Таблицы подстановки с двумя переменными могут демонстрировать то, как различные ставки и сроки займов будут влиять на выплаты по закладным.

Зеркальным отображением метода таблиц подстановки является второй метод прогнозирования, предоставляемый Exel—подбор параметра. В этом приложении Microsoft автоматизировала нахождение моды, медианы, стандартного отклонения и вариации, эксцесса и средней ошибки.

Подбор параметра. Если результат для одной формулы известен, а вводимое значение нет, то следует использовать функцию Подбор параметра. При подборе параметра значение влияющей ячейки (параметра) изменяется до тех пор, пока формула, зависящая от этой ячейки, не возвратит заданное значение. Кроме того, имеется возможность определения значения ячейки, когда необходимо изменить значения в нескольких ячейках и удовлетворить нескольких граничным условиям. При использовании средств поиска решения ячейки, которые необходимо использовать, должны быть связаны формулами.

Сценарием в Microsoft Excel называется набор значений подстановки, используемый для прогнозирования поведения модели. Существует возможность создания и сохранения в листе различных сценариев и переключения на любой из этих сценариев для просмотра результатов. Так, если требуется сформировать бюджет, но годовой доход точно не известен, то для дохода определяются различные значения, а затем для каждого сценария выполняется анализ “что-если”.

 

Экспоненциальное сглаживание

Предназначается для предсказания значения на основе прогноза для предыдущего периода, скорректированного с учетом погрешностей в этом прогнозе. Использует константу сглаживания, по величине которой определяет, насколько сильно влияют на прогнозы погрешности в предыдущем прогнозе.

Примечание. Для константы сглаживания наиболее подходящими являются значения от 0,2 до 0,3. Эти значения показывают, что ошибка текущего прогноза установлена на уровне от 20 до 30 процентов ошибки предыдущего прогноза. Более высокие значения константы ускоряют отклик, но могут привести к непредсказуемым выбросам. Низкие значения константы могут привести к сдвигу аргумента для предсказанных значений.

Линии тренда на диаграмме

Линии тренда обычно используются в задачах прогнозирования. С помощью регрессионного анализа можно продолжить линию тренда вперед или назад, экстраполировать ее за пределы, в которых данные уже известны, и показать тенденцию их изменения. Можно также построить линию скользящего среднего, которая сглаживает случайные флуктуации, яснее демонстрирует модель и прослеживает тенденцию изменения данных.

Линиями тренда можно дополнить ряды данных, представленные на ненормированных плоских диаграммах с областями, линейчатых диаграммах, гистограммах, графиках, биржевых, точечных и пузырьковых диаграммах. Нельзя дополнить линиями тренда ряды данных на объемных диаграммах, нормированных диаграммах, лепестковых диаграммах, круговых и кольцевых диаграммах. При замене типа диаграммы на один из вышеперечисленных соответствующие данным линии тренда будут потеряны.

Для создания тренда на рабочем листе используется средство автозаполнения или одна из статистический функций, например РОСТ или ТЕНДЕНЦИЯ.

Виды линий тренда

Линейная, полиномиальная, логарифмическая, экспоненциальная, степенная, скользящее среднее (Число точек, образующих линию скользящего среднего, равно числу точек в исходном ряде минус значение периода).

 

Возможности системы Statistika

Один из самых мощних пакетов математическо-статистической обработки данных -- Statistica имеет множество различных возможностей для анализа и прогнозирования временных рядов. Пакет имеет модульную структуру -- в каждом модуле состредоточен набор функций для определённого вида обработки данных. Например, в модуле Basic Statistics находятся средства для вычисления основных статистик, т. е. среднего, медианы, моды, стандартных ошибок и другие, в модуле Multiple Regression реализованы процедуры регрессионного анализа данных, прогноза по регрессионным кривым. Для прогнозирования разработан специальный модуль Time Series/ Forecasting, в котором находится очень мощный аппарат выделения трендов, проведения дисперсионного и автокорреляционного анализа, построения экспоненциального сглаживания и другие возможности. Одной из ососбенностей системы Statistica является графическая поддержка, т.е. всю полученную информацию можно проанализировать в графическом виде, для этого предлагаются обычные и точечные графики, гистограммы, коррелограммы, на графиках автоматически указывается область значимости значения, по которой можно оценить полученную модель.

Модуль "множественная регрессия"

Регрессионный анализ проводится в специально предназначенном для этого модуле Statistica - Multiple Regression. Анализируемые данные располагаются в электронной таблице системы, один столбец которой содержит значения зависимой переменной, а другой -- независимой. Выбор критериев для построения модели осуществляется в диалоговом окне Model Difinition (построение модели).

Окно результатов анализа имеет следующую структуру: верх окна --информационный. Он состоит из двух частей: в первой части содержится основная информация о результатах оценивания, во второй высвечиваются значимые регрессионные коэффициенты. Внизу окна распологаются функциональные кнопки, позволяющие всесторонне просмотреть результаты анализа. В функциональной части окна содержатся краткие сведения о результатах анализа, а именно:

  1. Dep. Var. (Имя зависимой переменной). В данном случае -- SHMT.
  2. No. of Cases (число случаев, по которым построена регрессия)
  3. Multiple R (коэффициент множественной корреляции)
  4. R-square -RI (квадрат коэффициента множественной корреляции), обычно называемый коэффициентом детерминации, который показывает долю общего разброса (относительно выборочного среднего зависимой переменной), которая объясняется построенной регрессией, чем ближе данный коэффициент к 1, тем достовернее построенная регрессия.
  5. Adjusted R-square: (скорректированный коэффициент детерминации), равный 1-(1-R-square)*(n/(n-p)), где n-число наблюдений в модели, p-число параметров модели (число независимых переменных плюс 1, т.к. в модель включен свободный член.
  6. Std. Error of estimate (стандартная ошибка оценки) эта характеристика- мера рассеяния наблюдаемых значений отосительно регрессионной прямой
  7. Intercept - оценка свободного члена регрессии
  8. Std. Error - стандартная ошибка свободного члена
  9. t(df) and p-value - значение t-критерия, который используется для проверки гипотезы о равенстве 0 свободного члена регрессии, и уровень p
  10. F- значение F-критерия, который используется для проверки гипотезы о значимости регрессии
  11. df - число степеней свободы F-критерия
  12. p - уровень значимости, чем ближе он к 0, тем качественнее регрессия

Во второй части информационного окна система выводит информацию о значимых регрессионных коэффициентах (beta - стандартный коэффициент при независимой переменной в уравнении регрессии)

В информационной наиболее важна кнопка Regression summary (итоговый результат регрессии), при нажатии на которую, выводится электонная таблица, в которой представлены итоговые результаты оценивания регрессионной модели. В первом столбце даны значения коэффициентов beta- стандартизованные коэффициенты регрессионного уравнения, во втором - стандартные ошибки beta, в третьем - точечные оценки парамеров модели.

Анализ адекватности модели основывается на анализе остатков (разностей между наблюдаемыми значениями и модельными). Осуществляется анализ остатков по нажатию кнопки Residuals Analysis, при этом высвечивается диалоговое окно Residual Alysis. Воспользовавшись возможностями данного окна, можно провести самый разнообразный анализ построенной модели и её адекватности. Например, получить график соответсвия модели инаблюдаемых значений (интервал 2 сигма).

Модуль "анализ временного ряда/прогнозирование"

Возможности автокорреляционного, дисперсного анализа данных и выделения различных трендов и реализация метода экспоненциального сглаживания, расположены в специальном модуле системы Statistica - Time Series/Forecasting.

Экспоненциальное сглаживание стало очень популярным как метод прогнозирования для широкого разнообразия временных рядов. Исторически, метод был независимо разработан Броуном и Холтом. Броун работал для флота США в течение второй мировой войны, где его задачей было разработать систему трэкинга для информации управления огнём, чтобы вычислить расположение субмарин. Позже, он применил эту методику к прогнозированию. Автор описал свои идеи в книге 1959 по управлению данными. Исследование Холта было субсидировано Ведомством Военно-морского Исследования; независимо, он разрабатывал экспоненциальную функцию, сглаживающую модели для постоянных процессов, процессов с линейными трендами, и для сезонных данных.

Реализация экспоненциального сглаживания в STATISTICA следует близко за обзором методов, опубликованных в Gardner (1985), который предложил "обьединенную" классификацию показательной функции, сглаживающей методы. Интересующие публикации могут также быть найдены в Makridakis, Wheelwright, и McGee (1983), Makridakis и Wheelwright (1989), Montgomery, Johnson, и Gardiner (1990).

П о д б о р и о ц е н к а п а р а м е т р о в м о д е л и.

Модуль Временного ряда обеспечивает возможности выполнить поиск параметра пошагово, а также позволяет пользователю автоматически искать самый лучший параметр через общую функциональную процедуру минимизации.

Практически, параметр сглаживания часто выбрается подбором при помощи сетки поиска параметра; то есть пробуют различные решения, начиная, например, с a= 0.1 до а = 0.9, с приращениями 0.1. Затем выбрают значения параметра, производящее самые маленькие суммы квадратов (или средние квадраты) для разностей (то есть, наблюдаемое значение минус значение пошагового прогноза). Эта операция осуществляется с помощью кнопки "Grid search for best parameters(1)". При этом в диалоговом окне "Параметры сетки подбора" устанавливаются начальное и конечное значения параметра, а также приращение, с которым выводится информация о характеристиках параметра. После чего в виде электронной таблицы выводятся такие характеристики: значение параметра; ошибка среднего, получаемого по тренду с заданным параметром; абсолютная ошибка среднего; процентная ошибка среднего и процентная абсолютная ошибка среднего, а также сумма квадратов отклонений модельных данных от реальных. По всем этим показателям можно выбрать оптимальное значение параметра модели и задать его в главном окне в области "Модель".

А в т о м а т и ч е с к и й п о и с к п а р а м е т р о в

Как рекомендуют Gardner (1985), чтобы получать самый лучший (наиболее точный) прогноз, нужно определить самые лучшие параметры сглаживания из данных. Опция "Automatic search for best parameters(2)" позволит выполнbть автоматический поиск самого лучшего набора параметров. Процедура минимизации функции квази-ньютона используется, чтобы минимизировать среднюю возводимую в квадрат ошибку, среднюю абсолютную погрешность, или означить абсолютную ошибку, выраженную в процентах. В большинстве случаев, эта процедура более эффективна, чем поиск по сетке, в частности, когда больше чем один параметр должны быть определены. По умолчанию, поиск параметра беспрепятственный, то есть значения параметра могут быть оценены и вне границ 0/1. При нажатии OK параметры будут автоматически установлены к их соответственному минимуму или максимуму, и полный набор результатов будет отображён для самых лучших параметров.