Статистические методы прогнозирования
Глава 3.
Регрессионный анализ и прогнозирование
|
Источник:
Четыркин Е.М. Статистические методы
прогнозирования - М.: Статистика, 1977.- 199с.
|
Когда регрессия специфицирована и оценены ее параметры,
она может быть применена для прогнозирования.
Уравнение регрессии характеризует взаимосвязь между переменными x и y.
Однако в самом уравнении регрессии с оцененными параметрами нет
указания на то, как близко находятся фактические наблюдения
от расчетных, иначе говоря, нет указания на степень тесноты
связи между переменными. Поэтому оценка параметров регрессии
обычно сопровождается расчетом такой дополнительной характеристики,
как коэффициент корреляции, который представляет собой эмпирическую
меру линейной зависимости между x и y.
Продолжим говорить о линейной парной регрессии.
Коэффициент корреляции для некоторой выборки значений x и y
определяется по формуле
|
|
Величина r лежит между -1 и 1. чем выше значение r , тем теснее
связь между переменными и тем с большим основанием найденная
взаимосвязь может быть использована для прогнозирования.
Коэффициент корреляции также может рассматриваться как один из
критериев качества подбора функции.
После получения r можно продолжить статистический анализ,
исследовав вопрос, в какой мере полученный коэффициент корреляции
существенен (т.е. существенно ли r отличается от нуля или
его отличие от нуля можно приписать влиянию случайности,
связанной с выборкой).
Для проверки существенности при небольшом числе наблюдений применяют
формулу
|
|
Величина t здесь следует t-распределению Стьюдента,
поэтому найденное значение t можно сопоставить с табличным
значением
при n-2 степенях свободы.
Итак, мы оценили параметры a и b и получили регрессию,
на основе которой можно предсказывать значения y в
зависимости от значений x . Естественно полагать, что действительные
значения зависимой переменной не будут совпадать с расчетными
(прогнозными), так как сама линия регрессии описывает взаимосвязь
лишь в среднем, в общем. Отдельные наблюдения рассеяны вокруг нее.
Таким образом, первым и наиболее очевидным фактором, во многом
определяющим надежность получаемых по уравнению регрессии
прогностических оценок, является рассеяние наблюдений вокруг
линии регрессии. В качестве меры рассеяния примем такую
общераспространенную характеристику, как дисперсия.
Для ее определения найдем сумму квадратов отклонений фактических
отклонений от линии регрессии с параметрами a и b , т.е.
Вычислим ,
минуя определение :
|
|
Значение величины
дает возможность определить оценку дисперсии отклонений от регрессии.
Эта оценка, как известно, равна сумме квадратов отклонений,
деленной на число степеней свободы. В данном случае она составит:
|
|
Величина
является выборочной оценкой дисперсии случайных членов
,
содержащихся в теоретической модели.
Рассмотрим теперь метод определения доверительных границ
для значения
т.е. тех границ, в пределах которых с заданной доверительной
вероятностью будет находиться значение
.
Итак, в силу того, что оценивание параметров осуществляется
по выборочным данным, оценки a и b содержат некоторую погрешность.
Причем погрешность в значении a приводит к вертикальному
сдвигу линии регрессии. В свою очередь колеблемость оценки b, связанная
с ее выборочным происхождением, приводит к "покачиванию" линии регрессии.
Таким образом, дисперсия значения зависимой переменной,
определяемой по уравнению парной линейной регрессии будет
складываться из двух компонент - дисперсии параметра a и дисперсии параметра b.
Эти дисперсии соответственно равны
,
откуда
|
|
где
- значение переменной x (выраженное в виде отклонения от средней),
для которого определяется
.
Из выражения видно, что
имеет минимальное значение в точке
=0. В этом случае
.
Зная дисперсию показателя
,
легко определить доверительные границы для него. Так, для расчетного
значения
доверительные границы равны:
|
|
где
- статистика Стьюдента.
Эти доверительные границы расположатся выше и ниже линии регрессии
в виде ветвей гиперболы, ограничивая доверительную зону.
Эта доверительная зона определяет местоположение линии регрессии
(т.е. средних величин
),
но не отдельных возможных значений зависимой переменной,
которые отклоняются от средней. Следовательно, если мы хотим
определить доверительные интервалы для отдельных значений зависимой
переменной, то при определении дисперсии
необходимо учитывать еще один источник неопределенности – рассеяние
вокруг линии регрессии, иначе говоря, в суммарную дисперсию
следует еще включить величину
Таким образом, уравнению
соответствует дисперсия
|
или
|
Доверительные интервалы для прогнозов индивидуальных значений
будут, следовательно, равны:
|
|
Таким образом,когда регрессия
специфицирована и оценены ее параметры, она может быть применена для
прогнозирования. Очевидно, что точность прогноза определяется не только
точностью самого уравнения регрессии, но и тем, насколько надежно оценены
будущие значения независимых переменных.
|
Вверх
|
|