РЕГРЕССИОННЫЙ АНАЛИЗ И ПРОГНОЗИРОВАНИЕ
Во введении мы уже говорили о том, что инерционность экономических процессов проявляется двояко: как сохранение в основных чертах взаимосвязей прогнозируемого явления с другими явлениями, объектами и процессами и как сохранение общей тенденции развития явления во времени. Инерционность второго рода – сохранение общей тенденции развития во времени – можно, по-видимому, рассматривать как частный случай общего проявления инерции.
Пронозирование, базирующееся на инерционности второго рода, можно свести к подбору аналитических выражений (моделей трендов) типа y = f(t) по данным за прошлое и экстраполяции полученных трендов. Что касается инерции во взаимосвязях, то для прогнозирования она может быть использована, если соответствующую взаимосвязь удается представить в виде аналитического выражения (например, регрессионного уравнения), которое связывает изменение одного экономического показателя (зависимая переменная) с влиянием ряда фактор-аргументов, т.е. к данным наблюдения подбирается уравнение типа y = f (x1,x2,…). Прогноз получают путем подстановки в регрессионное уравнение переменных. Результат представляет собой оценку среднего значения зависимой переменной при данных уровнях фактор-аргументов. Для уравнения регрессии обычно определяют доверительные интервалы, которые также можно использовать в прогнозировании. Расчет доверительных интервалов позволяет определить область, в которой следует ожидать значение прогнозируемой величины. Выход этой величины за границы интервала в силу случайных колебаний имеет незначительную вероятность – меньше, чем дополнение до единицы доверительной вероятности, т.е. меньше уровня существенности.
Если в ходе количественного анализа выявлена и обоснована зависимость одного явления от других, то в этом случае на долю регрессионного уравнения, или регрессии, падает задача измерения этой зависимости, в которой причинно-следственный механизм выступает, так сказать, в наглядной форме. Прогноз в этом случае лучше поддается содержательной интерпретации, чем простая экстраполяция тенденции. Во всяком случае, при применении регрессий (а точнее, при их получении) становится более ясным воздействие отдельных факторов и прогнозист лучше понимает природу исследуемого явления. Кроме того, регрессии создают базу для расчетного экспериментирования с целью получения ответов на вопросы типа “Что будет, если…?”.
Регрессионный анализ предполагает решение двух задач. Первая заключается в выборе независимых переменных, существенно влияющих на зависимую величину, и определения формы уравнения регрессии (обычно этот этап в разработке регрессии называют спецификацией). Данная задача решается путем анализа изучаемой взаимосвязи по существу. Формальные средства могут служить здесь лишь некоторыми ориентирами. Вторая задача – оценивание параметров – решается с помощью того или иного статистического метода обработки данных наблюдения.
Наиболее часто оценивание параметров регрессий достигается с помощью метода наименьших квадратов (МНК). Метод наименьших квадратов, создание которого восходит к Гауссу и Лапласу, первоначально имел довольно узкую сферу применения, главным образом при обработке результатов наблюдений в астрономических и геодезических расчетах. Этот метод получил новую и широкую область приложения в экономико-статистических расчетах после создания теории корреляции и регрессии.
Основные допущения и свойства оценок.
Рассмотрим самый простой случай. Пусть нам необходимо описать в виде некоторой функции взаимосвязь двух переменных величин
y и x. Предполагается, что между этими величинами теоретически существует простейшая зависимость:у = α
+ βx, (3.1)где α и β - постоянные неизвестные коэффициенты (параметры), х – независимая, у – зависимая переменная.
Практически, однако, между у и х обычно существует не столь жесткая зависимость. Даже если она может быть представлена, допустим, в виде линейной функции, то отдельные наблюдения у будут в большей или меньшей мере отклоняться от линейной взаимосвязи в силу воздействия различных неучтенных факторов, а также случайных причин, влияния возмущений, помех и т.д. Отклонения от теоретической выбранной взаимосвязи, естественно, могут возникнуть и в силу неправильной спецификации уравнения, т.е. неправильного выбора формы самого уравнения, описывающего эту взаимосвязь. В дальнейшем , однако, будем полагать, что спецификация выполнена правильно.
Учитывая возможные отклонения, уранвнение взаимосвязи двух переменных (парную регрессию) можно представить в виде
y
= α + βx + έ, (3.2)где έ - случайная переменная, характеризующая отклонение от теоретической линии. Для краткости будем называть эту переменную возмущением.
Таким образом, в уравнении (3.2) значение у представляется как сумма двух частей – систематической ( α
+ βx) и случайной (ε) . Уравнение (3.1) характеризует некоторое среднее значение у для данного значения х, в свою очередь уравнение (3.2) показывает индивидуальные значения у с учетом возможных отклонений от средних.Относительно возмущения сделаем следующие предположения
:1.Возмущение является случайной переменной.
2.
Математическое ожидание равно нулю.Таким образом, при построении регрессии (в данном случае линейной
парной регрессии) принимается гипотеза о том, что для каждого наблюдения
i справедлива следующая взаимосвязь:yi
=α + βxi + εi.Математическое ожидание, дисперсия и ковариации возмущения ε
i имеют следующие значения:E
(εi) =0;E(εiεi) =
Где
i, j =1,…, n – номер наблюдения; символ Е указывает на операцию определения математического ожидания, отсюда Е (εiεi) – дисперсия возмущения, Е () - ковариация.Итак, в результате статистического наблюдения мы имеем ряд характеристик независимой переменной х и соответствующие значения зависимой переменной у
i . Задача, следовательно, заключается в определении параметров и. Однако истинные значения этих параметров получить нельзя, так как мы опираемся на ограниченный объем информации – на выборку ограниченного объема, поэтому получаемые расчетные значения параметров являются статическими оценками истинных параметров α и β . Обозначим соответствующие (выборочные) оценки как а и b. Таким образом, уравнение парной регрессии yˆ=a+bx есть оценка взаимосвязи y=α + βx. .Приняв некоторую гипотезу о форме кривой, описывающей взаимосвязь переменных
y и х (например, допустим, это будет простая линейная взаимосвязь), нам, тем не менее, не удается однозначно подобрать параметры уравнения, так как через область, в которой расположены точки, соответствующие отдельным наблюдениям, можно провести множество прямых (например, соединить первую и последнюю точку и т.д.). Необходим некоторый критерий. В качестве такого критерия, естественно, принять требование о соотношении значений наблюдений и расчетных даных, поскольку существует стремление провести прямую в целом наиболее близко к данным наблюдения. Различные методы оценивания параметров опираются на раздичные критерии, измеряющие степень близости расчетных и фактических данных, и, разумеется. Дают разные значения оценок параметров для одной и той же совокупности наблюдений. При этом оказывается , что получаемые оценки обладают различными статистическими свойствами.Наиболее распространенным в силу своей простоты и сравнительно широкой области приложения является метод наименьших квадратов, МНК. Немаловажно и то, что получаемые МНК оценки при условии, что сделанные выше предположения относительно
ε справедливы, обладают рядом ценных для последующего применения регрессий в прогнозировании свойств, а именно:и ;
оценки являются эффективными в том смысле, что они имеют минимальную дисперсию по сравнению с любыми другими оценками этого параметра.
Если предположение 3 или 4 нарушено, то свойство несмещенности
и состоятельности оценок сохраняется, однако оценки оказываются менее эффективными, чем в случае, когда эти допущения соблюдаются.
Совершенно очевидно, что для прогнозирования не безразлично, какими свойствами обладает оценка. Что касается свойства несмещенности, то оно является необходимым. В самом деле, смещенные оценки априори дают неверное положение кривой в пространстве независимых переменных. Свойство состоятельности означает, что при увеличении объема наблюдения оценки параметров становятся более надежными в вероятностном смысле, т.е. с ростом n оценки все плотнее концентрируются вокруг истинных неизвестных значений параметров. Свойство эффективности, в общем, является наиболее важным, поскольку оно определяет степень возможной ошибки прогноза.
Оценивание параметров
Рассмотрим график (рис.3.1.), на котором показаны результаты наблюдений значений переменных у и х. Пусть для большей конкретности последние характеризуют, скажем, производительность труда и фондовооруженность на однородных предприятиях какой-либо отрасли. Через область, занимаемую точками на графике, проведена прямая у
ˆ = α + bx. Отклонение (возмущение) какой-либо точки с координатами xiyi, составит величину ei :ei = yi -yˆi = yi – (α + bxi), (3.3)
как и выше, здесь
yi– фактическое, а y^i – расчетное значение зависимой переменной y.Как видно из (3.3.), величина
ei (ее часто называют остаточным членом) есть функция параметров α и b. Точно так же функцией этих параметров является обобщенный показатель рассеяния точек вокруг прямой, а именно =f (a, b). Стремление найти прямую, которая наилучшим образом описывала бы расположение точек в пространстве переменных у и х, или, иначе говоря, прямую, к которой в целом наиболее тесно примыкали бы отдельные точки, трансформируется в методе наименьших квадратов в критерий, согласно которому параметры a и b должны быть подобраны так, чтобы сумма квадратов величин ei была минимальной, т.е. min.Как известно , необходимым условием существования минимума функции в точках
a и b является равенство нулю частных производных по неизвестным параметрам а и b. Итак, найдем для функцииQ =
частные производные и приравняем их нулю:
(3.4)
Преобразовав систему (3.4), получим стандартную форму нормальных уравнений.
. (3.5)
Таким образом, определив по наблюдениям суммы решив систему (3.5) относительно неизвестных
a и b, получим оценки а и b, отвечающие условию (3.4) и обладающие свойствами несмещенности, состоятельности и эффективности, если выполняются гипотезы 1-4 и независимая переменная не содержит ошибок.Разделим первое уравнение системы (3.5) на
n, получимyˉ =
а + bxˉ (3.6)Таким образом, метод наименьших квадратов дает такие оценки а и
b, при которых найденная прямая проходит через точку с координатами xˉ,yˉ, т.е. точку, соответствующую средним обеих переменных.Значения переменных
xi и yi могут быть измерены в отклонениях от средней, т.е. как xi – x и yi – y. . Обозначим эти разности как x`i и y`i соответственно. Начало координат при этом переместится в точку х,у, а система нормальных уравнений упростится , так как ` и `, естественно, равны нулю. В этом случае решение второго уравнения системы (3.5) относительно b дает(3.7)
а из уравнения (3.6) получим
a = yˉ - bxˉ
(3.8)Необходимые для расчета
b суммы отклонений могут быть получены по исходным данным следующим путем:Σ (x`
i)2 = Σ x`i –nx-2 (3.9)Σ
xi · yi = Σ xi yi - nˉxˉy (3.10)