автобиография

РЕГРЕССИОННЫЙ АНАЛИЗ И ПРОГНОЗИРОВАНИЕ

Во введении мы уже говорили о том, что инерционность экономических процессов проявляется двояко: как сохранение в основных чертах взаимосвязей прогнозируемого явления с другими явлениями, объектами и процессами и как сохранение общей тенденции развития явления во времени. Инерционность второго рода – сохранение общей тенденции развития во времени – можно, по-видимому, рассматривать как частный случай общего проявления инерции.

Пронозирование, базирующееся на инерционности второго рода, можно свести к подбору аналитических выражений (моделей трендов) типа y = f(t) по данным за прошлое и экстраполяции полученных трендов. Что касается инерции во взаимосвязях, то для прогнозирования она может быть использована, если соответствующую взаимосвязь удается представить в виде аналитического выражения (например, регрессионного уравнения), которое связывает изменение одного экономического показателя (зависимая переменная) с влиянием ряда фактор-аргументов, т.е. к данным наблюдения подбирается уравнение типа y = f (x1,x2,…). Прогноз получают путем подстановки в регрессионное уравнение переменных. Результат представляет собой оценку среднего значения зависимой переменной при данных уровнях фактор-аргументов. Для уравнения регрессии обычно определяют доверительные интервалы, которые также можно использовать в прогнозировании. Расчет доверительных интервалов позволяет определить область, в которой следует ожидать значение прогнозируемой величины. Выход этой величины за границы интервала в силу случайных колебаний имеет незначительную вероятность – меньше, чем дополнение до единицы доверительной вероятности, т.е. меньше уровня существенности.

Если в ходе количественного анализа выявлена и обоснована зависимость одного явления от других, то в этом случае на долю регрессионного уравнения, или регрессии, падает задача измерения этой зависимости, в которой причинно-следственный механизм выступает, так сказать, в наглядной форме. Прогноз в этом случае лучше поддается содержательной интерпретации, чем простая экстраполяция тенденции. Во всяком случае, при применении регрессий (а точнее, при их получении) становится более ясным воздействие отдельных факторов и прогнозист лучше понимает природу исследуемого явления. Кроме того, регрессии создают базу для расчетного экспериментирования с целью получения ответов на вопросы типа “Что будет, если…?”.

Регрессионный анализ предполагает решение двух задач. Первая заключается в выборе независимых переменных, существенно влияющих на зависимую величину, и определения формы уравнения регрессии (обычно этот этап в разработке регрессии называют спецификацией). Данная задача решается путем анализа изучаемой взаимосвязи по существу. Формальные средства могут служить здесь лишь некоторыми ориентирами. Вторая задача – оценивание параметров – решается с помощью того или иного статистического метода обработки данных наблюдения.

Наиболее часто оценивание параметров регрессий достигается с помощью метода наименьших квадратов (МНК). Метод наименьших квадратов, создание которого восходит к Гауссу и Лапласу, первоначально имел довольно узкую сферу применения, главным образом при обработке результатов наблюдений в астрономических и геодезических расчетах. Этот метод получил новую и широкую область приложения в экономико-статистических расчетах после создания теории корреляции и регрессии.

        1. МЕТОД НАИМЕНЬШИХ КВАДРАТОВ

Основные допущения и свойства оценок.

Рассмотрим самый простой случай. Пусть нам необходимо описать в виде некоторой функции взаимосвязь двух переменных величин y и x. Предполагается, что между этими величинами теоретически существует простейшая зависимость:

у = α + βx, (3.1)

где α и β - постоянные неизвестные коэффициенты (параметры), х – независимая, у – зависимая переменная.

Практически, однако, между у и х обычно существует не столь жесткая зависимость. Даже если она может быть представлена, допустим, в виде линейной функции, то отдельные наблюдения у будут в большей или меньшей мере отклоняться от линейной взаимосвязи в силу воздействия различных неучтенных факторов, а также случайных причин, влияния возмущений, помех и т.д. Отклонения от теоретической выбранной взаимосвязи, естественно, могут возникнуть и в силу неправильной спецификации уравнения, т.е. неправильного выбора формы самого уравнения, описывающего эту взаимосвязь. В дальнейшем , однако, будем полагать, что спецификация выполнена правильно.

Учитывая возможные отклонения, уранвнение взаимосвязи двух переменных (парную регрессию) можно представить в виде

y= α + βx + έ, (3.2)

где έ - случайная переменная, характеризующая отклонение от теоретической линии. Для краткости будем называть эту переменную возмущением.

Таким образом, в уравнении (3.2) значение у представляется как сумма двух частей – систематической ( α + βx) и случайной (ε) . Уравнение (3.1) характеризует некоторое среднее значение у для данного значения х, в свою очередь уравнение (3.2) показывает индивидуальные значения у с учетом возможных отклонений от средних.

Относительно возмущения сделаем следующие предположения:

1.Возмущение является случайной переменной.

2.Математическое ожидание равно нулю.

  1. Дисперсия возмужщений постоянна.
  2. Последовательные значения не зависят друг от друга.

Таким образом, при построении регрессии (в данном случае линейной

парной регрессии) принимается гипотеза о том, что для каждого наблюдения i справедлива следующая взаимосвязь:

yi=α + βxi + εi.

Математическое ожидание, дисперсия и ковариации возмущения εi имеют следующие значения:

E(εi) =0;

E(εiεi) =

 

Где i, j =1,…, n – номер наблюдения; символ Е указывает на операцию определения математического ожидания, отсюда Е (εiεi) – дисперсия возмущения, Е () - ковариация.

Итак, в результате статистического наблюдения мы имеем ряд характеристик независимой переменной х и соответствующие значения зависимой переменной уi . Задача, следовательно, заключается в определении параметров и. Однако истинные значения этих параметров получить нельзя, так как мы опираемся на ограниченный объем информации – на выборку ограниченного объема, поэтому получаемые расчетные значения параметров являются статическими оценками истинных параметров α и β . Обозначим соответствующие (выборочные) оценки как а и b. Таким образом, уравнение парной регрессии yˆ=a+bx есть оценка взаимосвязи y=α + βx. .

Приняв некоторую гипотезу о форме кривой, описывающей взаимосвязь переменных y и х (например, допустим, это будет простая линейная взаимосвязь), нам, тем не менее, не удается однозначно подобрать параметры уравнения, так как через область, в которой расположены точки, соответствующие отдельным наблюдениям, можно провести множество прямых (например, соединить первую и последнюю точку и т.д.). Необходим некоторый критерий. В качестве такого критерия, естественно, принять требование о соотношении значений наблюдений и расчетных даных, поскольку существует стремление провести прямую в целом наиболее близко к данным наблюдения. Различные методы оценивания параметров опираются на раздичные критерии, измеряющие степень близости расчетных и фактических данных, и, разумеется. Дают разные значения оценок параметров для одной и той же совокупности наблюдений. При этом оказывается , что получаемые оценки обладают различными статистическими свойствами.

Наиболее распространенным в силу своей простоты и сравнительно широкой области приложения является метод наименьших квадратов, МНК. Немаловажно и то, что получаемые МНК оценки при условии, что сделанные выше предположения относительно ε справедливы, обладают рядом ценных для последующего применения регрессий в прогнозировании свойств, а именно:

    1. оценки параметров являются несмещенными, т.е. математическое ожидание оценок параметров равно истинному значению параметров, в частности для парной регрессии Е(α)=α θ E(b)=β. Δΰνное свойство является логическим следствием второго предположения о характере возмущения ε . Νεсмещенность означает, что выборочные оценки параметров концентрируются вокруг неизвестных истинных параметров;
    2. оценки состоятельны, иначе говоря, дисперсия оценки параметра стремится к нулю с возрастанием n. Для парной регрессии это свойство можно записать так:

и ;

оценки являются эффективными в том смысле, что они имеют минимальную дисперсию по сравнению с любыми другими оценками этого параметра.

Если предположение 3 или 4 нарушено, то свойство несмещенности

и состоятельности оценок сохраняется, однако оценки оказываются менее эффективными, чем в случае, когда эти допущения соблюдаются.

Совершенно очевидно, что для прогнозирования не безразлично, какими свойствами обладает оценка. Что касается свойства несмещенности, то оно является необходимым. В самом деле, смещенные оценки априори дают неверное положение кривой в пространстве независимых переменных. Свойство состоятельности означает, что при увеличении объема наблюдения оценки параметров становятся более надежными в вероятностном смысле, т.е. с ростом n оценки все плотнее концентрируются вокруг истинных неизвестных значений параметров. Свойство эффективности, в общем, является наиболее важным, поскольку оно определяет степень возможной ошибки прогноза.

        1. Парная регрессия.

Оценивание параметров

Рассмотрим график (рис.3.1.), на котором показаны результаты наблюдений значений переменных у и х. Пусть для большей конкретности последние характеризуют, скажем, производительность труда и фондовооруженность на однородных предприятиях какой-либо отрасли. Через область, занимаемую точками на графике, проведена прямая уˆ = α + bx. Отклонение (возмущение) какой-либо точки с координатами xiyi, составит величину ei :

ei = yi -i = yi – (α + bxi), (3.3)

как и выше, здесь yi– фактическое, а y^i – расчетное значение зависимой переменной y.

Как видно из (3.3.), величина ei (ее часто называют остаточным членом) есть функция параметров α и b. Точно так же функцией этих параметров является обобщенный показатель рассеяния точек вокруг прямой, а именно =f (a, b). Стремление найти прямую, которая наилучшим образом описывала бы расположение точек в пространстве переменных у и х, или, иначе говоря, прямую, к которой в целом наиболее тесно примыкали бы отдельные точки, трансформируется в методе наименьших квадратов в критерий, согласно которому параметры a и b должны быть подобраны так, чтобы сумма квадратов величин ei была минимальной, т.е. min.

Как известно , необходимым условием существования минимума функции в точках a и b является равенство нулю частных производных по неизвестным параметрам а и b. Итак, найдем для функции

Q =

частные производные и приравняем их нулю:

(3.4)

Преобразовав систему (3.4), получим стандартную форму нормальных уравнений.

. (3.5)

Таким образом, определив по наблюдениям суммы решив систему (3.5) относительно неизвестных a и b, получим оценки а и b, отвечающие условию (3.4) и обладающие свойствами несмещенности, состоятельности и эффективности, если выполняются гипотезы 1-4 и независимая переменная не содержит ошибок.

Разделим первое уравнение системы (3.5) на n, получим

= а + bxˉ (3.6)

Таким образом, метод наименьших квадратов дает такие оценки а и b, при которых найденная прямая проходит через точку с координатами xˉ,yˉ, т.е. точку, соответствующую средним обеих переменных.

Значения переменных xi и yi могут быть измерены в отклонениях от средней, т.е. как xix и yiy. . Обозначим эти разности как x`i и y`i соответственно. Начало координат при этом переместится в точку х,у, а система нормальных уравнений упростится , так как ` и `, естественно, равны нулю. В этом случае решение второго уравнения системы (3.5) относительно b дает

(3.7)

а из уравнения (3.6) получим

a = yˉ - bxˉ (3.8)

Необходимые для расчета b суммы отклонений могут быть получены по исходным данным следующим путем:

Σ (x`i)2 = Σ x`i –nx-2 (3.9)

Σ xi · yi = Σ xi yi - nˉxˉy (3.10)