Источник: Сайт о статистике в медико-биологических исследования
Интернет доступ: http://www.medstatistica.com/articles013.html
Прогнозирование, базирующееся на инерционности второго рода, можно свести к подбору аналитических выражений (моделей трендов) типа y = f(t) по данным за прошлое и экстраполяции полученных трендов. Что касается инерции во взаимосвязях, то для прогнозирования она может быть использована, если соответствующую взаимосвязь удается представить в виде аналитического выражения (например, регрессионного уравнения), которое связывает изменение одного экономического показателя (зависимая переменная) с влиянием ряда фактор-аргументов, т.е. к данным наблюдения подбирается уравнение типа y = f(x1,x2,…). Прогноз получают путем подстановки в регрессионное уравнение переменных. Результат представляет собой оценку среднего значения зависимой переменной при данных уровнях фактор-аргументов. Для уравнения регрессии обычно определяют доверительные интервалы, которые также можно использовать в прогнозировании. Расчет доверительных интервалов позволяет определить область, в которой следует ожидать значение прогнозируемой величины. Выход этой величины за границы интервала в силу случайных колебаний имеет незначительную вероятность – меньше, чем дополнение до единицы доверительной вероятности, т.е. меньше уровня существенности.
Если в ходе количественного анализа выявлена и обоснована зависимость одного явления от других, то в этом случае на долю регрессионного уравнения, или регрессии, падает задача измерения этой зависимости, в которой причинно-следственный механизм выступает, так сказать, в наглядной форме. Прогноз в этом случае лучше поддается содержательной интерпретации, чем простая экстраполяция тенденции. Во всяком случае, при применении регрессий (а точнее, при их получении) становится более ясным воздействие отдельных факторов и прогнозист лучше понимает природу исследуемого явления. Кроме того, регрессии создают базу для расчетного экспериментирования с целью получения ответов на вопросы типа “Что будет, если…?”.
Регрессионный анализ предполагает решение двух задач. Первая заключается в выборе независимых переменных, существенно влияющих на зависимую величину, и определения формы уравнения регрессии (обычно этот этап в разработке регрессии называют спецификацией). Данная задача решается путем анализа изучаемой взаимосвязи по существу. Формальные средства могут служить здесь лишь некоторыми ориентирами. Вторая задача – оценивание параметров – решается с помощью того или иного статистического метода обработки данных наблюдения.
Рассмотрим самый простой случай. Пусть нам необходимо описать в виде некоторой функции взаимосвязь двух переменных величин y и x. Предполагается, что между этими величинами теоретически существует простейшая зависимость:
![]() |
(1) |
где α и β – постоянные неизвестные коэффициенты (параметры), x – независимая, y – зависимая переменная.
Практически, однако, между y и x обычно существует не столь жесткая зависимость. Даже если она может быть представлена, допустим, в виде линейной функции, то отдельные наблюдения у будут в большей или меньшей мере отклоняться от линейной взаимосвязи в силу воздействия различных неучтенных факторов, а также случайных причин, влияния возмущений, помех и т.д. Отклонения от теоретической выбранной взаимосвязи, естественно, могут возникнуть и в силу неправильной спецификации уравнения, т.е. неправильного выбора формы самого уравнения, описывающего эту взаимосвязь. В дальнейшем , однако, будем полагать, что спецификация выполнена правильно.
Учитывая возможные отклонения, уранвнение взаимосвязи двух переменных (парную регрессию) можно представить в виде:
![]() |
(2) |
где ε – случайная переменная, характеризующая отклонение от теоретической линии. Для краткости будем называть эту переменную возмущением.
Таким образом, в уравнении (2) значение y представляется как сумма двух частей – систематической (α + βx) и случайной (ε). Уравнение (1) характеризует некоторое среднее значение y для данного значения x, в свою очередь уравнение (2) показывает индивидуальные значения y с учетом возможных отклонений от средних.
Относительно возмущения сделаем следующие предположения:
Таким образом, при построении регрессии (в данном случае линейной парной регрессии) принимается гипотеза о том, что для каждого наблюдения i справедлива следующая взаимосвязь:
![]() |
(3) |
Математическое ожидание, дисперсия и ковариации возмущения εi; имеют следующие значения:
![]() |
(4) |
Где i, j = 1,…, n – номер наблюдения; символ E указывает на операцию определения математического ожидания, отсюда Е(εi;εi;) – дисперсия возмущения, Е() - ковариация.
Итак, в результате статистического наблюдения мы имеем ряд характеристик независимой переменной x и соответствующие значения зависимой переменной yi. Задача, следовательно, заключается в определении параметров. Однако истинные значения этих параметров получить нельзя, так как мы опираемся на ограниченный объем информации – на выборку ограниченного объема, поэтому получаемые расчетные значения параметров являются статическими оценками истинных параметров α и β. Обозначим соответствующие (выборочные) оценки как а и b.Таким образом, уравнение парной регрессии y′= a + bx есть оценка взаимосвязи y= α + βx.
Приняв некоторую гипотезу о форме кривой, описывающей взаимосвязь переменных y и х (например, допустим, это будет простая линейная взаимосвязь), нам, тем не менее, не удается однозначно подобрать параметры уравнения, так как через область, в которой расположены точки, соответствующие отдельным наблюдениям, можно провести множество прямых (например, соединить первую и последнюю точку и т.д.). Необходим некоторый критерий. В качестве такого критерия, естественно, принять требование о соотношении значений наблюдений и расчетных данных, поскольку существует стремление провести прямую в целом наиболее близко к данным наблюдения. Различные методы оценивания параметров опираются на различные критерии, измеряющие степень близости расчетных и фактических данных, и, разумеется. Дают разные значения оценок параметров для одной и той же совокупности наблюдений. При этом оказывается , что получаемые оценки обладают различными статистическими свойствами.
Наиболее распространенным в силу своей простоты и сравнительно широкой области приложения является метод наименьших квадратов, МНК. Немаловажно и то, что получаемые МНК оценки при условии, что сделанные выше предположения относительно ε справедливы, обладают рядом ценных для последующего применения регрессий в прогнозировании свойств, а именно:
![]() |
(5) |
оценки являются эффективными в том смысле, что они имеют минимальную дисперсию по сравнению с любыми другими оценками этого параметра.
Если предположение 3 или 4 нарушено, то свойство несмещенности и состоятельности оценок сохраняется, однако оценки оказываются менее эффективными, чем в случае, когда эти допущения соблюдаются.
Совершенно очевидно, что для прогнозирования не безразлично, какими свойствами обладает оценка. Что касается свойства несмещенности, то оно является необходимым. В самом деле, смещенные оценки априори дают неверное положение кривой в пространстве независимых переменных. Свойство состоятельности означает, что при увеличении объема наблюдения оценки параметров становятся более надежными в вероятностном смысле, т.е. с ростом n оценки все плотнее концентрируются вокруг истинных неизвестных значений параметров. Свойство эффективности, в общем, является наиболее важным, поскольку оно определяет степень возможной ошибки прогноза.