| Использование пакета Statistica 5.0 для
статистической обработки опытных данных С.В. Кабанов | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Проведение регрессионного анализа при помощи модуля Multiple Regressions | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| В стартовом диалоговом окне этого модуля
(рис. 27.) при помощи кнопки Variables указываются
зависимая (dependent) и независимые (ая) (independent) переменные. В поле
Input file указывается тип файла с
данными: Raw Date - данные в виде строчной таблицы; Correlation Matrix - данные в виде корреляционной матрицы.
casewise - игнорируется вся строка, в которой есть хотя бы одной пропущенное значение; mean Substitution - взамен пропущенных данных подставляются средние значения переменных; pairwise - попарное исключение данных с пропусками из тех переменных, корреляция которых вычисляется. В поле Mode указывается тип регрессионной модели: Standard - стандартная линейная модель вида: Y = a1 + a2X1 + a3X2 + a3X3 + ... + anXn Fixed non linear - фиксированная нелинейная, т.е. нелинейная модель, но которая может быть приведена к линейному виду путем преобразования переменных. Рассмотрим проведение регрессионного анализа на примере. Имеются данные обмера и таксации 380 модельных деревьев различных древесных пород. В файле данных (рис. 30) 10 переменных:
Выставим опции стартового окна регрессионного анализа (рис.29): Variables: зависимая (dependent) переменная - VK; независимые (independent) - D,H (рис. 31); Input file - Raw Date (данные файла в виде строчной таблицы); MD deletion - pairwise; Mode - Standard.
Multiple R - коэффициент множественной корреляции; Характеризует тесноту линейной связи между зависимой и всеми независимыми переменными. Может принимать значения от 0 до 1. R2 или RI - коэффициент детерминации; Численно выражает долю вариации зависимой переменной, объясненную с помощью регрессионного уравнения. Чем больше R2, тем большую долю вариации объясняют переменные, включенные в модель. adjusted R - скорректированный коэффициент множественной корреляции; Этот коэффициент лишен недостатков коэффициента множественной корреляции. Включение новой переменной в регрессионное уравнение увеличивает RI не всегда, а только в том случае, когда частный F-критерий при проверке гипотезы о значимости включаемой переменной больше или равен 1. В противном случае включение новой переменной уменьшает значение RI и adjusted R2. adjusted R2 или adjusted RI - скорректированный коэффициент детерминации; Скорректированный R2 можно с большим успехом (по сравнению с R2) применять для выбора наилучшего подмножества независимых переменных в регрессионном уравнении. F - F-критерий; df - число степеней свободы для F-критерия; p - вероятность нулевой гипотезы для F-критерия; Standard error of estimate - стандартная ошибка оценки (уравнения); Intercept - свободный член уравнения; Std.Error - стандартная ошибка свободного члена уравнения; t - t-критерий для свободного члена уравнения; p - вероятность нулевой гипотезы для свободного члена уравнения. Beta - -коэффициенты уравнения.Это стандартизированные регрессионные коэффициенты, рассчитанные по стандартизированным значениям переменных. По их величине можно сравнить и оценить значимость зависимых переменных, так как -коэффициент показывает на сколько единиц стандартного отклонения изменится зависимая переменная при изменении на одно стандартное отклонение независимой переменной при условии постоянства остальных независимых переменных. Свободный член в таком уравнении равен 0. При помощи кнопок диалогового окна Multiple Regressions Results (рис. 33) результаты регрессионного анализа можно просмотреть более детально. Кнопка Regression summary - позволяет просмотреть основные результаты регрессионного анализа (рис. 34): BETA - коэффициенты уравнения; St. Err. of BETA - стандартные ошибки -коэффициентов; В - коэффициенты уравнения регрессии; St. Err. of B - стандартные ошибки коэффициентов уравнения регрессии; t (95) - t-критерии для коэффициентов уравнения регрессии; р-level - вероятность нулевой гипотезы для коэффициентов уравнения регрессии.
Кнопка Analysis of variance - позволяет ознакомиться с результатами дисперсионного анализа уравнения регрессии (рис. 35). В строках таблицы дисперсионного анализа уравнения регрессии - источники вариации: Regress. - обусловленная регрессией, Residual- остаточная, Total - общая. В столбцах таблицы: Sums of Squares - сумма квадратов, df - число степеней свободы, Mean Squares - средний квадрат, F - значение F - критерия, p-level - вероятность нулевой гипотезы для F - критерия. F - критерий полученного уравнения регрессии значим на 5% уровне. Вероятность нулевой гипотезы (p-level) значительно меньше 0,05, что говорит об общей значимости уравнения регрессии.
В идеальной регрессионной модели независимые переменные вообще не коррелируют друг с другом. Однако в моделях, разрабатываемых для природных объектов, сильная коррелированность переменных является довольно частым явлением. Это приводит к увеличению ошибок уравнения, уменьшению точность оценивания, снижается эффективность использования регрессионной модели. Поэтому выбор независимых переменных, включаемых в регрессионную модель, должен быть очень тщательным. Кнопка Predict dependent var. - позволяет рассчитать по полученному регрессионному уравнению значение зависимой переменной по значениям независимых переменных. На рис. 37 приводится пример расчета объема ствола дуба в коре при величине диаметра ствола - 14 см и высоты - 11 м. Предсказанный (Predictd) объем составил 0,1614 куб.м.
Показатель Кука (Cook's Distance) - принимает только положительное значение и показывает расстояние между коэффициентами уравнения регрессии после исключения из обработки i-ой точки данных. Большое значение показателя Кука указывает на сильно влияющий случай. Расстояние Махаланобиса (Mahalns. Distance) - показывает насколько каждый случай или точка в р-мерном пространстве независимых переменных отклоняется от центра статистической совокупности. Внимательный анализ остатков позволяет оценить адекватность модели. Остатки должны быть нормально распределены, со средним значением равным нулю и постоянной, независимо от величин зависимой и независимой переменных, дисперсией. Модель должна быть адекватна на всех отрезках интервала изменения зависимой переменной. Просмотр величин остатков и специальных критериев, их оценивающих, осуществляется при помощи кнопки Display residuals & pred. окна Residual analysis. Для нашего примера фрагмент окна с этими данные представлен на рис. 40.
Очень удобным визуальным способом оценки адекватности регрессионной модели является анализ графического изображения опытных и полученных по регрессионному уравнению значений зависимой переменной. Оно строится при помощи кнопки Pred. & observed окна Residual analysis.
Рассмотрим порядок нахождения коэффициентов уравнений регрессии нелинейного вида, но которые через преобразования переменных могут быть приведены к линейной модели. Найдем параметры регрессионного уравнения cвязи объема ствола дуба в коре (переменная VK) от диаметра (D) ствола. Вид уравнения: VK = a1 + a2D + a3D2. Опцию Mode стартового окна регрессионного анализа (рис. 27) выставим в положение Fixed non linear. Если выбран фиксированный нелинейный тип регрессионной модели, то после нажатия на кнопку ОК в диалоговом окне Multiple Regressions (рис. 45), появляется окно Non-linear Components Regression (рис. .), в котором можно выбрать следующие типы преобразования переменных: X2, X3, X4, X5, (X 0), lnX (X>0), lg10X (X>0),
eX (40<X<-40), 10X (-18 to +18), 1/X (X 0). Если потребуются какие либо иные
преобразования переменных, то тогда в файле данных следует создать мнимые
вичисляемые переменные и включить их в качестве зависимых переменных в
регрессионную модель.
Найдем параметры еще одного регрессионного уравнения. Вид уравнения: VK = a1Da2Ha3. Это степенное уравнение может быть приведено к линейному виду через логарифмирование: lnVK = lna1 + a2 lnD + a3 lnH. При помощи кнопки Variables укажем зависимую - VK и независимые переменные - D,H. Опцию Mode стартового окна регрессионного анализа (рис. 27) выставим в положение Fixed non linear. В качестве типа преобразования переменных выберем натуральный логарифм (ln (Х)). В диалоговом окна Model Definition при помощи кнопки Variables уточним модель, переопределив зависимую и независимые переменные так, как это показано на рис. 50.
Проверим адекватность полученной модели через анализ остатков. В целом он даст положительное заключение. В качестве иллюстрации приведем лишь несколько графиков (рис. 52, 53), подтверждающих такой вывод.
Воспользуемся методом пошагового включения переменных для нахождения наилучшего регрессионного уравнения, описывающего объем ствола дуба в коре (VK). В качестве независимых переменных, которые потенциально могут быть включены в модель примем: диаметр ствола (D), квадрат диаметра (D2), высота ствола (Н), квадрат высоты ствола (Н2), произведение диаметра ствола на его высоту (DH), квадрат произведения диаметра ствола на его высоту ((DH)2). В начале создадим новую переменную - DH. В файле данных она будет одиннадцатой по счету. Для расчета значений этой переменной вызовем окно с экспликацией этой переменной (рис. 54) и в поле Long name введем формулу, в соответствии с которой значения переменной должны быть рассчитаны, т.е "=V3*V4".
Выставим опции окна Model Definition так, как показано на рис. 56. В результате процедуры пошагового включения переменных в регрессионную модель получено следующее уравнение (рис. ): VK = 0,0214 + 0,0009D2 -0,0104D + 0,0003(DH)2. Все коэффициенты уравнения значимы на 5% уровне (p-level < 0,05). Это уравнение объясняет 96,4% (R2=0,964) вариации зависимой переменной (рис. 57). Средняя ошибка уравнения составляет 0,02862 м3 .
Одним из недостатков классического регрессионного анализа, в основе которого лежит метода наименьших квадратов, является недостаточная устойчивость к изменениям входной информации. Сейчас довольно широко стали применяться альтернативные регрессионные модели, одной из которых является гребневая регрессия, которая отличается устойчивостью для случаев сильной коррелированности зависимых переменных друг с другом. В отличии от метода наименьших квадратов, дающего несмещенные оценки коэффициентов уравнения, в методе гребневой регрессии оценки смещенные, но при этом они имеют меньшую дисперсию. Поэтому такие оценки могут давать более точные и приемлемые для практического использования модели (Забелин, 1983). Для расчета гребневой регрессии следует установить флажок в опции Ridge regression диалогового окна Model Definition. При практическом использовании метода гребневой регрессии одним из основных вопросов является выбор параметра
(lambda). Существует несколько численных методов расчета
параметра, но чаще используют простой эмпирический подход: выбирают такой
параметр , при котором коэффициенты
стабилизируются и при дальнейшем увеличении параметра изменяются мало.
Значение принятого параметра является
мерой смещения оценок от истинного значения, поэтому стараются не
придавать слишком больших значений.
Обычно выбирают меньше 0,5, а шаг при
подборе выбирают небольшим, например, 0,02 (Уланова, Забелин, 1990). При
=0 уравнение имеет коэффициенты
классического метода наименьших квадратов. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||