В статье рассматриваются некоторые проблемы, связанные с использованием регрессионного анализа в социологии. Обсуждаются ограничения, обусловленные неравенством дисперсий (гетероскедастич-ностью) и мультиколлинеарностью в регрессионных моделях. Предлагается несколько подходов к снижению последствий нарушения этих ограничений.
Введение
Построение регрессионных моделей на сегодняшний день, несомненно, является наиболее широко применяемым методом многомерного статистического анализа социологических данных. За последние несколько лет более половины статей, анализирующих эмпирические данные, в таких американских социологических журналах, как American Journal of Sociology и American Sociological Review, основаны на использовании регрессионных моделей.
Достаточно распространены регрессионные методы и среди российских социологов, специалистов, использующих опросные методики. Вместе с тем многие особенности и ограничения регрессионных моделей обычно остаются вне сферы внимания исследователей, что, подчас, приводит к неточным, либо просто ошибочным результатам. В данной статье рассматриваются некоторые особенности использования регрессионных методов при анализе данных массовых опросов.
Проблема недостаточности одного уравнения
Традиционная модель множественного линейного регрессионного анализа подразумевает поиск показателей (обозначаемых X), определяющих значение отдельной количественной переменной, обозначаемой Y. Структура связи в данной модели предполагается линейной. Иными словами, ищется следующая форма зависимости:
Y=B0+B1*X1+B2*X2+....+Bn*Xn+U, (1) где U -так называемый остаточный член, фиксирующий ту часть информации Y, которая не объясняется иксами.
Регрессионный анализ показывает, во-первых, качество модели, то есть степень того, насколько данная совокупность иксов объясняет Y. Показатель качества называется коэффициентом детерминации R2 и показывает, какой процент информации Y можно объяснить поведением иксов. Во-вторых, регрессионный анализ вычисляет значения коэффициентов В, то есть определяет, с какой силой каждый из Х влияет на Y. Методологическим недостатком такого подхода является то, что данная зависимость ищется единой для всей совокупности опрошенных респондентов. Иными словами, мы предполагаем, что для всех людей характер зависимости Y от иксов единый. В том случае, когда выборочная совокупность достаточно однородна, такого рода допущение имеет под собой определенные основания. Однако, если анализируются, скажем, детерминанты электоральных предпочтений на основе данных всероссийской выборки, допущение об однородности этих детерминант для чукотского оленевода и для московского профессора выглядит не очень убедительным. Единая форма уравнения в этой ситуации сильно огрубляет реальную зависимость, качество модели неизбежно оказывается весьма низким, а смысл регрессионных коэффициентов, фиксирующих степень влияния иксов на Y, можно приравнять к пресловутому показателю "средней температуры по больнице". Вполне очевидно, что гораздо разумнее строить отдельные модели для существенно различающихся между собой групп респондентов. Однако доведение такого подхода до логического завершения чревато опасностью полного релятивизма. Действительно, всегда можно найти более или менее убедительные аргументы в пользу того, что по анализируемой проблеме механизмы формирования оценок различны у женщин и мужчин, у горожан и сельских жителей, у инженеров и рабочих и т.д. и т.п. Следовательно, для каждой группы необходимо строить свою модель, что не очень конструктивно, поскольку количество таких моделей ограничивается лишь фантазией социолога по разбиению всей совокупности на отдельные группы. Оказывается, однако, что есть определенные формальные критерии, позволяющие определять границы групп, для которых действуют одинаковые, либо различные механизмы.
Источник: http://socioline.ru/node/529