Автор:
Alan
C. Acock
Источник:
Journal
of
Marriage and Family 67 (November 2005): 1012–1028
Автор перевода: Ю.Г.
Шкарпеткина
Работа с пропущенными
данными
Неоптимальная
стратегия для
пропущенных данных может привести к смещенным оценкам, искаженной
статистической информации, и неправильным выводам. После рассмотрения
традиционных подходов (список, попарно и замена), в качестве
альтернативного подхода рассматривают условный расчет и полную
информацию максимального правдоподобия оценки. Показано влияние на
пропущенные данные для линейной модели, а также приведен ряд
рекомендаций. Чтобы избежать пропущенных данных изложенные методы
предлагают существенные улучшения по сравнению с традиционными
подходами. Приведены некоторые результаты использования SPSS, NORM,
Stata (mvis/micombine). Mplus включена как таблица доступного
программного обеспечения. Приведены приложения с примерами программ
Stata и Mplus.
Традиционные подходы для работы с пропущенными данными могут привести к
предвзятым оценкам и могут либо преуменьшать, либо преувеличивать
статистическую мощность. Каждое такое искажение может привести к
неправильным выводам. Пропущенные данные являются эндемичными по
социальным наукам (Juster & Smith, 1998), и семейные
исследования
не является исключением. King, Hopnaker, Joseph и Scheve
(2001)
обнаружили, что примерно 50% данных политических исследований
составляют пропущенные данные, и социологические исследования
приближается к этому уровню пропущенных данных. Большинство данных,
которые используются в статьях в социальных журналах имеют
серьезные проблемы с пропущенными данными. Это справедливо даже для
таких крупных социологических служб как: Национальное общество по
исследованию семей и домохозяйств, Национальная служба по исследованию
молодежи, Общий социологический опрос, Общество по изучению динамики
исследования доходов. В этой статье я затрагиваю такие вопросы
как: Хороши ли традиционные подходы? Какие новые подходы
появились? Какие их преимущества и недостатки?
Есть много видов исследований, в которых встречаются пропущенные
данные. Я остановлюсь на пропущенных данных, которые являются
проблемой для экспериментальных проектов и административных данных. В
частности, в этой статье рассматриваются случаи, когда люди соглашаются
участвовать в исследовании, но не выполняет все требования. Случаи,
когда человек пропускает групповые исследования, или покидает его до
завершения, отмечены, но здесь не рассматриваются. Многое было написано
о пропущенных данных в статистической литературе. За последние десять
лет, учеными-социологами было разработано много новых методов, которые
были лучше, чем традиционные подходы (Allison, 2002; Little &
Rubin, 1987, 2002; Royston, 2005; Schafer, 1997; van Buuren, Brand,
Groothuis-Oudshoorn, & Rubin, напечатаны). Технические вопросы
этой
темы рассматривали Little & Rubin
(2002), Schafer или Van
Buuren и другие. Здесь я остановлюсь на практических вопросах,
приложениях, и руководящих принципах для ученых-социологов.
Я
начну с обсуждения видов
пропущенных данных. Отмечу важность отсутствия анализа данных,
представлю критический анализ традиционных подходов для работы с
пропущенными данными (например, удаление списком, удаление попарно,
индикатор переменной, и замещение). Относительно нетехнических
вопросов, я расскажу о новых методах, которые связаны с одним
пропуском, несколькими пропусками и с очень большим количеством
пропущенных данных. И в конце я рассмотрю несколько подходов с
различными видами пропущенных данных и дам ряд рекомендаций.
Виды
пропущенных данных
Есть несколько классификаций пропущенных данных. Эти классификации
влияют на оптимальную стратегию работы с пропущенными данными. В этом
разделе говорится о данных, которые пропущены по определению подгруппы,
полностью случайные пропуски (MCAR), случайные пропуски в данных
(MAR), и
нециклические (NI) пропущенные данные.
Пропущенные данные в подгруппе
Некоторые участники обзора исключаются из анализа, потому что они не
находятся в исследуемой подгруппе. В социальных сетях исследователь
сравнивает замужних женщин с незамужними и лесбиянками, исключая при
этом мужчин, потому что они не являются изучаемыми объектами. Эти
респонденты исключены из анализа. Исследователю необходимо устранить их
из данных до описания каких-либо проблем с пропущенными значениями.
Исследователь должен отметить общий объем выборки, а затем заявить
количество участников, которые входят в изучаемую подгруппу, а именно:
женщины, которые состоят в браке, незамужние и лесбиянки. Важно
различать между собой наблюдения, которые удаляются по характеру
подгруппы, и которые нужно включать, но они имеют пропущенные данные.
Только последнее проблематично.
Большинство исследований имеют несколько видов пропущенных данных,
необходимо отличать данные, которые отсутствуют изначально, от данных,
для которых уместно прописать отсутствующие значения. Данные часто
различают среди респондентов: а) отказался отвечать; б) не знает;
в) пропущенные данные; г) были упущены интервьюером.
Исследователь должен только приписать значения для участников, которые
находятся в изучаемой подгруппе. Обычно, например, действительные
пропуски не должны быть оценочными, хотя данные, которые ошибочно
пропустил интервьюер, должны быть оценочными. Различия между видами
пропущенных данных теряются в наборах данных, когда используется только
один код (например, 9).
Отличить действительные пропуски от оценочных иногда очень трудно. Как
отмечали Литтл и Рубин (2002), решать, что делать с респондентами,
которые отвечают, что не знают, является особенно сложной задачей. В
некоторых слечаях, ответ «не
знаю» может быть средним
между согласием и не согласием. Например, если попросят оценить ваш
брак, одни говорят, что очень довольны, другие - очень недовольны, а
некоторые могут сказать, что не знают, они колеблются между довольны и
недовольны, тогда исследователь может присвоить им соответствующее
значение. Другой исследователь может почувствовать, что его действия не
оправдались. Респонденты могут говорить «не знаю», потому что они неуверенны,
т.е. иногда очень довольны, а иногда и крайне недоволены, но не
посередине между ними. Предоставление респондентам значений, которые
колеблются между довольны и недовольны, или присвоение значений для них
каким-то другим способом не имеет смысла, с этой точки зрения, потому
что варианты ответа не имеют значения для респондентов. «Не знаю» - также проблематичный вариант
ответа на вопрос, повторно требующий специальных знаний. Если людей в
Соединенных Штатах просили дать среднюю оценку браку женщин в
Украине, они могут ответить не знаю, потому что они знают, где
находится Украина, не говоря уже об оценке брака женщин в этой стране.
Это не означает, что они колеблются, это значит, что данный
вопрос не имеет смысла. Таким образом, присвоение значения для данного
вопроса - неуместно. Исследователь может определить респондентов,
которые не имеют определенного мнения, не являющихся частью изучаемой
подгруппы.
Литература
1. Acock, A. C. (1989).
Measurement error in secondary data analysis. In K. Namboodiri & R.
Corwin (Eds.), Research in sociology of education and socialization
(Vol. 8, pp. 201–230). Greenwich, CT: Jai Press.
2. Acock, A. C., & Demo, D. (1994). Family diversity and
well-being. Thousand Oaks, CA: Sage.
3. Allison, P. D. (2002). Missing data. Thousand Oaks, CA: Sage.
4. Anderson, A. B., Basilevsky, A., & Hum, D. P. J. (1985). Missing
data: A review of the literature. In P. H. Rossi, J. D. Wright, &
A. B. Anderson (Eds.), Handbook of survey research (pp. 415 –
494). Burlington, MA: Academic Press.
5. Cohen, J., & Cohen, P. (1983). Applied multiple
regression/correlation analysis for the behavioral sciences (2nd ed.).
Hillsdale, NJ: Erlbaum.
6. Cohen, J., Cohen, P., West, S., & Aiken, L. (2003). Applied
multiple regression/correlation analysis for the behavioral sciences
(3rd ed.). Mahwah, NJ: Erlbaum.
7. Dempster, A. P., Laird, N. M., & Rubin, D. B. (1977). Maximum
likelihood from incomplete data via the EM algorithm. Journal of the
Royal Statistical Society, Series B, 39, 1–39.
8. Graham, J. W., & Donaldson, S. I. (1993). Evaluating
interventions with differential attrition: The importance of
nonresponse mechanisms and the use of followup data. Journal of Applied
Psychology, 78, 119 –128.
9. Hershberger, S. L., & Fisher, D. G. (2003). A note on
determining the number of imputations for missing data. Structural
Equation Modeling, 10, 648–650.
10. Jones, M. P. (1996). Indicator and stratification methods for
missing explanatory variables in multiple linear regression. Journal of
the American Statistical Association, 91, 222–230.
11. Juster, F. T., & Smith, J. P. (1998). Improving the quality of
economic data: Lessons from the HRS and AHEAD. Journal of the American
Statistical Association, 92, 27.
12. King, G., Hopnaker, J., Joseph, A., & Scheve, K. (2001).
Analyzing incomplete political science data: An alternative algorithm
for multiple imputation. American Political Science Review, 95,
49–69.
13. Little, J. R., & Rubin, D. (1987). Statistical analysis with
missing data. New York: Wiley.
14. Little, J. R., & Rubin, D. (2002). Statistical analysis with
missing data (2nd ed.). New York: Wiley.
15. Meng, X. L. (1995). Multiple imputation inferences with uncongenial
sources of input. Statistical Science, 10, 538–573.
16. Muthen, L., & Muthen, B. (2004). Mplus user guide.Los Angeles:
Statmodel.
17. Raghunathan, T. E. (2004). What do we do with missing data? Some
options for analysis of incomplete data. Annual Review of Public
Health, 25, 99–117.
18. Royston, P. (2004). Multiple imputation of missing values. Stata
Journal, 4, 227–241.
19. Royston, P. (2005). Multiple imputation of missing values: Update.
Stata Journal, 5, 88–102.
20. Rubin, D. (1977). Formalizing subjective notions about the effect
of nonrespondents in sample surveys. Journal of the American
Statistical Association, 72, 538–543.
21. Rubin, D. B. (1987). Multiple imputation for survey nonresponse.
New York: Wiley.
22. Rubin, D. B. (1996). Multiple imputation after 18+ years (with
discussion). Journal of the American Statistical Association, 91,
473–489.
23. Sande, I. G. (1983). Hot-deck imputation procedures: Incomplete
data in sample surveys (Vol. 3). New York: Academic Press.
24. Schafer, J. L. (1997). Analysis of incomplete multivariate data.
London: Chapman & Hall.
25. Schafer, J. L. (1999). NORM: Multiple imputation of incomplete
multivariate data under a normal model, version 2. Software for
Windows. Retrieved December 15, 2004, from,
http://www.stat.psu.edu/~jls/misoftwa.html
26. van Buuren, S., Boshuizen, C. H., & Knook, D. L. (1999).
Multiple imputation of missing blood pressure covariates in survival
analysis. Statistics in Medicine, 1, 681–694.
27. van Buuren, S., Brand, J. P. L., Groothuis-Oudshoorn, C. G. M.,
& Rubin, D. B. (in press). Fully conditional specification in
multivariate imputation. Journal of Statistical Computation and
Simulation.
28. von Hippel, P. T. (2004). Biases in SPSS 12.0 missing value
analysis. American Statistician, 58, 160 – 165.
29. von Hippel, P. T. (2005). How many imputations are needed? A
comment on Hershberger and Fisher (2003). Structural Equation Modeling,
12, 334–335.