Автор: Alan C. Acock
Источник: Journal of Marriage and Family 67 (November 2005): 1012–1028
Автор перевода: Ю.Г. Шкарпеткина

Работа с пропущенными данными

Неоптимальная стратегия для пропущенных данных может привести к смещенным оценкам, искаженной статистической информации, и неправильным выводам. После рассмотрения традиционных подходов (список, попарно и замена), в качестве альтернативного подхода рассматривают условный расчет и полную информацию максимального правдоподобия оценки. Показано влияние на пропущенные данные для линейной модели, а также приведен ряд рекомендаций. Чтобы избежать пропущенных данных изложенные методы предлагают существенные улучшения по сравнению с традиционными подходами. Приведены некоторые результаты использования SPSS, NORM, Stata (mvis/micombine). Mplus включена как таблица доступного программного обеспечения. Приведены приложения с примерами программ Stata и Mplus.

Традиционные подходы для работы с пропущенными данными могут привести к предвзятым оценкам и могут либо преуменьшать, либо преувеличивать статистическую мощность. Каждое такое искажение может привести к неправильным выводам. Пропущенные данные являются эндемичными по социальным наукам (Juster & Smith, 1998), и семейные исследования не является исключением. King, Hopnaker, Joseph и Scheve (2001) обнаружили, что примерно 50% данных политических исследований составляют пропущенные данные, и социологические исследования приближается к этому уровню пропущенных данных. Большинство данных, которые используются в статьях  в социальных журналах имеют серьезные проблемы с пропущенными данными. Это справедливо даже для таких крупных социологических служб как: Национальное общество по исследованию семей и домохозяйств, Национальная служба по исследованию молодежи, Общий социологический опрос, Общество по изучению динамики исследования доходов. В этой статье я затрагиваю такие вопросы как:  Хороши ли традиционные подходы? Какие новые подходы появились? Какие их преимущества и недостатки?
Есть много видов исследований, в которых встречаются пропущенные данные. Я остановлюсь на пропущенных данных, которые являются проблемой для экспериментальных проектов и административных данных. В частности, в этой статье рассматриваются случаи, когда люди соглашаются участвовать в исследовании, но не выполняет все требования. Случаи, когда человек пропускает групповые исследования, или покидает его до завершения, отмечены, но здесь не рассматриваются. Многое было написано о пропущенных данных в статистической литературе. За последние десять лет, учеными-социологами было разработано много новых методов, которые были лучше, чем традиционные подходы (Allison, 2002; Little & Rubin, 1987, 2002; Royston, 2005; Schafer, 1997; van Buuren, Brand, Groothuis-Oudshoorn, & Rubin, напечатаны). Технические вопросы этой темы рассматривали Little & Rubin (2002), Schafer или Van Buuren и другие. Здесь я остановлюсь на практических вопросах, приложениях, и руководящих принципах для ученых-социологов.
Я начну с обсуждения видов пропущенных данных. Отмечу важность отсутствия анализа данных, представлю критический анализ традиционных подходов для работы с пропущенными данными (например, удаление списком, удаление попарно, индикатор переменной, и замещение). Относительно нетехнических вопросов, я расскажу о новых методах, которые связаны с одним пропуском, несколькими пропусками и с очень большим количеством пропущенных данных. И в конце я рассмотрю несколько подходов с различными видами пропущенных данных и дам ряд рекомендаций.

Виды пропущенных данных

Есть несколько классификаций пропущенных данных. Эти классификации влияют на оптимальную стратегию работы с пропущенными данными. В этом разделе говорится о данных, которые пропущены по определению подгруппы, полностью случайные пропуски (MCAR), случайные пропуски в данных (MAR), и нециклические (NI) пропущенные данные.

Пропущенные  данные в подгруппе

Некоторые участники обзора исключаются из анализа, потому что они не находятся в исследуемой подгруппе. В социальных сетях исследователь сравнивает замужних женщин с незамужними и лесбиянками, исключая при этом мужчин, потому что они не являются изучаемыми объектами. Эти респонденты исключены из анализа. Исследователю необходимо устранить их из данных до описания каких-либо проблем с пропущенными значениями. Исследователь должен отметить общий объем выборки, а затем заявить количество участников, которые входят в изучаемую подгруппу, а именно: женщины, которые состоят в браке, незамужние и лесбиянки. Важно различать между собой наблюдения, которые удаляются по характеру подгруппы, и которые нужно включать, но они имеют пропущенные данные. Только последнее проблематично.
Большинство исследований имеют несколько видов пропущенных данных, необходимо отличать данные, которые отсутствуют изначально, от данных, для которых уместно прописать отсутствующие значения. Данные часто различают среди респондентов: а) отказался отвечать; б) не знает; в)  пропущенные данные; г) были упущены интервьюером. Исследователь должен только приписать значения для участников, которые находятся в изучаемой подгруппе. Обычно, например, действительные пропуски не должны быть оценочными, хотя данные, которые ошибочно пропустил интервьюер, должны быть оценочными. Различия между видами пропущенных данных теряются в наборах данных, когда используется только один код (например,  9).
Отличить действительные пропуски от оценочных иногда очень трудно. Как отмечали Литтл и Рубин (2002), решать, что делать с респондентами, которые отвечают, что не знают, является особенно сложной задачей. В некоторых слечаях, ответ «не знаю» может быть средним между согласием и не согласием. Например, если попросят оценить ваш брак, одни говорят, что очень довольны, другие - очень недовольны, а некоторые могут сказать, что не знают, они колеблются между довольны и недовольны, тогда исследователь может присвоить им соответствующее значение. Другой исследователь может почувствовать, что его действия не оправдались. Респонденты могут говорить «не знаю», потому что они неуверенны, т.е. иногда очень довольны, а иногда и крайне недоволены, но не посередине между ними. Предоставление респондентам значений, которые колеблются между довольны и недовольны, или присвоение значений для них каким-то другим способом не имеет смысла, с этой точки зрения, потому что варианты ответа не имеют значения для респондентов. «Не знаю» - также проблематичный вариант ответа на вопрос, повторно требующий специальных знаний. Если людей в Соединенных Штатах просили дать среднюю оценку браку женщин в Украине, они могут ответить не знаю, потому что они знают, где находится Украина, не говоря уже об оценке брака женщин в этой стране.  Это не означает, что они колеблются, это значит, что данный вопрос не имеет смысла. Таким образом, присвоение значения для данного вопроса - неуместно. Исследователь может определить респондентов, которые не имеют определенного мнения, не являющихся частью изучаемой подгруппы.


Литература

1. Acock, A. C. (1989). Measurement error in secondary data analysis. In K. Namboodiri & R. Corwin (Eds.), Research in sociology of education and socialization (Vol. 8, pp. 201–230). Greenwich, CT: Jai Press.
2. Acock, A. C., & Demo, D. (1994). Family diversity and well-being. Thousand Oaks, CA: Sage.
3. Allison, P. D. (2002). Missing data. Thousand Oaks, CA: Sage.
4. Anderson, A. B., Basilevsky, A., & Hum, D. P. J. (1985). Missing data: A review of the literature. In P. H. Rossi, J. D. Wright, & A. B. Anderson (Eds.), Handbook of survey research (pp. 415 – 494). Burlington, MA: Academic Press.
5. Cohen, J., & Cohen, P. (1983). Applied multiple regression/correlation analysis for the behavioral sciences (2nd ed.). Hillsdale, NJ: Erlbaum.
6. Cohen, J., Cohen, P., West, S., & Aiken, L. (2003). Applied multiple regression/correlation analysis for the behavioral sciences (3rd ed.). Mahwah, NJ: Erlbaum.
7. Dempster, A. P., Laird, N. M., & Rubin, D. B. (1977). Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society, Series B, 39, 1–39.
8. Graham, J. W., & Donaldson, S. I. (1993). Evaluating interventions with differential attrition: The importance of nonresponse mechanisms and the use of followup data. Journal of Applied Psychology, 78, 119 –128.
9. Hershberger, S. L., & Fisher, D. G. (2003). A note on determining the number of imputations for missing data. Structural Equation Modeling, 10, 648–650.
10. Jones, M. P. (1996). Indicator and stratification methods for missing explanatory variables in multiple linear regression. Journal of the American Statistical Association, 91, 222–230.
11. Juster, F. T., & Smith, J. P. (1998). Improving the quality of economic data: Lessons from the HRS and AHEAD. Journal of the American Statistical Association, 92, 27.
12. King, G., Hopnaker, J., Joseph, A., & Scheve, K. (2001). Analyzing incomplete political science data: An alternative algorithm for multiple imputation. American Political Science Review, 95, 49–69.
13. Little, J. R., & Rubin, D. (1987). Statistical analysis with missing data. New York: Wiley.
14. Little, J. R., & Rubin, D. (2002). Statistical analysis with missing data (2nd ed.). New York: Wiley.
15. Meng, X. L. (1995). Multiple imputation inferences with uncongenial sources of input. Statistical Science, 10, 538–573.
16. Muthen, L., & Muthen, B. (2004). Mplus user guide.Los Angeles: Statmodel.
17. Raghunathan, T. E. (2004). What do we do with missing data? Some options for analysis of incomplete data. Annual Review of Public Health, 25, 99–117.
18. Royston, P. (2004). Multiple imputation of missing values. Stata Journal, 4, 227–241.
19. Royston, P. (2005). Multiple imputation of missing values: Update. Stata Journal, 5, 88–102.
20. Rubin, D. (1977). Formalizing subjective notions about the effect of nonrespondents in sample surveys. Journal of the American Statistical Association, 72, 538–543.
21. Rubin, D. B. (1987). Multiple imputation for survey nonresponse. New York: Wiley.
22. Rubin, D. B. (1996). Multiple imputation after 18+ years (with discussion). Journal of the American Statistical Association, 91, 473–489.
23. Sande, I. G. (1983). Hot-deck imputation procedures: Incomplete data in sample surveys (Vol. 3). New York: Academic Press.
24. Schafer, J. L. (1997). Analysis of incomplete multivariate data. London: Chapman & Hall.
25. Schafer, J. L. (1999). NORM: Multiple imputation of incomplete multivariate data under a normal model, version 2. Software for Windows. Retrieved December 15, 2004, from, http://www.stat.psu.edu/~jls/misoftwa.html
26. van Buuren, S., Boshuizen, C. H., & Knook, D. L. (1999). Multiple imputation of missing blood pressure covariates in survival analysis. Statistics in Medicine, 1, 681–694.
27. van Buuren, S., Brand, J. P. L., Groothuis-Oudshoorn, C. G. M., & Rubin, D. B. (in press). Fully conditional specification in multivariate imputation. Journal of Statistical Computation and Simulation.
28. von Hippel, P. T. (2004). Biases in SPSS 12.0 missing value analysis. American Statistician, 58, 160 – 165.
29. von Hippel, P. T. (2005). How many imputations are needed? A comment on Hershberger and Fisher (2003). Structural Equation Modeling, 12, 334–335.