Назад в библиотеку

SAS, STATA, SPSS: сравнение

Автор: Alan C.Acock

Автор перевода: Чайка А.Р.
Источник: Опубликовано в журнале «Брак и семья», выпуск 67, №4, 2005

Три пакета программного обеспечения стали доминирующими инструментами для управления данными и стандартного статистического анализа. Это SAS, Stata и SPSS. У каждого из них есть свои преимущества и недостатки; ни один из них не является достаточным для всех потребностей в анализе данных следующего поколения семейных ученых. Каждый пакет имеет свое видение, и важно понимать эти видения при выборе. Прежде чем принять решение, человек должен перейти на статистический портал UCLA, который охватывает эти и другие пакеты (http://www.ats.ucla.edu/stat/). На портале есть страница со списком учебных материалов и даже фильмов со многими статистическими пакетами: http://www.ats.ucla.edu/stat/seminars/. Просмотр материала поможет вам выбрать между пакетами. Я представлю вам свое видение каждого пакета и его значение для конечного пользователя. Самые жесткие сторонники каждого пакета, безусловно, не согласятся с некоторыми из моих мнений, но я прилагаю согласованные усилия, чтобы быть справедливым.

Пакеты программ — это движущиеся цели. Любая попытка точно сказать, что каждый из них может или не может сделать, будет ошибкой в следующем выпуске. Таким образом, утверждение, что пакет не может что–то сделать, обычно означает, что над ним работает команда разработчиков. Проблематично основывать ваше решение между пакетами на одной или нескольких возможностях. В то же время видения этих трех пакетов предполагают, что они будут развиваться по–разному, и это направление может помочь вам принять решение. Мы рассмотрим SAS, SPSS и Stata в этом порядке.

Некоторые давние пользователи SAS скажут вам, что это означает «Система статистического анализа», но SAS отрекается от этого сегодня, поскольку определяет себя как корпоративную вычислительную систему. SAS вышел за рамки статистического анализа. Большая часть его развития следует за переходом от раннего внимания к академическим статистическим вычислениям к обслуживанию более прибыльного рынка корпоративных вычислений.

SAS является первым выбором для многих опытных пользователей, которые проводят несколько часов в большинстве дней, работая над управлением данными. SAS предлагает широкий спектр задач анализа и управления данными. Управление данными является большой силой SAS. Самые сложные наборы данных, которые мы используем, едва ли используют возможности SAS для управления данными. Его способность открывать много файлов данных одновременно и его стиль структурированного программирования, в котором управление данными и статистический анализ разделены, являются большой привлекательностью для тех, кто зарабатывает на жизнь, управляя сложными наборами данных.

SAS особенно сильна в ANOVA, общей линейной модели и их расширениях. Действительно, в SAS есть немного статистических или графических задач, которые вы не можете выполнить, но часто вы обнаруживаете, что SAS находится далеко внизу списка по простоте использования. Поскольку SAS был разработан до того, как был изобретен первый ПК или Mac, исследователь, который использует только ПК или Mac, будет разочарован. Тот факт, что программа для ПК может быть запущена на 25–летней системе мэйнфреймов с минимальными изменениями, просто не имеет значения для большинства из нас и, конечно, для следующего поколения семейных ученых.

Основное возражение семейных ученых о SAS заключается в том, что его трудно изучать. Обучение выпускников методам увязло в том, как использовать SAS, а не в методологических и статистических вопросах. Документация по SAS многочисленна, но многие пользователи жалуются, что она написана для того, чтобы показать всю мощь SAS, а не чтобы показать, как сделать что–то простое. Примеры в документации показывают наиболее мощную задачу, которую может выполнить процедура, а не то, как она будет использоваться 80% конечных пользователей. Это хорошо для опытных пользователей, которые хотят расширить свои возможности для самых сложных приложений, но это расстраивает новичков.

Несмотря на то, что SAS переместил свое видение с статистического анализа на корпоративные приложения, SAS настолько велик, а его персонал настолько талантлив, что по–прежнему является лидером в интеграции новых статистических разработок, даже если это не является его первоочередной задачей. Существует небольшая опасность того, что большинство исследователей перерастут развивающиеся возможности SAS.

SPSS служит другому видению. SPSS — это первый выбор для случайного пользователя, который занимается базовым управлением данными и статистическим анализом. Это не критика, и именно поэтому многие пользователи принимают SPSS. Это достаточно сильно на процедурах, связанных с ANOVA. Заглядывая в будущее, было бы справедливо сказать, что он будет самым слабым из трех пакетов предлагаемых статистических процедур. Он может управлять сложными наборами данных, но часто полагается на грубую силу в коде, необходимом для этого.

Преимущество SPSS по сравнению с SAS состоит в том, что SPSS в значительной степени отказался от своей версии для мэйнфреймов и пересмотрел свой синтаксис, чтобы соответствовать одному пользователю. Это позволило значительно упростить. Несмотря на то, что все три имеют опцию меню, меню SPSS с указателями и щелчками проще всего изучить. Команды SPSS, однако, так же сложны, как и SAS, и код менее согласован. Это делает программирование в SPSS утомительным и подверженным ошибкам.

Как и SAS, концепция SPSS отошла от академических исследований. SPSS расшифровывается как «Статистический пакет для социальных наук», но это полное имя сегодня редко пишется. SPSS кажется гораздо более сфокусированным на маркетинговых исследованиях, чем на приложениях социальных наук. Поскольку команда разработчиков SPSS намного меньше, чем SAS, это изменение в видении является особой проблемой. SPSS, похоже, вкладывает больше средств в разработку ориентированной на маркетинг графики, которую не публикует ни один академический журнал, чем в разработку новых процедур для анализа данных. Хотя развитие веб–публикаций может обеспечить больше цвета в графике, графические разработки в SPSS кажутся далекими от потребностей научных исследований.

Документация SPSS замечательна, и ее можно установить в виде файлов PDF на ваш компьютер. В документации используются примеры, которые чрезвычайно распространены и иногда далеки от оспаривания. Кто бы ни писал эти руководства, он должен был задать ему или ей вопрос: что хотят делать 80% конечных пользователей? Новички считают это очень полезным, хотя опытные пользователи иногда жалуются на то, что они не изучают все возможности того, что возможно.

SPSS — это самый простой из трех пакетов. Вы вырастете из этого, если будете разрабатывать сложные требования к управлению данными. Вы вырастете из этого, если хотите использовать специализированный статистический анализ. Вы также можете вырасти из–за маркетинговой стратегии SPSS. SPSS продается как серия модулей, и если ваш университет не может позволить себе всю коллекцию, вам не хватит основных функций. Существует базовый модуль, расширенные модели SPSS, регрессионные модели SPSS, таблицы SPSS, анализ недостающих значений SPSS, мощность выборки, комплексный модуль выборки SPSS и более десятка других. Отдельные процедуры в SAS или Stata продаются как дорогие дополнительные модули в SPSS. Такое модульное ценообразование быстро повышает стоимость. Доступны версии для студентов, но в них отсутствуют статистические процедуры, которые необходимы сегодня и доступны только в дополнительных модулях.

По сравнению с SAS и SPSS Stata является первым выбором для семейных ученых, которые не собираются управлять данными на ежедневной основе (SAS будет лучше), но которые нуждаются в большей статистической сложности, чем это доступно в SPSS. Статистический анализ с использованием Stata относительно слабый по ANOVA и адекватен только по факторному анализу, но экстраординарный по регрессии, сложным планам опросов, ограниченным зависимым переменным, эпидемиологическим методам, анализу выживаемости, схемам, временным рядам и диагностике. Графика Stata и SAS ориентирована на научную работу —- менее «чудо–умнее», чем некоторые варианты SPSS, но идеальна для научных журналов. Видение Stata сфокусировано на анализе данных. Хотя у Stata самая маленькая команда разработчиков, все их усилия сосредоточены на статистических потребностях ученых. Заглядывая в будущее, Stata может иметь самую сильную коллекцию передовых статистических процедур.

Stata выросла после ПК, Mac, Unix–систем и Интернета. В отсутствие унаследованных мэйнфреймов Stata имеет простую и последовательную структуру команд. Например, если вы хотите сохранить только те случаи, которые имеют 1 on gender, SAS скажет: data new; set old; if gender=1 then output; run. Подумайте, как это звучит для начинающего ученика. Стата сказала бы сохранить, keep if gender==1 (двойные знаки равенства, ==, являются эквивалентом Статы "is"). Для регресса образования в области образования матери и образования отца пакет SPSS (использующий меню для генерации кода) должен сказать: Regress / missing listwise / statistics coeff outs r anova / ciiteria=pin(.05) pout(.10) /noorigin/ dependent educ/ method= enter paeduc maeduc. Я понимаю, что система меню генерирует нерелевантный код, но если вы используете его для создания файла синтаксиса, вам нужно пройтись по нему. Stata (используя свою систему меню) сказала бы regress educ paeduc maeduc. Последовательность Stata впечатляет. Чтобы сделать логистическую регрессию развода of divorce on paeduc and maeduc, Stata скажет logistic divorce paeduc maeduc и сделать полиномиальную логистическую регрессию happy7 (семь категорий) по удовлетворенности работой и удовлетворению семьи, вы скажете: mlogit happy7 satjob satfam.

Разработанные пользователем процедуры могут быть установлены через Интернет, не покидая Stata, и данные могут быть загружены в Stata так же легко, как их можно прочитать с локального диска. Лонг и Фриз (2003) написали книгу об ограниченных зависимых переменных. Они также написали инновационные программы, которые помогают пользователям интерпретировать результаты. Пользователь Stata может установить этот набор программ из Stata, нажав кнопку. Эта расширяемость Stata является ее особой силой. Существуют тысячи пользовательских программ, которые можно найти с помощью команды «findit». Stata будет автоматически сама, введя команду «обновить все».

Как и в SPSS и SAS, в Stata есть выпадающие меню. Поскольку структура команд Stata очень проста, пользователи часто вводят команды без использования системы меню. Серьезное исследование требует записи того, что сделала полная программа, и SAS, SPSS и Stata способствуют этому, хотя встроенный редактор Stata ограничен. Документация для Stata превосходна, и возможность загружать наборы данных, которые используются в примерах в документации, очень полезна. Stata по–прежнему ограничена отсутствием действительно вводной книги, но онлайн–уроки смягчают это.

SPSS — это все, что вам нужно, если вы можете минимизировать сложное управление данными и не собираетесь проводить передовой статистический анализ. Если вы открываете статистическую программу только один или два раза в месяц, SPSS имеет явные преимущества, потому что она очень похожа на знакомую электронную таблицу Excel. SAS является вероятным выбором для человека, который постоянно управляет сложными наборами данных. Эти люди будут использовать SAS по несколько часов в день, а крутая кривая обучения и сложная структура команд — небольшая цена за невероятную мощность. Сложная документация дает им новые идеи о том, что они могут сделать. Stata — ваш выбор, если вы хотите проводить передовые исследования, но не имеете потребностей в управлении данными, требующих SAS. Stata — это идея для людей, которые разрабатывают или модифицируют статистические процедуры.



Алан С.Акок. Департамент человеческого развития и семейных наук, Орегонский государственный университет, Корваллис, Орегон, 97331 (alan.acock@oregonstate.edu)



Ссылки

Long, J. S., & Freese, J. (2003). Regression models for categorical dependent variables using Stata. College Station, TX: Stata Press.


Назад в библиотеку