Además de la interfaz de los análisis estadísticos, SPSS para Windows proporciona:

Transcripción

1 SPSS Descripción de SPSS... 3 Sintaxis de comandos... 3 Estructura interna de SPSS... 4 Módulo Base de SPSS... 5 Frecuencias... 5 Descriptivos... 5 Explorar... 5 Tablas de contingencia... 5 Resumir... 6 Medias... 6 Prueba T para muestras independientes... 6 Prueba T para muestras relacionadas... 6 Prueba T una muestra... 6 ANOVA de un factor...6 MLG Univariante... 7 Correlaciones bivariadas... 7 Correlaciones parciales... 7 Distancias... 7 Regresión lineal... 7 Estimación curvilínea... 7 Análisis discriminante... 8 Análisis factorial... 8 Análisis de conglomerados... 8 Prueba de chi-cuadrado... 9 Prueba binomial... 9 Prueba de rachas... 9 Prueba de Kolmogorov-Smirnov para una muestra... 9 Pruebas para dos muestras independientes... 9 Pruebas para dos muestras relacionadas Pruebas para varias muestras independientes Pruebas para varias muestras relacionadas Frecuencias de respuestas múltiples Tablas de contingencia de respuestas múltiples Análisis de fiabilidad Escalamiento multidimensional Estadísticos de la razón Módulo Modelos Avanzados Análisis MLG multivariante Análisis de Componentes de la Varianza Modelos lineales mixtos Análisis LogLineal Análisis loglineal general Análisis loglineal logit... 12

2 Regresión ordinal Tablas de mortalidad Análisis de supervivencia de Kaplan-Meier Regresión de Cox Módulo Modelos de Regresión Regresión logística Regresión logística multinomial Análisis probit Estimación ponderada Regresión por mínimos cuadrados en dos fases Módulo Categorías Escalamiento óptimo mediante mínimos cuadrados alternantes Regresión categórica Análisis de componentes principales categórico (CATPCA) Análisis de correlación canónica no lineal Análisis de correspondencias Análisis de homogeneidad Escalamiento multidimensional (PROXSCAL) Módulo Tablas Generación de tablas Conjuntos de respuestas múltiples Reglas básicas y limitaciones para generar una tabla Características generales del módulo BASE de SPSS Ventana del editor de datos de SPSS Tipos de ficheros Tipos de ventanas Iniciar una sesión con SPSS Ficheros de datos en SPSS

3 Descripción de SPSS SPSS para Windows proporciona un poderoso sistema de análisis estadístico y de gestión de datos en un entorno gráfico, utilizando menús descriptivos y cuadros de diálogo sencillos que realizan la mayor parte del trabajo. La mayoría de las tareas se pueden llevar a cabo simplemente situando el puntero del ratón en el lugar deseado y pulsando en el botón, aunque siempre es posible también la utilización de la sintaxis de SPSS que permite la programación de las órdenes que se desea que repita el programa. Además de la interfaz de los análisis estadísticos, SPSS para Windows proporciona: Editor de datos. Ventana similar a una hoja de cálculo, que permite definir, introducir, editar y presentar datos. Visor. Ventana mediante la cual es posible examinar los resultados, mostrarlos y ocultarlos de forma selectiva, modificar el orden de presentación y desplazar tablas y gráficos entre SPSS y otras aplicaciones. Tablas pivote multidimensionales. Gran parte de los resultados que proporciona SPSS vienen dados en forma de tabla. Las tablas pivote multidimensionales de SPSS permiten reorganizar filas, columnas y capas. Las capas en las tablas permiten la fácil comparación de resultados entre los diferentes grupos que se analicen. Gráficos de alta resolución. Como funciones básicas de SPSS se incluyen gráficos de sectores, gráficos de barras, histogramas, diagramas de dispersión y gráficos 3-D de alta resolución. Acceso a bases de datos. SPSS permite el acceso a cualquier base de datos. La utilización de esta importante característica del programa es inmediata gracias al Asistente para bases de datos implementado. Transformaciones de los datos. Las funciones de transformación permiten preparar los datos para el análisis. Estas funciones permiten crear subgrupos de datos, combinar categorías, añadir, agregar, fusionar, segmentar y transponer archivos, entre muchas otras posibilidades. Distribución electrónica. Se pueden enviar informes por correo electrónico pulsando en un botón o exportar tablas y gráficos en formato HTML para distribuirlos por Internet o dentro de una Intranet. Ayuda en pantalla. SPSS dispone de un importante sistema de ayuda. Durante la ejecución del programa la ayuda muestra una serie de cuadros de diálogo que permiten la ejecución de tareas específicas. Se dispone también de información referente a los resultados de las tablas pivote explicando términos estadísticos. Además, SPSS muestra una serie de ejemplos sobre el modo de utilizar los procedimientos estadísticos e interpretar los resultados. Sintaxis de comandos Como ya hemos indicado, es posible acceder a la mayoría de los comando desde los menús y cuadros de diálogo. No obstante, algunas órdenes sólo están disponibles mediante el uso del lenguaje de comandos. El lenguaje de comandos también permite guardar los trabajos en un archivo de sintaxis, con lo que es posible repetir los análisis 3

4 en otro momento o ejecutarlos en un trabajo automatizado con la Unidad de producción. Un archivo de sintaxis es simplemente un archivo de texto que contiene comandos. Aunque es posible abrir una ventana de sintaxis y escribir comandos, es más sencillo permitir que el programa ayude a construir un archivo de sintaxis mediante uno de los siguientes métodos: Pegando la sintaxis de comandos desde los cuadros de diálogo (opción pegar) Creando un archivo de sintaxis En los ficheros de ayuda en pantalla de un procedimiento determinado, siempre aparece el vínculo sintaxis de comandos en la lista de Temas relacionados. Esta opción permite acceder al diagrama de sintaxis correspondiente al comando en uso. También se dispone de una completa información sobre el lenguaje de comandos en el manual de referencia de sintaxis (SPSS Base Syntax Reference Guide). Estructura interna de SPSS SPSS está formado por cinco bloques, que reciben el nombre de módulos, cada uno de ellos especializado en una rama de la estadística: Módulo base, permite la generación y manipulación de datos y ficheros y la generación de gráficos de alta resolución. Con este módulo se llevan a cabo los análisis estadísticos elementales Módulo Modelos de Regresión, donde se consideran una gran parte de técnicas estadísticas de regresión Módulo Modelos Avanzados, se estudian los diferentes modelos de análisis de la varianza y diseño de experimentos así como tablas de mortalidad y análisis de supervivencia Módulo Categorías, dedicado a los análisis de componentes principales, de correlación canónica, de correspondencias, de homogeneidad y técnicas de Multidimensional Scaling Módulo Tablas, permite la generación de tablas Módulo Tendencias, utilizado para el análisis de series temporales Módulo Análisis Conjunto, para el diseño de experimentos Procedemos a continuación a describir brevemente los análisis implementados en los primeros 5 módulos: 4

5 Módulo Base de SPSS Frecuencias El procedimiento Frecuencias proporciona estadísticos y representaciones gráficas que resultan útiles para describir muchos tipos de variables. Es un buen procedimiento para una inspección inicial de los datos. Descriptivos El procedimiento Descriptivos muestra estadísticos descriptivos univariantes para el grupo de variables especificado en una única tabla y calcula valores tipificados (puntuaciones z). Explorar El procedimiento Explorar genera estadísticos de resumen y representaciones gráficas, bien para todos los casos o bien de forma separada para grupos de casos. En general, el Análisis Exploratorio de Datos permite para inspeccionar los datos, identificar valores atípicos, obtener descripciones, comprobar supuestos y caracterizar diferencias entre subpoblaciones (grupos de casos). La inspección de los datos puede mostrar que existen valores inusuales, valores extremos, discontinuidades en los datos u otras peculiaridades. Además, la aplicación de estas técnicas puede ayudar a determinar si son adecuadas los procedimentos estadísticos que se van a aplicar. La exploración puede indicar que necesita transformar los datos si la técnica necesita una distribución normal. O bien, el usuario puede decidir que necesita utilizar pruebas no paramétricas. Tablas de contingencia El procedimiento Tablas de contingencia crea tablas de clasificación doble y múltiple y proporciona una serie de pruebas y medidas de asociación para las tablas de doble vía. La estructura de la tabla y el hecho de que las categorías estén ordenadas o no, determinan las pruebas o medidas que se utilizan. Los estadísticos de tablas de contingencia y las medidas de asociación sólo se calculan para las tablas de doble vía. Si se especifica una fila, una columna y un factor de capa (variable de control), el procedimiento Tablas de contingencia crea un panel de medidas y estadísticos asociados a cada valor del factor de capa (o una combinación de valores para dos o más variables de control). Por ejemplo, si sexo es un factor de capa para una tabla de casado (sí, no) en función de vida (vida emocionante, rutinaria o aburrida), los resultados para una tabla de doble clasificación para las mujeres se calculan de forma independiente de los resultados de los hombres y se imprimen en paneles uno detrás del otro. 5

6 Resumir El procedimiento Resumir calcula estadísticos de subgrupo para las variables dentro de las categorías de una o más variables de agrupación, cruzando todos los niveles de las variables de agrupación. Es posible definir el orden en el que se mostrarán los estadísticos. También se muestran estadísticos de resumen para cada variable a través de todas las Medias El procedimiento Medias calcula medias de subgrupo y estadísticos para variables dependientes dentro de las categorías de una o más variables independientes. Prueba T para muestras independientes El procedimiento Prueba T para muestras independientes compara las medias de dos grupos de casos. Para esta prueba, idealmente los sujetos deben asignarse aleatoriamente a dos grupos, de forma que cualquier diferencia en la respuesta sea debida al tratamiento (o falta de tratamiento) y no a otros factores. Prueba T para muestras relacionadas El procedimiento Prueba T para muestras relacionadas compara las medias de dos variables de un solo grupo. Calcula las diferencias entre los valores de las dos variables de cada caso y contrasta si la media difiere de 0. Prueba T una muestra El procedimiento Prueba T para una muestra contrasta si la media de una sola variable difiere de una constante especificada. ANOVA de un factor El procedimiento ANOVA de un factor genera un análisis de varianza de un factor para una variable dependiente cuantitativa respecto a una única variable de factor (la variable independiente). El análisis de varianza se utiliza para contrastar la hipótesis de que varias medias son iguales. Esta técnica es una extensión de la prueba t para dos muestras. Además de determinar que existen diferencias entre las medias, es posible que desee saber qué medias difieren. Existen dos tipos de contrastes para comparar medias: a priori y post hoc. Los contrastes a priori se plantean antes de ejecutar el experimento y los contrastes post hoc se realizan después de haber llevado a cabo el experimento. También puede contrastar las tendencias existentes a través de las categorías. 6

7 MLG Univariante El procedimiento MLG Univariante proporciona un análisis de regresión y un análisis de varianza para una variable dependiente mediante uno o más factores o variables. Las variables de factor dividen la población en grupos. Con el procedimiento Modelo lineal general se pueden contrastar hipótesis nulas sobre los efectos de otras variables en las medias de varias agrupaciones de una única variable dependiente. Se pueden investigar las interacciones entre los factores así como los efectos de los factores individuales, algunos de los cuales pueden ser aleatorios. Además, se pueden incluir los efectos de las covariables y las interacciones de covariables con los factores. Para el análisis de regresión, las variables independientes (predictoras) se especifican como covariables. Correlaciones bivariadas El procedimiento Correlaciones bivariadas calcula el coeficiente de correlación de Pearson, la rho de Spearman y la tau-b de Kendall con sus niveles de significación. Las correlaciones miden cómo están relacionadas las variables o los órdenes de los rangos. Correlaciones parciales El procedimiento Correlaciones parciales calcula los coeficientes de correlación parcial, los cuales describen la relación lineal existente entre dos variables mientras se controlan los efectos de una o más variables adicionales. Distancias Este procedimiento calcula una variedad de estadísticos que miden las similaridades o disimilaridades (distancias), entre pares de variables o entre pares de casos. Estas medidas de similaridad o distancia se pueden utilizar después con otros procedimientos, como análisis factorial, análisis de conglomerados o escalamiento multidimensional, para ayudar en el análisis de conjuntos de datos complejos. Regresión lineal La regresión lineal estima los coeficientes de la ecuación lineal, con una o más variables independientes, que mejor prediga el valor de la variable dependiente. Estimación curvilínea El procedimiento Estimación Curvilínea genera estadísticos de estimación curvilínea por regresión y gráficos relacionados para 11 modelos diferentes de estimación curvilínea por regresión. Se produce un modelo diferente para cada variable dependiente. También se pueden guardar valores pronosticados, residuos e intervalos pronosticados como nuevas variables. 7

8 Análisis discriminante El análisis discriminante resulta útil para las situaciones en las que se desea construir un modelo predictivo para pronosticar el grupo de pertenencia de un caso a partir de las características observadas de cada caso. El procedimiento genera una función discriminante (o, para más de dos grupos, un conjunto de funciones discriminantes) basada en combinaciones lineales de las variables predictoras que proporcionan la mejor discriminación posible entre los grupos. Las funciones se generan a partir de una muestra de casos para los que se conoce el grupo de pertenencia; posteriormente, las funciones pueden ser aplicadas a nuevos casos que dispongan de medidas para las variables predictoras pero de los que se desconozca el grupo de pertenencia. Análisis factorial El análisis factorial intenta identificar variables subyacentes, o factores, que expliquen la configuración de las correlaciones dentro de un conjunto de variables observadas. El análisis factorial se suele utilizar en la reducción de los datos para identificar un pequeño número de factores que explique la mayoría de la varianza observada en un número mayor de variables manifiestas. También puede utilizarse para generar hipótesis relacionadas con los mecanismos causales o para inspeccionar las variables para análisis subsiguientes (por ejemplo, para identificar la colinealidad antes de realizar un análisis de regresión lineal). Análisis de conglomerados Análisis de conglomerados jerárquico Este procedimiento intenta identificar grupos relativamente homogéneos de casos (o de variables) basándose en las características seleccionadas, mediante un algoritmo que comienza con cada caso (o cada variable) en un conglomerado diferente y combina los conglomerados hasta que sólo queda uno. Es posible analizar las variables brutas o elegir de entre una variedad de transformaciones de estandarización. Las medidas de distancia o similaridad se generan mediante el procedimiento Proximidades. Los estadísticos se muestran en cada etapa para ayudar a seleccionar la mejor solución. Análisis de conglomerados de K-medias Este procedimiento intenta identificar grupos de casos relativamente homogéneos basándose en las características seleccionadas y utilizando un algoritmo que puede gestionar un gran número de casos. Sin embargo, el algoritmo requiere que el usuario especifique el número de conglomerados. Puede especificar los centros iniciales de los conglomerados si conoce de antemano dicha información. Se puede elegir uno de los dos métodos disponibles para clasificar los casos: la actualización de los centros de los conglomerado de forma iterativa o sólo la clasificación. Asimismo, se puede guardar la información relativa a la pertenencia a los conglomerados, la distancia y los centros de los conglomerados finales. Es posible etiquetar los resultados por casos mediante una variable. Además se pueden solicitar los estadísticos F de los análisis de varianza. 8

9 Selección de procedimientos para la conglomeración Los análisis de conglomerados se pueden realizar mediante los procedimientos de análisis de conglomerados en dos fases, jerárquico o de K-medias. Cada uno de estos procedimientos emplea un algoritmo distinto en la creación de conglomerados y contiene opciones que no están disponibles en los otros. Prueba de chi-cuadrado El procedimiento Prueba de chi-cuadrado tabula una variable en categorías y calcula un estadístico chi-cuadrado. Esta prueba de bondad de ajuste compara las frecuencias observadas y esperadas en cada categoría para contrastar si todas las categorías contienen la misma proporción de valores o si cada categoría contiene una proporción de valores especificada por el usuario. Prueba binomial El procedimiento Prueba binomial compara las frecuencias observadas de dos categorías de una variable dicotómica con las frecuencias esperadas en una distribución binomial con un parámetro de probabilidad especificado. Por defecto, el parámetro de probabilidad para ambos grupos es 0,5. Para cambiar las probabilidades, puede introducirse una proporción de prueba para el primer grupo. La probabilidad del segundo grupo será 1 menos la probabilidad especificada para el primer grupo. Prueba de rachas El procedimiento Prueba de rachas contrasta si es aleatorio el orden de aparición de dos valores de una variable. Una racha es una secuencia de observaciones similares. Una muestra con un número excesivamente grande o excesivamente pequeño de rachas sugiere que la muestra no es aleatoria. Prueba de Kolmogorov-Smirnov para una muestra El procedimiento Prueba de Kolmogorov-Smirnov para una muestra compara la función de distribución acumulada observada de una variable con una distribución teórica determinada, que puede ser la normal, la uniforme, la de Poisson o la exponencial. La Z de Kolmogorov-Smirnov se calcula a partir de la diferencia mayor (en valor absoluto) entre las funciones de distribución acumuladas teórica y observada. Esta prueba de bondad de ajuste contrasta si las observaciones podrían razonablemente proceder de la distribución especificada. Pruebas para dos muestras independientes El procedimiento Pruebas para dos muestras independientes compara dos grupos de casos existentes en una variable. 9

10 Pruebas para dos muestras relacionadas El procedimiento Pruebas para dos muestras relacionadas compara la igualdad entre las distribuciones de dos variables. Pruebas para varias muestras independientes El procedimiento Pruebas para varias muestras independientes compara dos o más grupos de casos respecto a una variable. Pruebas para varias muestras relacionadas El procedimiento Pruebas para varias muestras relacionadas compara las distribuciones de dos o más variables. Frecuencias de respuestas múltiples El procedimiento Frecuencias de respuestas múltiples produce tablas de frecuencias para conjuntos de respuestas múltiples. Tablas de contingencia de respuestas múltiples El procedimiento Tablas de contingencia de respuestas múltiples presenta en forma de tabla de contingencia conjuntos de respuestas múltiples, variables elementales o una combinación. También puede obtener porcentajes de casilla basados en casos o respuestas, modificar la gestión de los valores perdidos u obtener tablas de contingencia emparejadas. Análisis de fiabilidad El análisis de fiabilidad permite estudiar las propiedades de las escalas de medición y de los elementos que las constituyen. El procedimiento Análisis de fiabilidad calcula medidas de fiabilidad de escala utilizadas normalmente y proporciona información sobre las relaciones entre elementos individuales de la escala. Escalamiento multidimensional El escalamiento multidimensional trata de encontrar la estructura de un conjunto de medidas de distancia entre objetos o casos. Esto se logra asignando las observaciones a posiciones específicas en un espacio multidimensional de modo que las distancias entre los puntos en el espacio concuerden al máximo con las disimilaridades dadas. En muchos casos, las dimensiones de este espacio conceptual son interpretables y se pueden utilizar para comprender mejor de los datos. 10

11 Estadísticos de la razón El procedimiento Estadísticos de la razón proporciona una amplia lista de estadísticos de resumen para describir la razón entre dos variables de escala. Módulo Modelos Avanzados Análisis MLG multivariante. El procedimiento MLG Multivariante proporciona un análisis de regresión y un análisis de varianza para variables dependientes múltiples por una o más covariables o variables de factor. Las variables de factor dividen la población en grupos. Utilizando este procedimiento del modelo lineal general, es posible contrastar hipótesis nulas sobre los efectos de las variables de factor sobre las medias de varias agrupaciones de una distribución conjunta de variables dependientes. Asimismo, se pueden investigar las interacciones entre los factores y también los efectos individuales de los factores. Además, se pueden incluir los efectos de las covariables y las interacciones de covariables con los factores. Para el análisis de regresión, las variables independientes (predictoras) se especifican como covariables. Análisis de Componentes de la Varianza El procedimiento Componentes de la varianza, para modelos de efectos mixtos, estima la contribución de cada efecto aleatorio a la varianza de la variable dependiente. Este procedimiento resulta de particular interés para el análisis de modelos mixtos, como los diseños split-plot, los diseños de medidas repetidas univariados y los diseños de bloques aleatorios. Al calcular las componentes de la varianza, se puede determinar dónde centrar la atención para reducir la varianza. Modelos lineales mixtos El procedimiento Modelos lineales mixtos expande el modelo lineal general de modo que los datos puedan presentar variabilidad correlacionada y no constante. El modelo lineal mixto proporciona, por tanto, la flexibilidad necesaria para modelar no sólo las medias sino también las varianzas y covarianzas de los datos. El procedimiento Modelos lineales mixtos es asimismo una herramienta flexible para ajustar otros modelos que puedan ser formulados como modelos lineales mixtos. Dichos modelos incluyen los modelos multinivel, los modelos lineales jerárquicos y los modelos con coeficientes aleatorios. Análisis LogLineal El procedimiento de análisis loglineal de selección de modelo analiza tablas de contingencia de varios factores. Ajusta modelos loglineales jerárquicos a las tablas de contingencia multidimensionales utilizando un algoritmo de ajuste proporcional. Este procedimiento ayuda a encontrar qué variables categóricas están asociadas. 11

12 Análisis loglineal general El procedimiento Análisis loglineal general analiza las frecuencias de las observaciones incluidas en cada categoría de la clasificación cruzada de una tabla de contingencia. Cada una de las clasificaciones cruzadas de la tabla constituye una casilla y cada variable categórica se denomina factor. La variable dependiente es el número de casos (la frecuencia) en una casilla de la tabla de contingencia y las variables explicativas son los factores y las covariables. Este procedimiento estima los parámetros de máxima verosimilitud de modelos loglineales jerárquicos y no jerárquicos utilizando el método de Newton-Raphson. Es posible analizar una distribución multinomial o de Poisson. Análisis loglineal logit El procedimiento Análisis loglineal logit analiza la relación entre variables dependientes (o de respuesta) y variables independientes (o explicativas). Las variables dependientes siempre son categóricas, mientras que las variables independientes pueden ser categóricas (factores). Otras variables independientes, las covariables de casilla, pueden ser continuas pero no se aplican en forma de caso por caso. A una casilla dada se le aplica la media ponderada de la covariable para los casos de esa casilla. El logaritmo de las ventajas de las variables dependientes se expresa como una combinación lineal de parámetros. Se supone automáticamente una distribución multinomial; estos modelos se denominan a veces modelos logit multinomiales. Este procedimiento estima los parámetros de los modelos loglineales logit utilizando el algoritmo de Newton-Raphson. Regresión ordinal La regresión ordinal permite dar forma a la dependencia de una respuesta ordinal politómica sobre un conjunto de predictores, que pueden ser factores o covariables. El diseño de la regresión ordinal se basa en la metodología de McCullagh (1980, 1998) y en la sintaxis se hace referencia al procedimiento como PLUM. El análisis de regresión lineal ordinario implica minimizar las diferencias de la suma de los cuadrados entre una variable de respuesta (la dependiente) y una combinación ponderada de las variables predictoras (las independientes). Los coeficientes estimados reflejan cómo los cambios en los predictores afectan a la respuesta. Se considera que la respuesta es numérica, en el sentido en que los cambios en el nivel de la respuesta son equivalentes en todo el rango de la respuesta. Por ejemplo, la diferencia de altura entre una persona que mide 150 cm y una que mide 140 cm es de 10 cm, que tiene el mismo significado que la diferencia de altura entre una persona que mide 210 cm y una que mide 200 cm. Estas relaciones no se mantienen necesariamente con las variables ordinales, en las que la elección y el número de categorías de respuesta pueden ser bastante arbitrarios. Tablas de mortalidad Existen muchas situaciones en las se desea examinar la distribución de un período entre dos eventos, como la duración del empleo (tiempo transcurrido entre el contrato y el abandono de la empresa). Sin embargo, este tipo de datos suele incluir algunos 12

13 casos para los que no se registra el segundo evento; por ejemplo, la gente que todavía trabaja en la empresa al final del estudio. Las razones para que no se verifique el segundo evento pueden ser muy variadas: en algunos casos, el evento simplemente no tiene lugar antes de que finalice el estudio; en otros, el investigador puede haber perdido el seguimiento de su estado en algún momento anterior a que finalice el estudio; y existen además casos que no pueden continuar por razones ajenas al estudio (como el caso en que un empleado caiga enfermo y se acoja a una baja laboral). Estos casos se conocen globalmente como casos censurados y hacen que el uso de técnicas tradicionales como las pruebas t o la regresión lineal sea inapropiado para este tipo de estudio. Existe una técnica estadística útil para este tipo de datos llamada tabla de mortalidad de "seguimiento". La idea básica de la tabla de mortalidad es subdividir el período de observación en intervalos de tiempo más pequeños. En cada intervalo, se utiliza toda la gente que se ha observado como mínimo durante ese período de tiempo para calcular la probabilidad de que un evento terminal tenga lugar dentro de ese intervalo. Las probabilidades estimadas para cada intervalo se utilizan para estimar la probabilidad global de que el evento tenga lugar en diferentes puntos temporales. Análisis de supervivencia de Kaplan-Meier El procedimiento de Kaplan-Meier es un método de estimación de modelos hasta el evento en presencia de casos censurados. El modelo de Kaplan-Meier se basa en la estimación de las probabilidades condicionales en cada punto temporal cuando tiene lugar un evento y en tomar el límite del producto de esas probabilidades para estimar la tasa de supervivencia en cada punto temporal. Regresión de Cox Del mismo modo que las tablas de mortalidad y el análisis de supervivencia de Kaplan- Meier, la regresión de Cox es un método para crear modelos para datos de tiempos de espera hasta un evento con casos censurados presentes. Sin embargo, la regresión de Cox permite incluir en los modelos variables predictoras (covariables). Por ejemplo, podrá construir un modelo de la duración en el empleo como función del nivel educativo y de la categoría laboral. La regresión de Cox gestionará los casos censurados correctamente y proporcionará las estimaciones de los coeficientes para cada una de las covariables, permitiendo evaluar el impacto de múltiples covariables en el mismo modelo. Además, es posible utilizar la regresión de Cox para examinar el efecto de covariables continuas. Módulo Modelos de Regresión Regresión logística La regresión logística resulta útil para los casos en los que se desea predecir la presencia o ausencia de una característica o resultado según los valores de un conjunto de variables predictoras. Es similar a un modelo de regresión lineal pero está adaptado para modelos en los que la variable dependiente es dicotómica. Los coeficientes de regresión logística pueden utilizarse para estimar la razón de las ventajas (odds ratio) de cada variable independiente del modelo. La regresión logística 13

14 se puede aplicar a un rango más amplio de situaciones de investigación que el análisis discriminante. Regresión logística multinomial La opción Regresión logística multinomial resulta útil en aquellas situaciones en las que desee poder clasificar a los sujetos según los valores de un conjunto de variables predictoras. Este tipo de regresión es similar a la regresión logística, pero más general, ya que la variable dependiente no está restringida a dos categorías. Análisis probit Este procedimiento mide la relación entre la intensidad de un estímulo y la proporción de casos que presentan una cierta respuesta a dicho estímulo. Es útil para las situaciones en las que se dispone de una respuesta dicotómica que se piensa puede estar influenciada o causada por los niveles de alguna o algunas variables independientes, y es particularmente adecuada para datos experimentales. Este procedimiento permite estimar la intensidad necesaria para que un estímulo llegue a inducir una determinada proporción de respuestas, como la dosis efectiva para la mediana. Estimación ponderada Los modelos de regresión lineal típicos asumen que la varianza es constante en la población objeto de estudio. Cuando éste no es el caso (por ejemplo cuando los casos con puntuaciones mayores en un atributo muestran más variabilidad que los casos con puntuaciones menores en ese atributo), la regresión lineal mediante mínimos cuadrados ordinarios (MCO, OLS) deja de proporcionar estimaciones óptimas para el modelo. Si las diferencias de variabilidad se pueden pronosticar a partir de otra variable, el procedimiento Estimación ponderada permite calcular los coeficientes de un modelo de regresión lineal mediante mínimos cuadrados ponderados (MCP, WLS), de forma que se les dé mayor ponderación a las observaciones más precisas (es decir, aquéllas con menos variabilidad) al determinar los coeficientes de regresión. El procedimiento Estimación ponderada contrasta un rango de transformaciones de ponderación e indica cuál se ajustará mejor a los datos. Regresión por mínimos cuadrados en dos fases Los modelos de regresión lineal típica asumen que los errores de la variable dependiente no están correlacionados con la variable o variables independientes. Cuando éste no es el caso (por ejemplo, cuando las relaciones entre las variables son bidireccionales), la regresión lineal mediante mínimos cuadrados ordinarios (OLS) deja de proporcionar estimaciones óptimas del modelo. La regresión por mínimos cuadrados en dos fases utiliza variables instrumentales que no estén correlacionadas con los términos de error para calcular los valores estimados de los predictores problemáticos (en la primera fase) y después utiliza dichos valores calculados para estimar un modelo de regresión lineal para la variable dependiente (la segunda fase). Dado que los valores calculados se basan en variables que no están correlacionadas con los errores, los resultados del modelo en dos fases son óptimos. 14

15 Módulo Categorías Escalamiento óptimo mediante mínimos cuadrados alternantes La combinación del nivel de medida y el número de conjunto seleccionado en este cuadro de diálogo determina el procedimiento de escalamiento óptimo mediante mínimos cuadrados alternantes que realiza. Nivel de medida. Especifica el nivel para escalamiento óptimo correspondiente a las variables utilizadas en el análisis. Todas las variables son nominales múltiples. Todas las variables del análisis tienen cuantificaciones de categorías que pueden diferir para cada dimensión. Alguna variable no es nominal múltiple. Una o más variables en el análisis se escalan a un nivel diferente del nominal múltiple. Otros niveles de escala posibles son nominal simple, ordinal y numérica discreta. Número de conjuntos de variables. Especifica cuántos grupos de variables se van a comparar con otros grupos de variables. Un conjunto. Los datos contienen un grupo de variables. Múltiples conjuntos. Los datos contienen más de un grupo de variables. Si se selecciona esta opción, se elijirá Correlación canónica no-lineal (OVERALS). Análisis seleccionado. La combinación de opciones para Nivel de medida y Número de conjuntos de variables proporciona un análisis de homogeneidad, un análisis de componentes principales categóricos o un análisis de correlación canónica no-lineal. Las opciones para cada procedimiento son: Análisis de homogeneidad (HOMALS). Seleccione Todas las variables son nominales múltiples y Un conjunto. Análisis de componentes principales categóricos (CATPCA). Seleccione Alguna variable no es nominal múltiple y Un conjunto. Análisis de correlación canónica no lineal (OVERALS). Seleccione Múltiples conjuntos. Regresión categórica La regresión categórica cuantifica los datos categóricos mediante la asignación de valores numéricos a las categorías, obteniéndose una ecuación de regresión lineal óptima para las variables transformadas. La regresión categórica se conoce también por el acrónimo CATREG, del inglés categorical regression (regresión categórica). El análisis de regresión lineal ordinario implica minimizar las diferencias de la suma de los cuadrados entre una variable de respuesta (la dependiente) y una combinación ponderada de las variables predictoras (las independientes). Las variables son normalmente cuantitativas, con los datos categóricos (nominales) recodificados como variables binarias o de contraste. Como resultado, las variables categóricas sirven para separar grupos de casos y la técnica estima conjuntos separados de parámetros para cada grupo. Los coeficientes estimados reflejan cómo los cambios en los predictores 15

16 afectan a la respuesta. El pronóstico de la respuesta es posible para cualquier combinación de los valores predictores. Una aproximación alternativa incluye la regresión de la respuesta respecto a los propios valores predictores categóricos. Como consecuencia, se estima un coeficiente para cada variable. Sin embargo, para las variables categóricas, los valores categóricos son arbitrarios. La codificación de las categorías de diferentes maneras proporciona diferentes coeficientes, dificultando las comparaciones entre los análisis de las mismas variables. CATREG amplía la aproximación típica mediante un escalamiento de las variables nominales, ordinales y numéricas simultáneamente. El procedimiento cuantifica las variables categóricas de manera que las cuantificaciones reflejen las características de las categorías originales. El procedimiento trata a las variables categóricas cuantificadas como si fueran variables numéricas. La utilización de transformaciones no lineales permite a las variables ser analizadas en varios niveles para encontrar el modelo que más se ajusta. Análisis de componentes principales categórico (CATPCA) Este procedimiento cuantifica simultáneamente las variables categóricas a la vez que reduce la dimensionalidad de los datos. El análisis de componentes principales categórico se conoce también por el acrónimo CATPCA, del inglés CATegorical Principal Components Analysis. El objetivo de los análisis de componentes principales es la reducción de un conjunto original de variables en un conjunto más pequeño de componentes no correlacionados que representen la mayor parte de la información encontrada en las variables originales. La técnica es más útil cuando un extenso número de variables impide una interpretación eficaz de las relaciones entre los objetos (sujetos y unidades). Al reducir la dimensionalidad, se interpreta un pequeño número de componentes en lugar de un extenso número de variables. El análisis típico de componentes principales asume relaciones lineales entre las variables numéricas. Por otra parte, la aproximación por escalamiento óptimo permite escalar las variables a diferentes niveles. Las variables categóricas se cuantifican de forma óptima en la dimensionalidad especificada. Como resultado, se pueden modelar relaciones no lineales entre las variables. Análisis de correlación canónica no lineal El análisis de correlación canónica no lineal coincide con el análisis de correlación canónica categórico mediante escalamiento óptimo. El propósito de este procedimiento es determinar la similitud entre los conjuntos de variables categóricas. El análisis de correlación canónica no lineal se conoce también por el acrónimo OVERALS. El análisis de correlación canónica estándar es una extensión de la regresión múltiple, en la que el segundo conjunto no contiene una única variable de respuesta, sino varias. 16

17 El objetivo es explicar el máximo posible de la varianza sobre las relaciones existentes entre dos conjuntos de variables numéricas en un espacio de pocas dimensiones. Inicialmente, las variables de cada conjunto se combinan linealmente de forma que las combinaciones lineales tengan una correlación máxima entre sí. Una vez dadas estas combinaciones, se establece que las combinaciones lineales subsiguientes no estén correlacionadas con las combinaciones anteriores y que también tengan la mayor correlación posible. Análisis de correspondencias Uno de los objetivos del análisis de correspondencias es describir las relaciones existentes entre dos variables nominales, recogidas en una tabla de correspondencias, sobre un espacio de pocas dimensiones, mientras que al mismo tiempo se describen las relaciones entre las categorías de cada variable. Para cada variable, las distancias sobre un gráfico entre los puntos de categorías reflejan las relaciones entre las categorías, con las categorías similares representadas próximas unas a otras. La proyección de los puntos de una variable sobre el vector desde el origen hasta un punto de categoría de la otra variable describe la relación entre ambas variables. Análisis de homogeneidad El análisis de homogeneidad cuantifica los datos (categóricos) nominales mediante la asignación de valores numéricos a los casos (los objetos) y a las categorías. El análisis de homogeneidad se conoce también por el acrónimo HOMALS, del inglés homogeneity analysis alternating least squares (análisis de homogeneidad mediante mínimos cuadrados alternantes). El objetivo de HOMALS es describir las relaciones entre dos o más variables nominales en un espacio de pocas dimensiones que contiene las categorías de las variables así como los objetos pertenecientes a dichas categorías. Los objetos pertenecientes a la misma categoría se representan cerca los unos de los otros, mientras que los objetos de diferentes categorías se representan alejados los unos de los otros. Cada objeto se encuentra lo más cerca posible de los puntos de categoría para las categorías a las que pertenece dicho objeto. El análisis de homogeneidad es similar al análisis de correspondencias, pero no está limitado a dos variables. Es por ello que el análisis de homogeneidad se conoce también como el análisis de correspondencias múltiple. También se puede ver el análisis de homogeneidad como un análisis de componentes principales para datos nominales. El análisis de homogeneidad es más adecuado que el análisis de componentes principales típico cuando puede que no se conserven las relaciones lineales entre las variables, o cuando las variables se miden a nivel nominal. Además, la interpretación del resultado es mucho más sencilla en HOMALS que en otras técnicas categóricas, como pueden ser las tablas de contingencia y los modelos loglineales. Debido a que las categorías de las variables son cuantificadas, se pueden aplicar sobre las cuantificaciones técnicas que requieren datos numéricos, en análisis subsiguientes. 17

18 Escalamiento multidimensional (PROXSCAL) El escalamiento multidimensional trata de encontrar la estructura existente en un conjunto de medidas de proximidades entre objetos. Esto se logra asignando las observaciones a posiciones específicas en un espacio conceptual de pocas dimensiones, de modo que las distancias entre los puntos en el espacio concuerden al máximo con las similaridades (o disimilaridades) dadas. El resultado es una representación de mínimos cuadrados de los objetos en dicho espacio de pocas dimensiones que, en muchos casos, le ayudará a entender mejor los datos. Módulo Tablas Generación de tablas En la pestaña Tabla del generador de tablas, se seleccionan las variables y las medidas de resumen que aparecerán en la tabla. Listas de variables. En el panel superior izquierdo de la ventana se muestran las variables del archivo de datos. Tablas personalizadas distingue entre dos niveles de medida diferentes para las variables y trata de manera distinta las variables en función de su nivel de medida: Categórico. Datos con un número limitado de valores o categorías distintas (por ejemplo, sexo o religión). Las variables categóricas pueden ser variables de cadena (alfanuméricas) o variables numéricas que utilizan códigos numéricos para representar las categorías (por ejemplo, 0=hombre y 1=mujer). También se hace referencia a estos datos como datos cualitativos. Escala. Datos medidos en una escala de intervalo o de razón en los que los valores de los datos indican el orden de los valores y la distancia entre ellos. Por ejemplo, un salario de $ es superior a un salario de $ y la distancia entre ambos valores es $ También se hace referencia a estos datos como datos cuantitativos o continuos. Las variables categóricas definen categorías (filas, columnas y capas) en la tabla y el estadístico de resumen por defecto es el recuento (número de casos en cada categoría). Por ejemplo, una tabla por defecto de la variable categórica sexo sólo mostrará el número de hombres y el número de mujeres. Las variables de escala se resumen normalmente dentro de las categorías de las variables categóricas y el estadístico de resumen por defecto es la media. Por ejemplo, una tabla por defecto de los ingresos dentro de las categorías de sexo mostrará los ingresos medios de los hombres y los ingresos medios de las mujeres. También puede resumir las variables de escala por sí mismas, sin utilizar una variable categórica para definir grupos. Esto resulta especialmente útil para apilar resúmenes de varias variables de escala. 18

19 Conjuntos de respuestas múltiples Tablas personalizadas admite también un tipo especial de "variable" llamado conjunto de respuestas múltiples. En realidad, los conjuntos de respuestas múltiples no son, en sentido estricto, "variables". No aparecen en el Editor de datos y los demás procedimientos no los reconocen. Los conjuntos de respuestas múltiples utilizan varias variables para registrar respuestas a preguntas en las que el encuestado puede ofrecer más de una respuesta. Los conjuntos de respuestas múltiples se consideran variables categóricas y la mayor parte de las acciones que se pueden realizar con las variables categóricas se pueden realizar también con conjuntos de respuestas múltiples. Es posible cambiar el nivel de medida de una variable en el generador de tablas, pulsando con el botón derecho del ratón en ella y seleccionando Categórica o Escala en el menú contextual. Puede cambiar definitivamente el nivel de medida de una variable en la Vista de variables del Editor de datos. Tablas personalizadas considera como variables categóricas las variables definidas con la métrica nominal u ordinal. Reglas básicas y limitaciones para generar una tabla Para las variables categóricas, los estadísticos de resumen se basan en la variable más al interior de la dimensión origen de los estadísticos. Para las variables categóricas, la dimensión origen de los estadísticos por defecto (las filas o las columnas) depende del orden en el que se arrastren y coloquen las variables en el panel de lienzo. Por ejemplo, si arrastra una variable primero al panel de filas, la dimensión de las filas es la dimensión por defecto origen de los estadísticos. Las variables de escala sólo se pueden resumir dentro de las categorías de la variable más al interior de la dimensión de las filas o de las columnas. (Puede colocar la variable de escala en cualquier nivel de la tabla, pero se resume en el nivel más al interior). Las variables de escala no se pueden resumir dentro de otras variables de escala. Puede apilar resúmenes de varias variables de escala o resumir variables de escala dentro de las categorías de las variables categóricas. No puede anidar una variable de escala dentro de otra ni colocar una variable de escala en la dimensión de las filas y otra en la dimensión de las columnas. Características generales del módulo BASE de SPSS En el curso que nos ocupa, pretendemos dar una visión general del módulo BASE de SPSS, que como ya hemos indicado, contiene los siguientes subsistemas: Gestión y generación de datos y ficheros. Generación de gráficos de alta resolución. Análisis estadísticos básicos. 19

20 Ventana del editor de datos de SPSS Se trata de una típica ventana de una aplicación en Windows que, de arriba abajo, consta de los siguientes elementos: Barra de título, con el menú de control, el nombre de la ventana y los botones de minimizar, maximizar y cerrar. Barra de menús, con 10 menús diferentes: Archivo, Edición, Ver, Datos, Transformar, Estadística, Gráficos, Utilidades, Ventana y Ayuda. ARCHIVO. Mediante este menú se pueden abrir, crear o grabar los diferentes ficheros que SPSS emplea, ya sean de datos, instrucciones, resultados o procesos. Igualmente, es posible controlar las tareas de impresión. EDICIÓN. Permite realizar las tareas habituales de edición: modificar, borrar, copiar, pegar, seleccionar, etc. VER. Permite controlar diversos parámetros de visualización en pantalla. DATOS. Este menú permite definir variables, así como efectuar modificaciones en los ficheros de datos: seleccionar, añadir, ponderar, etc. TRANSFORMAR. Aquí se encuentran todas las opciones relativas a la modificación y generación de nuevas variables. Las funciones de este menú y del anterior son temporales, y sólo están vigentes durante la sesión, sin que afecten al fichero original de datos. Si se quieren convertir en permanentes, deben grabarse los cambios. ANALIZAR. Mediante este menú se accede a los diferentes análisis estadísticos que se hayan instalado. GRÁFICOS. Permite la creación y edición de diversos tipos de gráficos de alta resolución, algunos de ellos son también accesibles a través de determinadas técnicas estadísticas. UTILIDADES. Entre otras, posibilita mostrar información sobre los ficheros de SPSS, las variables o el tratamiento de conjuntos de variables. VENTANA. Dispone de las funciones habituales para controlar las ventanas.?. Proporciona ayuda al usuario en el formato típico de Windows. Barra de herramientas, donde, mediante botones con iconos, se representan algunas de las operaciones más habituales. Si pasamos el puntero del ratón por cualquiera de ellos, aparecerá en la pantalla un texto en amarillo indicando la función que se activa. Esta barra es personalizable. Línea de edición de datos, consistente en una matriz de datos, flanqueada por una primera fila en gris con los encabezamientos de las variables y por una primera columna, también en gris, con los números de los casos. Barra de estado, en la que el sistema proporciona diversos mensajes. Está dividida en varias zonas de avisos. La primera está reservada para informaciones de tipo general, y en la segunda aparece lo relativo al procesador de SPSS (nombre del comando que se esté ejecutando, número de casos almacenados...) 20

21 Barra de título Barra de menús Barra de herramientas Línea de edición de datos Matriz de datos Barras de desplazamiento Barra de estado Tipos de ficheros En SPSS se trabaja con dos tipos básicos de ficheros: los de datos y los de resultados. Los ficheros de datos propios de SPSS siempre tienen extensión.sav, y su contenido aparece en la ventana del editor de datos. Un fichero propio es aquel cuyo formato es el específico de SPSS y que contiene, no sólo los datos, sino también la información que el sistema necesita para procesarlos. Los ficheros de resultados tienen extensión.spo y contienen resultados estadísticos, habitualmente en formato de tablas, gráficos, o cualquier otro tipo. Al igual que ocurre con los ficheros de datos, los resultados también se pueden exportar en otros formatos: como ficheros de texto o ficheros *.html. Adicionalmente, los gráficos son asimismo exportables en diversos formatos de imagen: metaarchivo de Windows, mapa de bits de Windows, PosScript, JPEG, CGM, TIFF o PICT de Macintosh. Pero además de estos dos tipos básicos, SPSS es capaz de generar y leer ficheros de texto. Además de las posibilidades de importación y exportación de datos o resultados, en SPSS nos encontramos con los ficheros de sintaxis. Contienen instrucciones de SPSS escritas en el lenguaje de mandatos del propio sistema. Son tanto ficheros de entrada como de salida en la medida en que, si bien su uso más habitual es el de ser cargados y leídos por el sistema para ejecutar un programa completo en proceso por lotes, también son generados por el propio sistema cuando en los diferentes cuadros de diálogo, en vez de ejecutar el procedimiento directamente, se pega la instrucción subyacente. En este último caso se estará empleando SPSS para Windows como una 21

22 interfaz auxiliar de generación de programas. De una u otra manera, su extensión es *.sps y su contenido, escrito en ASCII, se muestra en la ventana de sintaxis. Tipos de ventanas En este programa, la operación con ventanas se realiza mediante los procedimientos habituales de cualquier aplicación que opere en entornos Windows. Ventana del editor de datos. Aparece el contenido del fichero de datos que en ese momento esté activo en el sistema. SPSS sólo puede tener cargado y residente en memoria un solo fichero de datos. Ventana del visor de resultados. Los resultados de los diferentes subprogramas, listados, tablas, gráficos, informe de las modificaciones efectuadas en los datos y los mensajes y avisos de errores se van mostrando y almacenando en esta ventana. Esta información se puede grabar posteriormente como fichero de resultados. Una ventana de este tipo se abre automáticamente en el momento en el que se genera el primer resultado de una sesión. Se pueden tener abiertas tantas como se quiera. Ventana del visor de resultados de borrador. Es posible mandar los resultados a este tipo de ventanas en vez de al visor preestablecido. En este visor, para los cuadros se utilizan caracteres ASCII y aquí los gráficos no son editables. Como contrapartida, en algunos casos simplifica la exportación. Ventana del editor de tablas pivote. Este tipo de ventanas permite editar y modificar las denominadas tablas pivote de SPSS. Se refiere a la posibilidad de editar el texto, intercambiar los datos mediante transposición de filas y columnas, añadir y modificar los colores, etc. Ventana del editor de gráficos. Todos los gráficos que SPSS genera son editables mediante modificaciones del estilo de cambios de colores, de fuentes y tamaños, intercambio de ejes, rotaciones, etc. Ventana del editor de resultados de texto. Aquellos resultados de texto que no aparezcan en las tablas pivote se pueden modificar con este editor. Las modificaciones son las habituales pare este tipo de información textual, centradas fundamentalmente en las características de las fuentes (tipo, estilo, color, tamaño). Ventana del editor de sintaxis. Es posible pegar en una ventana de sintaxis las especificaciones que se realicen en los cuadros de diálogo, con lo que las mismas aparecerán en forma de comandos. Este fichero de instrucciones es editable mediante esta ventana, lo cuál resulta muy útil en diversas situaciones: Sólo es posible acceder a determinadas posibilidades y opciones de los subprogramas mediante el lenguaje de instrucciones. 22

23 Cuando es previsible que una determinada secuencia de operaciones se vaya a ejecutar en repetidas ocasiones, parece lógico grabar el programa completo y procesarlo de corrido. Cuando el ordenador ha de ser compartido por muchos usuarios, el modo interactivo de operar de Windows consume mucho tiempo. Ventana del editor de procesos. Es posible personalizar y automatizar muchas tareas de SPSS mediante la tecnología OLE usando el lenguaje BASIC. Por último una cuestión relativa a las ventanas de SPSS cuando se tienen varias abiertas, es la distinción entre ventana activa y ventana designada. La ventana activa es la que está actualmente seleccionada. La ventana designada es aquella en la que en la barra de estado aparece un signo de exclamación (!) y es la ventana con la que trabaja SPSS. En cualquier momento se puede cambiar tal designación empleando el icono que con tal símbolo aparece en la barra de herramientas de este tipo de ventanas. También es posible cambiar la ventana designada activando la opción Designar ventana que aparece en el menú Utilidades de este tipo de ventanas. Iniciar una sesión con SPSS SPSS se abre pulsando en el botón de inicio del escritorio de Windows en la opción programas y seleccionando la versión instalada del programa o bien seleccionando en el icono de acceso directo a SPSS sobre el escritorio si dicho acceso directo ha sido creado 23

24 Al inicio del programa se abre una ventana sobre el editor de datos, preguntando con qué datos se va a trabajar Pasemos a ver con qué ficheros de datos permite trabajar SPSS y cómo definir nuevos datos. Ficheros de datos en SPSS Además de las posibilidades que SPSS brinda para generar y editar los que denominamos como ficheros de datos propios, SPSS puede manejar una gran variedad de otros tipos de ficheros de datos: Archivos de otros paquetes estadísticos, como SYSTAT. Archivos de hojas de cálculo, como LOTUS ó EXCEL. Archivos de sistemas de gestión de bases de datos, como dbase. Archivos de datos grabados en ASCII, con o sin tabulación. Ficheros de datos SPSS creados en otros entornos y sistemas operativos. Datos de ACCESS, EXCEL ó FOXPRO, mediante ODBC. Para abrir uno de estos ficheros, SPSS habilita un asistente que indica los pasos a seguir 24

25 INTRODUCCIÓN DE DATOS Tras abrir el programa, se selecciona la opción introducir datos: La definición de una variable para ser procesada por SPSS comporta una serie de tareas: Denominar la variable Definir el tipo de la misma Fijar un formato de columnas Fijar un formato para los datos 25

26 Asignar, si se desea, etiquetas significativas a variables y valores Definir códigos específicos para los valores ausentes o perdidos Determinar la alineación de los datos Especificar el nivel de medida El nombre se escribe en el cuadro de texto asociado al Nombre de la ventana de definición de variables, y al resto de las funciones se accede en las columnas respectivas. Por defecto, las variables se consideran numéricas, con formato 8.2, sin etiqueta ni código específico para valores ausentes, con alineamiento de los valores a la derecha de cada casilla y un nivel de medida de escala. Nombre de las variables En lo referente al nombre de las variables, hay que cumplir una serie de requisitos: 1. La extensión máxima de los nombres es de ocho caracteres. 2. El primero de ellos ha de ser una letra forzosamente. 3. Los restantes pueden ser cualquier combinación de letras, números y los caracteres siguientes: el punto (excepto si es el último #, $, o el guión bajo (aunque no es recomendable situarlo al final). 4. Otros signos o caracteres especiales no están permitidos, y sobre todo hay que poner especial cuidado en no introducir espacios en blanco. 5. Los nombres deben ser únicos, no estando permitida su repetición en el mismo fichero de datos. 6. Es indiferente que se usen mayúsculas o minúsculas, pues internamente el sistema opera siempre con mayúsculas, independientemente de la forma en que aparezcan los nombres. 7. Hay una serie de palabras clave que tienen un significado especial para SPSS, se emplean en diferentes procesos y subprogramas y por tanto, no se pueden usar como nombres de variables, son las siguientes: ALL, AND, BY, EQ, GE, GT, LE, NE, NOT, OR, TO, WITH Declaración del tipo de la variable Existe una importante distinción entre las variables que constituyen una matriz de datos: 26

27 Variables numéricas. Representan las variables estadísticas conocidas como cuantitativas. Sus valores son únicamente codificables mediante números. SPSS establece a priori todas las variables como numéricas, reales con dos decimales. A su vez, entre éstas podemos distinguir entre variables numéricas enteras y variables numéricas con parte decimal. Las variables numéricas admiten cualquier número como valor válido, pudiendo ir precedido del signo menos o no. Su longitud máxima es de 40 caracteres de los cuales 16 pueden ser cifras decimales. Los signos o los puntos decimales se contabilizan a la hora de definir la longitud de la variable. Variables con coma. Este formato de entrada de datos añade al anterior la coma como separador de los miles y el punto como separador de la parte entera y de la decimal. Variables con punto. Se emplea el punto como separador de los miles y la coma como separador de la parte decimal Variables numéricas en notación científica. Son valores aceptables todos los numéricos mas las letras D o E y los signos más o menos. 347E3, -12D-3... Variables tipo fecha. Desde una perspectiva estricta, estas variables son de tipo numérico. Si se quiere adoptar un punto de vista estadístico, hay que considerarlas como variables cuantitativas; sin embargo, su codificación y representación en el editor de datos puede realizarse de distintas maneras. Si se selecciona este tipo en el cuadro de diálogo, se abre una ventana con todos los formatos aceptables. En la lista desplegada aparecen formatos para variables de fecha y otros para las estrictamente temporales. Variables tipo dólar. A un valor numérico dado, se le añade el símbolo del dólar en los diferentes formatos que aparecen en la ventana que se despliega caso de elegir esta opción. El símbolo $ y las comas como separadores de los miles aparecen automáticamente. 27

28 Variables con formato de moneda personalizada. Si a través del menú de preferencias se han creado formatos específicos para variables, mediante esta opción se puede elegir uno de ellos. Una vez seleccionado el formato, la entrada de datos se realiza del modo habitual, con la salvedad de que los caracteres empleados para simbolizar la moneda no deben teclearse, sino que son introducidos por el sistema. Variables tipo cadena. En su codificación admiten cualquier carácter. Al definirlas únicamente debe especificarse su longitud máxima. Si la sucesión de caracteres introducida como valor de una variable de este tipo tiene una longitud menor que el máximo declarado, se completa, mientras no se especifique de otra manera, añadiendo espacios en blanco hacia la derecha. Con este tipo de variables sí hay diferencia entre emplear los caracteres en minúscula o mayúscula. Aunque la codificación alfanumérica es la más recomendable para las variables cualitativas, también es la más propensa a errores. Una alternativa viable es codificar numéricamente las variables cualitativas y asignar a los diferentes valores numéricos etiquetas ilustrativas, lo que disminuye la probabilidad de ocurrencia de errores. Además, el editor de datos permite visualizar la matriz con las etiquetas de los valores en vez de los valores originales. Etiquetado de variables y valores La declaración de las etiquetas de las variables se lleva a cabo en la caja de texto con epígrafe Etiqueta La etiqueta de la variable puede ser cualquier texto con una extensión máxima de 120 caracteres, aunque es recomendable limitar su longitud, pues en la mayoría de los listados de resultados el tamaño máximo es excesivo y la etiqueta se trunca. Un valor aconsejable puede estar entre 20 y 40 caracteres. Las etiquetas pueden escribirse con cualquier combinación de mayúsculas y minúsculas y van a aparecer siempre tal y como hayan sido declaradas. El procedimiento es similar para las etiquetas de valores. Esta operación sólo merece la pena para variables cualitativas en las que los códigos asignados a los valores no resulten claros, y muy especialmente cuando se haya realizado una codificación numérica de los mismos. 28

29 Las etiquetas de los valores pueden tener una extensión máxima de 60 caracteres, aunque aquí es aconsejable limitar su longitud a un valor cercano a 20. Para crear las etiquetas, el proceso es el siguiente: 1. Se teclea el código del valor de la variable. 2. Se teclea el texto de la etiqueta en su cuadro correspondiente. La correspondencia entre valor y etiqueta queda así incorporada al fichero de datos. Definición de códigos para los valores ausentes o perdidos Se entiende por valores ausentes o perdidos a aquellos casos en que no se dispone de información sobre el valor de una variable determinada. SPSS distingue dos tipos de valores ausentes: Los definidos por el propio sistema (system-missing values). Asignados automáticamente a todas las casillas vacías que aparezcan en una variable declarada como numérica. Se representan por una coma. Los definidos por el usuario (user-missing values). Para las variables alfanuméricas una casilla en blanco se considera un valor válido de la variable. Para definir este tipo de valores faltantes, ha de abrirse el correspondiente cuadro de diálogo, en el que se distinguen las siguientes opciones: 1. Ausencia de valores faltantes definidos por el usuario. Todos los valores, excepto los blancos, son considerados como válidos. 2. Valores perdidos discretos. Se pueden definir un máximo de tres valores ausentes por cada variable. 3. Intervalo de valores perdidos. Todos los valores comprendidos entre el máximo y el mínimo (ambos incluídos) son considerados como valores ausentes. 4. Un intervalo y un valor único. Se consideran como ausentes los valores pertenecientes al intervalo más el valor discreto declarado. 29

30 Especificación del nivel de medida SPSS permite seleccionar entre tres opciones mutuamente excluyentes: escala, ordinal y nominal, adaptándose a la propuesta clásica de Stevens en la que el nivel de intervalo se agrupa en la categoría de escala que podemos también identificar con las variables cuantitativas. 30