Lucila Finkel Temario 1. Introducción: el análisis exploratorio de los datos. 2. Tablas de contingencia y asociación entre variables. 3. Correlación bivariada. 4. Contrastes sobre medias. 5. Regresión lineal simple.
El análisis exploratorio de los datos 50% casos centrales Diagrama de caja de Tukey Casos extremos (alejados más de 3 longitudes de caja del P75) Casos atípicos (alejados más de 1,5 longitudes de caja del P75) Valor máximo P 75 P 25 Mediana Valor mínimo El análisis exploratorio de los datos Tallo Hojas Diagrama de tallo y hojas Ancho tallo: se multiplica el tallo por 1 Cada hoja es un caso
El análisis exploratorio de los datos Histograma Tablas de contingencia y asociación entre variables La relación entre dos variables se caracteriza por: La existencia o ausencia de asociación. Existe asociación cuando la distribución de una variable difiere entre las categorías de una segunda variable. El grado o la fuerza de una asociación. La dirección de la asociación (positiva o negativa). La naturaleza de la asociación o la forma con la que se distribuyen los datos de una tabla (lineal, curvilínea..)
Tablas de contingencia y asociación entre variables (Variable dependiente) Frec. reunión profesores Total Tabla de contingencia Frec. reunión profesores * Sexo Nunca A veces Casi siempre Siempre Recuento % de Frec. reunión profesores % de Sexo Recuento % de Frec. reunión profesores % de Sexo Recuento % de Frec. reunión profesores % de Sexo Recuento % de Frec. reunión profesores % de Sexo Recuento % de Frec. reunión profesores % de Sexo Sexo Hombre Mujer Total 35 8 43 81,4% 18,6% 100,0% 17,7% 2,8% 8,9% 68 43 111 61,3% 38,7% 100,0% 34,3% 15,1% 23,0% 51 59 110 46,4% 53,6% 100,0% 25,8% 20,7% 22,8% 44 175 219 20,1% 79,9% 100,0% 22,2% 61,4% 45,3% 198 285 483 41,0% 59,0% 100,0% 100,0% 100,0% 100,0% (Variable independiente) (porcentajes de columna) Tablas de contingencia y asociación entre variables Frecuencias que se obtendrían si no hubiera asociación entre las dos variables (Hipótesis nula) Marginal de fila por marginal de columna dividido por N: (43 x 198 ) / 483 Diferencia entre el recuento o frecuencia observada y la frecuencia esperada
Tablas de contingencia y asociación entre variables Grados de libertad: (nº filas -1) x (nº columnas -1) (para N grandes y modelos log-lineales) (cuando las dos variables son cuantitativas) Para tablas de 2 x 2 se utiliza la prueba exacta de Fisher (cuando en una celda la frecuencia esperada < 5). Para muestras pequeñas, se recomienda el Chi-cuadrado de Pearson Razón de verosimilitud Asociación lineal por lineal N de casos válidos Pruebas de chi-cuadrado Sig. asintótica Valor gl (bilateral) 88,735 a 3,000 92,667 3,000 87,394 1,000 483 a. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 17,63. Chi-cuadrado corregido de Yates. Nivel de significación < 0,05, se rechaza la H 0 de no asociación entre las variables. El valor de Chi cuadrado se obtiene aplicando la siguiente fórmula: 2 Frec. observada Frec. esperada Frec. esperada 2 Tablas de contingencia y asociación entre variables Para 3 grados de libertad y un nivel de significación de 0,05 (nivel de confianza del 0,95), la chi cuadrado teórica adopta un valor de 7,72.
DISTRIBUCIÓN DE PROBABILIDAD BAJO LA CURVA NORMAL 68,2 % Unidades estandarizadas de desviación típica 95,44 % 99,73% 95% Z=1,96 99% Z=2,57 Tablas de contingencia y asociación entre variables Prueba de chi cuadrado: Se plantean las dos hipótesis: H 0 (nula): no hay asociación entre las variables y H 1 (alternativa): las dos variables están asociadas. Se localiza el valor de chi cuadrado en la tabla de contingencia. Se identifica el chi cuadrado teórico, que depende de los grados de libertad y el nivel de significación adoptado. Se formula el criterio de decisión para la prueba de hipótesis: cuando x 2 >x 2 t se rechaza la H 0 yseaceptalah 1 ó, cuando ns < 0,05 ó 0,01, se rechaza la H 0 : existe asociación entre las variables. En nuestro ejemplo: x 2 >x 2 t (88,73 > 7,72): se rechaza la H 0 : el sexo y la frecuencia de reunión con los profesores están asociados. ns < 0,05 (0,00 < 0,05): se rechaza la H 0 : existe asociación entre las dos variables.
Tablas de contingencia y asociación entre variables MEDIDAS DE ASOCIACION PARA VARIABLES NOMINALES (BASADAS EN CHI-CUADRADO) Phi No está acotado superiormente. Vale cero cuando la hipótesis nula es cierta y varía entre 0 y 1 sólo en tablas cuadradas. 2 2 n C V de Cramer Es el coeficiente mejor normalizado, siempre varía entre 0 y 1. m es el número menor entre (filas - 1) y (columnas - 1). Coeficiente de Contingencia C No sobrepasa la unidad y aunque la asociación sea perfecta, no llega nunca a 1. En tablas cuadradas, valor máximo: 2x2 = 0,707 / 4x4=0,87. V 2 2 2 n 2 2 m 2 nm n Tablas de contingencia y asociación entre variables MEDIDAS DE ASOCIACION PARA VARIABLES NOMINALES (BASADAS EN CHI-CUADRADO) Medidas simétricas Nominal por nominal Phi V de Cramer Coeficiente de contingencia N de casos válidos a. Asumiendo la hipótesis alternativa. Sig. Valor aproximada,429,000,429,000,394,000 483 b. Empleando el error típico asintótico basado en la hipótesis nula. < 0,05, el estadístico es significativo (entre 0 y 1)
Tablas de contingencia y asociación entre variables MEDIDAS DE ASOCIACION PARA VARIABLES NOMINALES (BASADAS EN LA REDUCCION PROPORCIONAL DEL ERROR) Nominal por nominal (entre 0 y 1) Lambda Tau de Goodman y Kruskal a. Asumiendo la hipótesis alternativa. Medidas direccionales Simétrica Frec. reunión profesores dependiente Sexo dependiente Frec. reunión profesores dependiente Sexo dependiente b. Empleando el error típico asintótico basado en la hipótesis nula. c. Basado en la aproximación chi-cuadrado. Error típ. Sig. Valor asint. a T aproximada b aproximada,165,040 3,848,000,091,038 2,280,023,263,054 4,269,000,076,016,000 c,184,033,000 c Lambda y Tau de Goodman y Kruskal son medidas basadas en la Reducción Proporcional del Error (RPE): permiten predecir la reducción que se produce en el error de predicción del valor de un individuo en una variable cuando se conoce su valor en otra distinta. Varían entre 0 y 1 y son medidas simétricas, porque permiten distinguir entre la variable dependiente y la variable independiente. < 0,05 Tablas de contingencia y asociación entre variables MEDIDAS DE ASOCIACION PARA VARIABLES ORDINALES Gamma tiene un recorrido entre -1 y 1. < 0,01
Correlación bivariada de Pearson (PARA VARIABLES DE INTERVALO) < 0,01 < 0,05 Contraste sobre medias COMPARAR MEDIAS (de una variable cuantitativa dependiente para las distintas categorías de otra variable cualitativa independiente)
Contraste sobre medias PRUEBA T PARA MUESTRAS INDEPENDIENTES Para contrastar hipótesis referidas a la diferencia entre dos medias independientes. En un primer paso se contrasta la igualdad de las varianzas de las dos muestras (Prueba de Levene). H 0 : las medias de las dos muestras (hombres y mujeres) son iguales. H 1 : las medias difieren estadísticamente entre sí. Contraste sobre medias PRUEBA T PARA MUESTRAS INDEPENDIENTES 1 er paso: como es < 0,05 se rechaza la H 0 de igualdad de varianzas de las horas diarias entre hombres y mujeres 2º paso: como es < 0,05 se rechaza la H 0 de igualdad de horas diarias y se concluye que hay una diferencia estadísticamente significa entre las hs. de los dos sexos
Contraste sobre medias ANALISIS DE VARIANZA DE UN FACTOR Para comparar varios grupos de una variable cualitativa (variable independiente o factor) en una variable cuantitativa (variable dependiente). Se trata de una generalización de la prueba T para dos muestras independientes. H 0 : las medias de la variable dependiente (horas diarias de trabajo doméstico) en cada nivel de la independiente (clase social) son iguales. Es > 0,05, por lo que se acepta la H 0 de igualdad de horas diarias de trabajo doméstico en las distintas clases sociales Regresión lineal El investigador suele tener razones teóricas o prácticas para creer que determinada variable es dependiente de una o más variables distintas. Si hay suficientes observaciones empíricas sobre estas variables, el análisis de regresión es un método apropiado para describir la estructura, fuerza y sentido exacto de esta asociación. El modelo de regresión permite diferenciar variables explicativas o independientes X (cuantitativas o variables dummy) y variables a explicar o dependientes Y (también cuantitativas). Una pregunta importante que se plantea en el análisis de regresión es la siguiente: Qué porcentaje de la variación total en Y se debe a la variación en X? Cuánto de la variación de Y no explica X? El estadístico que mide esta proporción o porcentaje se denomina coeficiente de determinación (R 2 ). Si por ejemplo, al hacer los cálculos respectivos se obtiene un valor de 0.846, esto significa que el modelo explica el 84.6% de la variación de la variable dependiente.
Regresión lineal El objetivo de la técnica de regresión es establecer la relación estadística que existe entre la variable dependiente (Y) y una o más variables independientes (X 1,X 2, X n ). Para poder realizar esto, se postula una relación funcional entre las variables. Debido a su simplicidad analítica, la forma que más se utiliza en la práctica es la relación lineal y el ajuste de mínimos cuadrados de cualquier punto a la recta de regresión. El investigador suele tener razones teóricas o prácticas para creer que determinada variable es dependiente de una o más variables distintas. Y a b X b X b X e 1 1 2 2... k k donde: Y: variable dependiente. Función lineal aditiva de múltiples variables. X i : variables independientes. a: constante o coeficiente estimado de corte con el eje Y. b i : pendientes parciales estimadas. e: término de error. Ejemplo de regresión lineal simple
Ejemplo de regresión lineal simple Coeficiente de correlación Coeficiente de Determinación R 2 : La tasa de natalidad explica el 74% de la varianza de la esperanza de vida femenina Desviación típica de los residuos (entre puntuaciones de VD y sus estimaciones) El modelo de regresión es significativo, ambas variables están linealmente relacionadas ECUACIÓN DE REGRESIÓN: Y = a + bx Esp. vida = 89,26-0,737 * tasa natalidad Para calcular intervalos de confianza de los coeficientes. Ejemplo de regresión lineal múltiple
Ejemplo de regresión lineal múltiple Coeficiente de correlación múltiple (entre todas las variables independientes y la dependiente) Coeficiente de Determinación R 2 : La tasa de natalidad, la mortalidad infantil y la tasa de alfabetización ahora explican el 93% de la varianza de la esperanza de vida femenina Coeficientes de regresión estandarizados: (permiten comparar el efecto o el peso de las distintas variables independientes sobre la dependiente) ECUACIÓN DE REGRESIÓN: Y = a + b 1 X 1 + b 2 X 2 + b 3 X 3 Esp. vida = 86,46-0,12 * tasa natalidad -0.03 * alfabetización 0.25 * mortalidad infantil Bibliografía recomendada Capítulo 11 del manual del SPSS: Análisis exploratorio: el procedimiento Explorar Capítulo 12 del manual del SPSS: Análisis de variables categóricas: el procedimiento Tablas de Contingencia Capítulo 17 del manual del SPSS: Análisis de correlación lineal: los procedimientos Correlaciones bivariadas y Correlaciones parciales Escobar, M. (1999): Análisis Gráfico/Exploratorio. Madrid: Editorial La Muralla - Hespérides. Pardo Merino, A. y Ruiz Díaz, M. A. (2002): SPSS 11. Guía para el Análisis de Datos. Mc Graw Hill, Madrid Pérez, C. (2001): Técnicas Estadísticas con SPSS. Prentice Hall, Madrid. Sánchez Carrión, J.J. (1999): Manual de Análisis Estadístico de los Datos. Alianza Editorial, Madrid.
Bibliografía complementaria Aguilera del Pino, A. (2001): Tablas de Contingencia Bidimensionales. La Muralla D. L., Madrid Filgueira, E. (2001): Introducción al Análisis Estadístico de los Datos con SPSS. Alianza Editorial, Madrid. Sánchez Carrión, J. J. (1989): Análisis de Tablas de Contingencia. Madrid: Centro de Investigaciones Sociológicas. Visauta Vinacua, B. (2002): Análisis Estadístico con SPSS para Windows. Estadística Básica (vol. I). Madrid: McGraw Hill. Visauta Vinacua, B. (1998): Análisis Estadístico con SPSS para Windows. Estadística Multivariante (vol. II). Madrid: McGraw Hill.