Tema 10: Introducción a los problemas de Asociación y Correlación Estadística 4 o Curso Licenciatura en Ciencias Ambientales Licenciatura en Ciencias Ambientales (4 o Curso) Tema 10: Asociación y Correlación Curso 2009-2010 1 / 18
Índice 1 Asociación entre caracteres 2 Contraste chi cuadrado 3 Medidas de asociación 4 Correlación y regresión entre variables 5 Correlación y Regresión Lineal Simple 6 Inferencia en el Modelo de Regresión Lineal 7 Correlación Lineal 8 Predicciones Licenciatura en Ciencias Ambientales (4 o Curso) Tema 10: Asociación y Correlación Curso 2009-2010 2 / 18
Asociación entre caracteres Sea X una variable cualitativa con modalidades A 1,, A k, e Y otra variable cualitativa con modalidades B 1,, B l, ambas definidas en la misma población Estamos interesados en saber si las variables X e Y presentan relación Los parámetros de interés serán las probabilidades condicionadas P(A i B j ) que representan la probabilidad de que un individuo que presenta la modalidad B j del carácter Y presente la modalidad A i de la variable X También en este caso son de interés las probabilidades condicionadas P(B j A i ) Las variables X e Y son independientes si P(A i B 1 ) = = P(A i B l ) para i = 1,, k es decir, si la probabilidad de que un individuo presente una determinada modalidad de X no depende de qué modalidad de Y presente dicho individuo Licenciatura en Ciencias Ambientales (4 o Curso) Tema 10: Asociación y Correlación Curso 2009-2010 3 / 18
Asociación entre caracteres Tablas de contingencia En la situación anterior resolveremos el problema en base a una muestra de n individuos Los datos se representan en una tabla de contingencia: B 1 B j B l Total A 1 n 11 n 1j n 1l n 1 A i n i1 n ij n il n i A k n k1 n kj n kl n k Total n 1 n j n l n Frecuencias absolutas de la muestra (valores observados) n ij número de individuos que presentan simultáneamente la modalidad A i de la variable X y la modalidad B j de la variable Y n i número de individuos que presentan la modalidad A i de la variable X n j número individuos que presentan la modalidad B j de la variable Y Licenciatura en Ciencias Ambientales (4 o Curso) Tema 10: Asociación y Correlación Curso 2009-2010 4 / 18
Asociación entre caracteres Frecuencias relativas de la muestra f ij = n ij n = P(A i B j ), f i = n i n = P(A i ), f j = n j n = P(B j ) f ij es la probabilidad estimada de que un individuo presente simultáneamente la modalidad A i de la variable X y la modalidad B j de la variable Y Frecuencias por filas de la muestra P(B j A i ) = n ij n i es la probabilidad estimada de que un individuo que presenta la modalidad A i de la variable X presente la modalidad B j del carácter Y Frecuencias por columnas de la muestra P(A i B j ) = n ij es la probabilidad de que un individuo que presenta la modalidad B j n j del carácter Y presente la modalidad A i de la variable X Licenciatura en Ciencias Ambientales (4 o Curso) Tema 10: Asociación y Correlación Curso 2009-2010 5 / 18
Asociación entre caracteres Valores esperados Se calculan mediante la expresión E ij = n in j n Son los valores que cabría esperar para n ij si las variables X e Y fueran independientes Por lo tanto, bajo la hipótesis de independencia, todas las cantidades n ij E ij deberían ser próximas a 0 Si hemos comprobado que hay relación, para saber a cual de las categorías de X o de Y hemos de atribuir la relación entre ambas variables, hemos de buscar en la tabla los valores de n ij E ij más altos Licenciatura en Ciencias Ambientales (4 o Curso) Tema 10: Asociación y Correlación Curso 2009-2010 6 / 18
Contraste chi cuadrado Planteamos el contraste de hipótesis del siguiente modo: H 0 : P(A i B 1) = = P(A i B l) para i = 1,, k H 1 : estas probabilidades no son iguales para algún i dicho de forma intuitiva: H 0 : H 1 : las variables X e Y son independientes hay relación entre las variables El valor experimental se calcula mediante la fórmula: χ = X i,j (n ij E ij) 2 E ij Rechazamos H 0 al nivel α si χ > χ 2 (k 1)(l 1),α Este test no sería válido si más del 25% de los valores E ij son menores que 5 Licenciatura en Ciencias Ambientales (4 o Curso) Tema 10: Asociación y Correlación Curso 2009-2010 7 / 18
Medidas de asociación En caso de ser significativo el contraste anterior, calculamos grado de relación con el coeficiente de contingencia de Pearson n 2 ij χ C = χ + n = i,j E ij n n 2 ij i,j E ij Si q = min{l, k} entonces C toma valores entre 0 (asociación nula o independencia) y (q 1)/q (asociación máxima) Para tablas 2 2 tenemos el coeficiente Φ definido Φ = χ n = (n 11 n 22 n 12 n 21 ) 2 n 1 n 2 n 1 n 2 Φ toma valores entre 0 (asociación nula o independencia) y 1 (asociación máxima) Licenciatura en Ciencias Ambientales (4 o Curso) Tema 10: Asociación y Correlación Curso 2009-2010 8 / 18
Correlación y regresión entre variables En este tema estudiaremos cómo determinar si existe relación entre dos variables cuantitativas X e Y, así como algunos coeficientes para, caso de existir, determinar la fuerza de dicha asociación Al mismo tiempo que daremos respuesta a estos problemas, desarrollaremos un modelo que relaciona X e Y aunque no de forma determinística, sino admitiendo la existencia de una componente aleatoria, debida al azar y a otros elementos del experimento estadístico que no se han tenido en cuenta en el análisis Dicho modelo se denomina Modelo de Regresión Lineal Licenciatura en Ciencias Ambientales (4 o Curso) Tema 10: Asociación y Correlación Curso 2009-2010 9 / 18
Correlación y regresión entre variables Modelo General de Regresión Supongamos que estamos interesados en determinar la relación entre las siguientes variables: Y, variable aleatoria sobre una población (dependiente o respuesta) las variables que influyen en Y se llaman predictoras o regresoras Nos limitaremos al caso de una única variable predictora, X, definida sobre la misma población que Y La distribución de probabilidad de Y dependerá del valor que tome X No obstante, Y no está completamente determinada por X, ya que hay otras influencias aleatorias Esto se expresa mediante la ecuación: Y = f (X) + E (ecuación de regresión de Y sobre X) E, variable aleatoria no observable con media E[E] = 0 (error o ruido) Licenciatura en Ciencias Ambientales (4 o Curso) Tema 10: Asociación y Correlación Curso 2009-2010 10 / 18
Correlación y Regresión Lineal Simple Modelo de Regresión Lineal Si en el Modelo General de Regresión, la función f es una recta, entonces la regresión de Y sobre X es lineal Y = β 0 + β 1 X + E En la práctica, la ecuación anterior es imposible de determinar Nuestro problema se limita a la Inferencia (estimación puntual, intervalos de confianza y contraste de hipótesis) sobre los parámetros β 0 y β 1 Intuitivamente, la pendiente de la recta, β 1, marca el crecimiento (o decrecimiento) de la variable Y por cada unidad que crece la variable X Licenciatura en Ciencias Ambientales (4 o Curso) Tema 10: Asociación y Correlación Curso 2009-2010 11 / 18
Correlación y Regresión Lineal Simple Otros parámetros de interés: correlación lineal Algunos parámetros cuantificarán el grado de relación entre X e Y y el sentido de la misma Son la Covarianza poblacional (σ xy ) y el Coeficiente de Correlación Lineal (ρ) Se relacionan mediante la expresión Se verifica que ρ = σ xy σ x σ y, 1 ρ 1 Si β 1, σ xy, ρ < 0, la relación lineal es negativa (cuando crece X, decrece Y) Si β 1, σ xy, ρ = 0, no hay relación lineal, las variables son incorreladas, es decir, el comportamiento de X no afecta al de Y Si β 1, σ xy, ρ > 0, la relación lineal es positiva (cuando crece X también crece Y) Licenciatura en Ciencias Ambientales (4 o Curso) Tema 10: Asociación y Correlación Curso 2009-2010 12 / 18
Correlación y Regresión Lineal Simple Ejemplo 1 Se desea conocer si existe relación entre las concentraciones de nitrato y sulfato en un suelo Para ello se toman 20 muestras de tierra resultando estas concentraciones: SO 4 168 508 447 491 291 365 236 123 247 109 NO 3 174 333 233 203 303 343 027 298 022 137 SO 4 596 572 340 114 288 197 038 446 337 129 NO 3 213 45 134 107 048 221 228 462 157 252 Representamos las dos variables en la nube de puntos o diagrama de dispersión nitrato 1 2 3 4 NIT 1 2 3 4 1 2 3 4 5 6 1 2 3 4 5 6 SULF sulfato Licenciatura en Ciencias Ambientales (4 o Curso) Tema 10: Asociación y Correlación Curso 2009-2010 13 / 18
Correlación y Regresión Lineal Simple Inferencia en el Modelo de Regresión Lineal Como hemos visto en el Ejemplo, la inferencia se basará en una muestra aleatoria simple ambas variables X e Y, medidas sobre los mismos individuos Estimación puntual Los estimadores de los parámetros del modelo son: ˆσ xy = s xy = 1 n 1 Y y 1 y 2 y 3 y n X x 1 x 2 x 3 x n nx (x i x)(y i ȳ), ˆρ = r = sxy, 1 r 1 s i=1 xs y La recta de regresión lineal estimada de Y sobre X es la recta que mejor se ajusta a la nube de puntos de un determinado conjunto de datos (ajuste de mínimos cuadrados) y sus coeficientes se calculan son: s s ˆβ 1 = sxy s s 2, E 1 = 2 x (n 1)s 2, ˆβ0 = ȳ ˆβ 1 1 x, E 0 = s 2 x n + x 2 «(n 1)s 2 x siendo s 2 la varianza intrínseca muestral: s 2 = 1 X n n 2 (y i ( ˆβ 0 + ˆβ 1 x i )) 2 = n 1 i=1 n 2 (s2 y sxy ˆβ 1 ) Licenciatura en Ciencias Ambientales (4 o Curso) Tema 10: Asociación y Correlación Curso 2009-2010 14 / 18
Correlación y Regresión Lineal Simple Intervalos de confianza Hemos de suponer que E N(0, σ) A un nivel de confianza 1 α: Para β 1 : I 1 = [ ˆβ 1 ± E 1 t n 2,α/2 ] Para β 0 : I 0 = [ ˆβ 0 ± E 0 t n 2,α/2 ] Contraste de hipótiesis Supondremos también que E N(0, σ) La hipótesis más interesante a contrastar es que hay relación entre las variables, es decir, H 0 : β 1 = 0 H 1 : β 1 0 H 0 : no hay relación lineal entre X e Y H 1 : sí hay relación lineal entre X e Y El estadístico de contraste es: T = ˆβ 1 E 1 Rechazamos H 0 al nivel α si T > t n 2,α/2 (equivalentemente si 0 I 1 ) Licenciatura en Ciencias Ambientales (4 o Curso) Tema 10: Asociación y Correlación Curso 2009-2010 15 / 18
Correlación y Regresión Lineal Simple Grado de relación entre las variables Intuitivamente, si aceptamos H 0 la variable X desaparece de la ecuación Y = β 0 + β 1 X + E es decir, toda la variabilidad de Y es aleatoria Por el contrario si aceptamos H 1, entonces parte de la variabilidad de Y es debida a X y habrá relación entre X e Y El grado de relación y el signo de la misma nos lo dan ˆσ xy = s xy, ˆρ = r Este último coeficiente está entre -1 y 1, y por tanto su magnitud puede ser comparada con estas cantidades Así su proximidad a -1 ó a 1 nos da idea de una asociación lineal fuerte mientras que su proximidad a 0 de una asociación débil Coeficiente de determinación Al valor r 2 se le denomina coeficiente de determinación Mide el grado de asociación lineal (sin signo) entre X e Y Intuitivamente, r 2 se puede interpretar como el tanto por 1 de la variabilidad de Y que queda explicada por la variable X Licenciatura en Ciencias Ambientales (4 o Curso) Tema 10: Asociación y Correlación Curso 2009-2010 16 / 18
Correlación y Regresión Lineal Simple Predicciones en el modelo de regresión lineal La recta de regresión estimada Y = ˆβ 0 + ˆβ 1 X puede ser utilizada para realizar predicciones Sea x 0 un valor observado de la variable X, que se corresponde con un valor y 0 de la variable Y que no hemos observado Aunque no conozcamos y 0, la recta anterior nos permite hacer inferencia sobre este valor Así su estimación será ŷ 0 = ˆβ 0 + ˆβ 1 x 0 Si además E N(0, σ) podemos dar un intervalo de confianza al nivel 1 α para y 0 : [ ( ŷ 0 ± s 2 1 + 1 n + (x ) ] 0 x) 2 (n 1)s 2 t n 2,α/2 x Estas predicciones sólo serán fiables si hemos probado que hay relación entre las variables y el coeficiente de determinación r 2 es alto Licenciatura en Ciencias Ambientales (4 o Curso) Tema 10: Asociación y Correlación Curso 2009-2010 17 / 18