Tema 10: Introducción a los problemas de Asociación y Correlación

Documentos relacionados
Tema 8: Regresión y Correlación

Tema 9: Relación entre variables categóricas

Regresión Lineal Simple y Múltiple Regresión Logística

Tema 4: Otros Métodos de Análisis de Datos Cuantitativos y Cualitativos

ANÁLISIS DE REGRESIÓN

Tema 3: Análisis de datos bivariantes

1. Conceptos de Regresión y Correlación. 2. Variables aleatorias bidimensionales. 3. Ajuste de una recta a una nube de puntos

Profesor: Hugo S. Salinas. Primer Semestre Tabla 1: Inteligencia y Rendimiento. X Y Figura 1: Inteligencia y Rendimiento.

ESTADÍSTICA. Tema 4 Regresión lineal simple

Estructura de este tema. Tema 4 Regresión lineal simple. Ejemplo: consumo de vino y dolencias cardíacas. Frecuencias

TEMA 10 Correlación y regresión. El modelo de regresión simple

Tema 4. Regresión lineal simple

Estadística Descriptiva II: Relación entre variables

REGRESIÓN LINEAL SIMPLE

Universidad Técnica de Babahoyo CORRELACIÓN DE VARIABLES Y REGRESIÓN LINEAL

Distribución bidimensional. Marginales. Correlación lineal. Rectas de regresión.

Estrategia de análisis estadístico de los datos. Inferencia Estadística y contraste de hipótesis

ASOCIACIÓN ENTRE DOS VARIABLES CONTINUAS: REGRESIÓN Y CORRELACIÓN

1 Introducción. 2 Modelo. Hipótesis del modelo MODELO DE REGRESIÓN LOGÍSTICA

Tema1. Modelo Lineal General.

ESTADÍSTICA APLICADA. Tema 4: Regresión lineal simple

Estadística II Tema 4. Regresión lineal simple. Curso 2009/10

Estadística II Examen final enero 19/1/17 Curso 2016/17 Soluciones Duración del examen: 2 h y 15 min

Estadística aplicada al medio ambiente

D I S T R I B U C I O N E S B I D I M E N S I O N A L E S

INTRODUCCIÓN AL ANÁLISIS DE DATOS ORIENTACIONES (TEMA Nº 4)

= 15 CALIFICACION:

Modelo de Regresión Lineal

Estadística aplicada a la comunicación

ANÁLISIS ESTADÍSTICO REGRESIÓN LINEAL SIMPLE

Se permite un folio escrito por las dos caras. Cada problema se realiza en hojas diferentes y se entregan por separado.

Tema 7: Introducción a la Teoría sobre Estimación

ASIGNATURA: ESTADISTICA II (II-055) Ing. César Torrez

T2. El modelo lineal simple

Unidad 1 DISTRIBUCIONES MUESTRALES Objetivo particular El alumno identificará distribuciones discretas y continuas, obtendrá la probabilidad de

Repaso Estadística Descriptiva

DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS

Tema 2: Análisis de datos bivariantes

478 Índice alfabético

Representaciones gráficas de las distribuciones bidimensionales de frecuencias... 74

Part I. Descripción estadística de dos variables. Estadística I. Mario Francisco. Variable. bidimensional. Distribuciones de frecuencias

Método de cuadrados mínimos

Análisis de regresión y correlación lineal

TEMA 3 Modelo de regresión simple

Estadística II Examen final junio 27/6/17 Curso 2016/17 Soluciones

ESTADÍSTICA CÁTEDRA I. Unidad 7

Principios de Bioestadística

REGRESIÓN Y ESTIMACIÓN TEMA 1: REGRESIÓN LINEAL SIMPLE

Estudio descriptivo de dos variables

El modelo de regresión múltiple

Tema 9: Introducción al problema de la comparación de poblaciones

Correlación. El coeficiente de correlación mide la fuerza o el grado de asociación entre dos variables (r)

Regresión lineal. Marcelo Rodríguez Ingeniero Estadístico - Magíster en Estadística

7. ANÁLISIS DE VARIABLES CUANTITATIVAS: REGRESIÓN LINEAL SIMPLE

Estadística Estadística descriptiva bivariante

Qué es? Primer paso Representación en un sistema de coordenadas. numéricos Cada punto muestra el valor de cada pareja de datos (X e Y)

ESTADÍSTICA APLICADA A LA EDUCACIÓN (Tema 11) Asignatura de Formación Básica (FB) de 1º curso, común a los Grado en Educación Social y en Pedagogía

Tema 2: Análisis de datos bivariantes

VARIABLES ESTADÍSTICAS BIDIMENSIONALES

Curso de nivelación Estadística y Matemática

peso edad grasas Regresión lineal simple Los datos

Estadística I Tema 3: Análisis de datos bivariantes

TEMA 4 Modelo de regresión múltiple

Unidad Temática 3: Estadística Analítica. Unidad 9 Regresión Lineal Simple Tema 15

Los estimadores mínimo cuadráticos bajo los supuestos clásicos

T3. El modelo lineal básico

Escuela de Economía Universidad de Carabobo Profesor: Exaú Navarro Pérez.

Regresión: implica la obtención de una ecuación mediante la que podamos estimar el valor medio de una variable.

ESTADÍSTICA APLICADA A LA EDUCACIÓN (Tema 11) Asignatura de Formación Básica (FB) de 1º curso, común a los Grado en Educación Social y en Pedagogía

U ED Tudela Introducción al Análisis de Datos - Tema 4

Distribuciones Bidimensionales.

Unidad Temática 3: Estadística Analítica. Unidad 9 Correlación y Regresión Lineal Simple

ANEXO VI. DETALLE ESTADÍSTICO

TEMA 2: DISTRIBUCIONES BIDIMENSIONALES

Distribuciones bidimensionales

Universidad Central del Este UCE Facultad de Ciencias de la Salud Escuela de Medicina

CALIFICACION: 287,33 218, sí 1 sí 1. Se especifica el siguiente modelo de regresión para el precio de las viviendas: G i =

Información sobre Gastos de Consumo Personal y Producto Interno Bruto ( ) en miles de millones de dólares de 1992.

TEMA N 1.- ANÁLISIS DE REGRESIÓN Y MÉTODO DE MÍNIMOS CUADRADOS

Conceptos básicos de inferencia estadística (III): Inferencia no paramétrica: Contrastes de bondad de ajuste.

Estadística II Examen Final 19/06/2015 Soluciones. Responda a las preguntas siguientes en los cuadernillos de la Universidad

Estadística II Examen final junio - 17/06/16 Curso 2015/16 Soluciones Duración del examen: 2 h. y 45 min.

TEMA 2 Diseño de experimentos: modelos con varios factores

Dos variables x e y están relacionadas funcionalmente cuando conocida la primera se puede saber con exactitud el valor de la segunda.

Tema 15: Contrastes de hipótesis sobre algunos parámetros

Regresión múltiple. Demostraciones. Elisa Mª Molanes López

ESTADÍSTICA. DISTRIBUCIÓN BIDIMENSIONAL

Tema 7. Contrastes no paramétricos en una población

Variables estadísticas bidimensionales

Estadística Inferencial

1 Introducción. 2 Modelo. Hipótesis del modelo. MODELO DE REGRESIÓN SIMPLE Julián de la Horra Departamento de Matemáticas U.A.M.

Estadística Diplomado

PRÁCTICA 3. REGRESIÓN LINEAL SIMPLE CON SPSS Ajuste de un modelo de regresión lineal simple Porcentaje de variabilidad explicado

MODELO DE RESPUESTAS Objetivos 2, 3, 4, 5, 6, 7, Y 8.

INDICE. Prólogo a la Segunda Edición

5.5 Modelo de regresión. se especificó en los términos siguientes: (6.3.1) 1,2,3,..N. Donde:

Inferencia Estadística. Pruebas paramétricas y no paramétricas. Análisis de datos

Estadística II Ejercicios Tema 5

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

Tema 9: Estadística en dos variables (bidimensional)

Transcripción:

Tema 10: Introducción a los problemas de Asociación y Correlación Estadística 4 o Curso Licenciatura en Ciencias Ambientales Licenciatura en Ciencias Ambientales (4 o Curso) Tema 10: Asociación y Correlación Curso 2009-2010 1 / 18

Índice 1 Asociación entre caracteres 2 Contraste chi cuadrado 3 Medidas de asociación 4 Correlación y regresión entre variables 5 Correlación y Regresión Lineal Simple 6 Inferencia en el Modelo de Regresión Lineal 7 Correlación Lineal 8 Predicciones Licenciatura en Ciencias Ambientales (4 o Curso) Tema 10: Asociación y Correlación Curso 2009-2010 2 / 18

Asociación entre caracteres Sea X una variable cualitativa con modalidades A 1,, A k, e Y otra variable cualitativa con modalidades B 1,, B l, ambas definidas en la misma población Estamos interesados en saber si las variables X e Y presentan relación Los parámetros de interés serán las probabilidades condicionadas P(A i B j ) que representan la probabilidad de que un individuo que presenta la modalidad B j del carácter Y presente la modalidad A i de la variable X También en este caso son de interés las probabilidades condicionadas P(B j A i ) Las variables X e Y son independientes si P(A i B 1 ) = = P(A i B l ) para i = 1,, k es decir, si la probabilidad de que un individuo presente una determinada modalidad de X no depende de qué modalidad de Y presente dicho individuo Licenciatura en Ciencias Ambientales (4 o Curso) Tema 10: Asociación y Correlación Curso 2009-2010 3 / 18

Asociación entre caracteres Tablas de contingencia En la situación anterior resolveremos el problema en base a una muestra de n individuos Los datos se representan en una tabla de contingencia: B 1 B j B l Total A 1 n 11 n 1j n 1l n 1 A i n i1 n ij n il n i A k n k1 n kj n kl n k Total n 1 n j n l n Frecuencias absolutas de la muestra (valores observados) n ij número de individuos que presentan simultáneamente la modalidad A i de la variable X y la modalidad B j de la variable Y n i número de individuos que presentan la modalidad A i de la variable X n j número individuos que presentan la modalidad B j de la variable Y Licenciatura en Ciencias Ambientales (4 o Curso) Tema 10: Asociación y Correlación Curso 2009-2010 4 / 18

Asociación entre caracteres Frecuencias relativas de la muestra f ij = n ij n = P(A i B j ), f i = n i n = P(A i ), f j = n j n = P(B j ) f ij es la probabilidad estimada de que un individuo presente simultáneamente la modalidad A i de la variable X y la modalidad B j de la variable Y Frecuencias por filas de la muestra P(B j A i ) = n ij n i es la probabilidad estimada de que un individuo que presenta la modalidad A i de la variable X presente la modalidad B j del carácter Y Frecuencias por columnas de la muestra P(A i B j ) = n ij es la probabilidad de que un individuo que presenta la modalidad B j n j del carácter Y presente la modalidad A i de la variable X Licenciatura en Ciencias Ambientales (4 o Curso) Tema 10: Asociación y Correlación Curso 2009-2010 5 / 18

Asociación entre caracteres Valores esperados Se calculan mediante la expresión E ij = n in j n Son los valores que cabría esperar para n ij si las variables X e Y fueran independientes Por lo tanto, bajo la hipótesis de independencia, todas las cantidades n ij E ij deberían ser próximas a 0 Si hemos comprobado que hay relación, para saber a cual de las categorías de X o de Y hemos de atribuir la relación entre ambas variables, hemos de buscar en la tabla los valores de n ij E ij más altos Licenciatura en Ciencias Ambientales (4 o Curso) Tema 10: Asociación y Correlación Curso 2009-2010 6 / 18

Contraste chi cuadrado Planteamos el contraste de hipótesis del siguiente modo: H 0 : P(A i B 1) = = P(A i B l) para i = 1,, k H 1 : estas probabilidades no son iguales para algún i dicho de forma intuitiva: H 0 : H 1 : las variables X e Y son independientes hay relación entre las variables El valor experimental se calcula mediante la fórmula: χ = X i,j (n ij E ij) 2 E ij Rechazamos H 0 al nivel α si χ > χ 2 (k 1)(l 1),α Este test no sería válido si más del 25% de los valores E ij son menores que 5 Licenciatura en Ciencias Ambientales (4 o Curso) Tema 10: Asociación y Correlación Curso 2009-2010 7 / 18

Medidas de asociación En caso de ser significativo el contraste anterior, calculamos grado de relación con el coeficiente de contingencia de Pearson n 2 ij χ C = χ + n = i,j E ij n n 2 ij i,j E ij Si q = min{l, k} entonces C toma valores entre 0 (asociación nula o independencia) y (q 1)/q (asociación máxima) Para tablas 2 2 tenemos el coeficiente Φ definido Φ = χ n = (n 11 n 22 n 12 n 21 ) 2 n 1 n 2 n 1 n 2 Φ toma valores entre 0 (asociación nula o independencia) y 1 (asociación máxima) Licenciatura en Ciencias Ambientales (4 o Curso) Tema 10: Asociación y Correlación Curso 2009-2010 8 / 18

Correlación y regresión entre variables En este tema estudiaremos cómo determinar si existe relación entre dos variables cuantitativas X e Y, así como algunos coeficientes para, caso de existir, determinar la fuerza de dicha asociación Al mismo tiempo que daremos respuesta a estos problemas, desarrollaremos un modelo que relaciona X e Y aunque no de forma determinística, sino admitiendo la existencia de una componente aleatoria, debida al azar y a otros elementos del experimento estadístico que no se han tenido en cuenta en el análisis Dicho modelo se denomina Modelo de Regresión Lineal Licenciatura en Ciencias Ambientales (4 o Curso) Tema 10: Asociación y Correlación Curso 2009-2010 9 / 18

Correlación y regresión entre variables Modelo General de Regresión Supongamos que estamos interesados en determinar la relación entre las siguientes variables: Y, variable aleatoria sobre una población (dependiente o respuesta) las variables que influyen en Y se llaman predictoras o regresoras Nos limitaremos al caso de una única variable predictora, X, definida sobre la misma población que Y La distribución de probabilidad de Y dependerá del valor que tome X No obstante, Y no está completamente determinada por X, ya que hay otras influencias aleatorias Esto se expresa mediante la ecuación: Y = f (X) + E (ecuación de regresión de Y sobre X) E, variable aleatoria no observable con media E[E] = 0 (error o ruido) Licenciatura en Ciencias Ambientales (4 o Curso) Tema 10: Asociación y Correlación Curso 2009-2010 10 / 18

Correlación y Regresión Lineal Simple Modelo de Regresión Lineal Si en el Modelo General de Regresión, la función f es una recta, entonces la regresión de Y sobre X es lineal Y = β 0 + β 1 X + E En la práctica, la ecuación anterior es imposible de determinar Nuestro problema se limita a la Inferencia (estimación puntual, intervalos de confianza y contraste de hipótesis) sobre los parámetros β 0 y β 1 Intuitivamente, la pendiente de la recta, β 1, marca el crecimiento (o decrecimiento) de la variable Y por cada unidad que crece la variable X Licenciatura en Ciencias Ambientales (4 o Curso) Tema 10: Asociación y Correlación Curso 2009-2010 11 / 18

Correlación y Regresión Lineal Simple Otros parámetros de interés: correlación lineal Algunos parámetros cuantificarán el grado de relación entre X e Y y el sentido de la misma Son la Covarianza poblacional (σ xy ) y el Coeficiente de Correlación Lineal (ρ) Se relacionan mediante la expresión Se verifica que ρ = σ xy σ x σ y, 1 ρ 1 Si β 1, σ xy, ρ < 0, la relación lineal es negativa (cuando crece X, decrece Y) Si β 1, σ xy, ρ = 0, no hay relación lineal, las variables son incorreladas, es decir, el comportamiento de X no afecta al de Y Si β 1, σ xy, ρ > 0, la relación lineal es positiva (cuando crece X también crece Y) Licenciatura en Ciencias Ambientales (4 o Curso) Tema 10: Asociación y Correlación Curso 2009-2010 12 / 18

Correlación y Regresión Lineal Simple Ejemplo 1 Se desea conocer si existe relación entre las concentraciones de nitrato y sulfato en un suelo Para ello se toman 20 muestras de tierra resultando estas concentraciones: SO 4 168 508 447 491 291 365 236 123 247 109 NO 3 174 333 233 203 303 343 027 298 022 137 SO 4 596 572 340 114 288 197 038 446 337 129 NO 3 213 45 134 107 048 221 228 462 157 252 Representamos las dos variables en la nube de puntos o diagrama de dispersión nitrato 1 2 3 4 NIT 1 2 3 4 1 2 3 4 5 6 1 2 3 4 5 6 SULF sulfato Licenciatura en Ciencias Ambientales (4 o Curso) Tema 10: Asociación y Correlación Curso 2009-2010 13 / 18

Correlación y Regresión Lineal Simple Inferencia en el Modelo de Regresión Lineal Como hemos visto en el Ejemplo, la inferencia se basará en una muestra aleatoria simple ambas variables X e Y, medidas sobre los mismos individuos Estimación puntual Los estimadores de los parámetros del modelo son: ˆσ xy = s xy = 1 n 1 Y y 1 y 2 y 3 y n X x 1 x 2 x 3 x n nx (x i x)(y i ȳ), ˆρ = r = sxy, 1 r 1 s i=1 xs y La recta de regresión lineal estimada de Y sobre X es la recta que mejor se ajusta a la nube de puntos de un determinado conjunto de datos (ajuste de mínimos cuadrados) y sus coeficientes se calculan son: s s ˆβ 1 = sxy s s 2, E 1 = 2 x (n 1)s 2, ˆβ0 = ȳ ˆβ 1 1 x, E 0 = s 2 x n + x 2 «(n 1)s 2 x siendo s 2 la varianza intrínseca muestral: s 2 = 1 X n n 2 (y i ( ˆβ 0 + ˆβ 1 x i )) 2 = n 1 i=1 n 2 (s2 y sxy ˆβ 1 ) Licenciatura en Ciencias Ambientales (4 o Curso) Tema 10: Asociación y Correlación Curso 2009-2010 14 / 18

Correlación y Regresión Lineal Simple Intervalos de confianza Hemos de suponer que E N(0, σ) A un nivel de confianza 1 α: Para β 1 : I 1 = [ ˆβ 1 ± E 1 t n 2,α/2 ] Para β 0 : I 0 = [ ˆβ 0 ± E 0 t n 2,α/2 ] Contraste de hipótiesis Supondremos también que E N(0, σ) La hipótesis más interesante a contrastar es que hay relación entre las variables, es decir, H 0 : β 1 = 0 H 1 : β 1 0 H 0 : no hay relación lineal entre X e Y H 1 : sí hay relación lineal entre X e Y El estadístico de contraste es: T = ˆβ 1 E 1 Rechazamos H 0 al nivel α si T > t n 2,α/2 (equivalentemente si 0 I 1 ) Licenciatura en Ciencias Ambientales (4 o Curso) Tema 10: Asociación y Correlación Curso 2009-2010 15 / 18

Correlación y Regresión Lineal Simple Grado de relación entre las variables Intuitivamente, si aceptamos H 0 la variable X desaparece de la ecuación Y = β 0 + β 1 X + E es decir, toda la variabilidad de Y es aleatoria Por el contrario si aceptamos H 1, entonces parte de la variabilidad de Y es debida a X y habrá relación entre X e Y El grado de relación y el signo de la misma nos lo dan ˆσ xy = s xy, ˆρ = r Este último coeficiente está entre -1 y 1, y por tanto su magnitud puede ser comparada con estas cantidades Así su proximidad a -1 ó a 1 nos da idea de una asociación lineal fuerte mientras que su proximidad a 0 de una asociación débil Coeficiente de determinación Al valor r 2 se le denomina coeficiente de determinación Mide el grado de asociación lineal (sin signo) entre X e Y Intuitivamente, r 2 se puede interpretar como el tanto por 1 de la variabilidad de Y que queda explicada por la variable X Licenciatura en Ciencias Ambientales (4 o Curso) Tema 10: Asociación y Correlación Curso 2009-2010 16 / 18

Correlación y Regresión Lineal Simple Predicciones en el modelo de regresión lineal La recta de regresión estimada Y = ˆβ 0 + ˆβ 1 X puede ser utilizada para realizar predicciones Sea x 0 un valor observado de la variable X, que se corresponde con un valor y 0 de la variable Y que no hemos observado Aunque no conozcamos y 0, la recta anterior nos permite hacer inferencia sobre este valor Así su estimación será ŷ 0 = ˆβ 0 + ˆβ 1 x 0 Si además E N(0, σ) podemos dar un intervalo de confianza al nivel 1 α para y 0 : [ ( ŷ 0 ± s 2 1 + 1 n + (x ) ] 0 x) 2 (n 1)s 2 t n 2,α/2 x Estas predicciones sólo serán fiables si hemos probado que hay relación entre las variables y el coeficiente de determinación r 2 es alto Licenciatura en Ciencias Ambientales (4 o Curso) Tema 10: Asociación y Correlación Curso 2009-2010 17 / 18