UNIVERSIDAD NACIONAL DE LA PLATA FACULTAD DE CIENCIAS NATURALES Y MUSEO CÁTEDRA DE ESTADÍSTICA CLASE ESPECIAL Tema: Correlación múltiple y parcial. Ecuaciones y planos de regresión La Plata, septiembre de 2014 Correlación múltiple y parcial. Ecuaciones y planos de regresión Contenido: Correlación y regresión simple Introducción al análisis multivariado Correlación múltiple y parcial Ecuaciones y planos de regresión 1
Correlación y regresión simple. El análisis bivariado analiza la relación entre 2 variables. (Correlación y regresión) Correlación lineal: Mide el grado de relación entre 2 variables (X e Y). Coeficiente de correlación lineal (r), o del producto momento de Pearson (varía entre ± 1 y 0) rxy = Sxy /SxSy Donde: Sxy es la covarianza de x e y; Sx y Sy son los desvíos estándar de x e y (raíz cuadrara de las varianzas). Ecuación de la regresión lineal simple (ecuación de la recta): Y i = α + βx i Donde: Y: var dependiente X: var. Independiente α: ordenada al origen (intersección) β: pendiente (coeficiente de regresión) (α y β con parámetros poblacionales) Como en una población es improbable que los datos se ubiquen en una recta: Y i = α + βx i + ε i (donde ε i : error o residuo) Ecuación de regresión muestral: Ŷ i = a + bx i Los estadísticos a y b son estimadores de α y β (parámetros poblacionales). 2
ANOVA de la regresión: Evalúa la significancia del modelo de regresión. F = Var Explicada Var Residual (no explicada) (Y Y) 2 = (Ŷ Y) 2 + (Y Ŷ) 2 Variación total = Variación explicada + Variación no explicada Y: valor observado o real Y: media aritmética de X Ŷ: valor estimado de X con la ecuación de la recta de regresión r = ± Var Expl/Var Total Coeficiente de determinación (R 2 ): Porcentaje de variación explicado por el modelo de regresión Ejemplo 1: Análisis de regresión lineal simple x y ŷ 2 5 5,9 4 7 8,3 6 14 10,8 8 12 13,2 10 18 15,7 12 16 18,2 7 12 a = 3,40 b = 1,23 r = 0,90 R 2 = 0,81 y = 3,4 + 1,23 x 3
Análisis multivariado Cuando tenemos más de 3 variables y queremos analizar su relación podemos realizar un análisis de la correlación y regresión múltiple. Ejemplos: Crecimiento de una planta en función de variables climáticas y edáficas. Contenido de materia orgánica de una laguna en función de la temperatura del agua, ph, vientos, etc. Tasa de reproducción de un insecto en función del alimento, la humedad, el tiempo de desarrollo, etc. Nivel de contaminación de un área en función de características climáticas, urbanísticas e industriales. Tenor extraíble de un oligoelemento en función de las características del sustrato (materia orgánica, ph, arcillas). Correlación múltiple y parcial: La correlación múltiple mide el grado de correlación que existe entre 3 o más variables. Se asume distribución normal multivariada. Coeficiente de Correlación Múltiple (R y.1 k ): mide la covariación conjunta de una variable (Y) con otras variables (X1, X2). R = 1 S2 1.23 S²1 Donde S 1 es la desviación típica de la variable dependiente (Y). S 1.23 es el error típico de la estimaciones de Y a partir de las dos variables independientes (X 1 y X 2 ) utilizando la ecuación de regresión múltiple. 4
Correlación múltiple y parcial: En el análisis de regresión múltiple R mide el grado de ajuste entre los valores reales y los valores estimados (0 y +1). El coeficiente de correlación múltiple (R) es la raíz cuadrada positiva (+) del Coeficiente de Determinación Múltiple (R²). Debido a que R² no está ajustado al número de grados de libertad, tiende a sobreestimar al parámetro poblacional ρ² y.1 k. Puede mejorarse si se calcula: R²aj = 1 (1 - R²)(n-1/n-k-1) Donde: R²aj: Coeficiente de Determinación ajustado. n: número de observaciones; k: número de variables independientes en el modelo. Correlación múltiple y parcial: Coeficiente de correlación parcial: Mide la correlación entre un par de variables (1 y 2) manteniendo las demás variables (3) constantes. r 12.3 = r 12 - r 13 r 2 (1 - r 2 13) (1 - r 2 23) Donde: r 12.3 es el coeficiente de correlación parcial entre las variables 1 y 2, manteniendo la variable 3 constante; y r 12, r 13, r 23 son los coeficientes de correlación simple entre cada par de variables. 5
Ejemplo de cálculo de la correlación parcial: X1: longitud de antena X2: longitud de Ala X3: longitud de tórax r 12 = 0,85 r 13 = 0,75 r 23 = 0,86 r A12 - r 13 r 23 0,85 (0,75)(0,86) r 12.3 = = = 0,61 (1 - r 2 13) (1 - r 2 23) (1 0,75 2 )(1 0,86 2 ) La correlación parcial entre la variable longitud de la antena (X1) y longitud del ala (X2), manteniendo constante la variable longitud de tórax (X3) es de 0,61. A pesar de que la longitud del tórax podría explicar el tamaño general, no es suficiente para explicar la correlación entre la antena y el ala. Interpretación de la correlación parcial: La correlación entre Y1 y Y2 (r 12 ) se debe a una causa común (Y4), pero como otras variables (Y3, Y5) también determinan su valor, la correlación entre estas variables no será perfecta. La correlación parcial r 12.4, debiera dar un valor de r cercano a 0 (cero), ya que no existe covariación entre las variables Y1 y Y2 cuando Y4 no varía. Ejemplo: puede ser interesante analiza la relación entre distintas partes de un organismo (cabeza, tórax, alas, brazos, piernas), manteniendo el tamaño total del mismo constante. 6
Ecuaciones y planos de regresión: El análisis de estimación de una variable dependiente (Y) en función de varias variables independientes (X 1, X 2,, X n ), se denomina regresión múltiple. Permite analizar de qué modo una variable depende de las variaciones en otras variables. Ecuación de regresión lineal múltiple para estimar una variable dependiente (Y) a partir de dos variables independientes (X 1 ; X 2 ): Y j = α + β 1 X 1j + β 2 X 2j Donde: Yj es la variable dependiente X 1 y X 2 : son las variables independientes. α : constante, intersección, valor de Y cuando X 1, y X 2 son igual a cero. β 1 y β 2 : coeficientes de regresión parcial. Expresan cuanto cambia Y en respuesta a un cambio en X 1 o X 2 manteniendo las otras constantes o invariantes. Ecuaciones y planos de regresión: Podemos definir la ecuación en su forma muestral: Ŷ j = a + b 1 X 1j + b 2 X 2j Donde : a es estimador de α; y b 1 y b 2 son estimadores de β 1 y β 2 respectivamente. Este modelo se denomina regresión lineal múltiple debido a la naturaleza lineal (aditiva) de los parámetros de la ecuación (α y β). 7
Ecuaciones y planos de regresión: Un modelo de regresión múltiple (Y; X1 y X2) en un sistema de coordenadas rectangulares tridimensional, se representa con un plano de regresión de Y sobre X 1 y X 2. Con n variables independientes, se define un espacio multidimensional ( superficie de respuesta o hiperplano ). Ecuaciones y planos de regresión: Del mismo que en el caso de la regresión simple, no todos los datos poblacionales se ubicarán sobre el plano, por lo que incluimos un error (ε i ). Y j = α + β 1 X 1j + β 2 X 2j + ε i ε i : es una medida del error o diferencia entre el valor real y el valor estimado por la ecuación (su suma también es cero). 8
Análisis de regresión múltiple (ARM): Analiza la relación entre una variable dependiente (Y) respecto a o en función de un conjunto de variables independientes (X 1 a Xn) en forma simultánea, computando la función lineal que mejor ajuste a los datos (por mínimos cuadrados). Los objetivos del ARM son: i) Establecer una ecuación lineal que permita predecir una porción significativa de la varianza de una variable dependiente (Y) en función de un conjunto reducido de variables independientes (X1,, Xn). ii) Estimar y ajustar un modelo estructural que explique las variaciones observadas en la variable dependiente (Y) en función de las variables independientes consideradas. Ejemplo: Análisis de regresión múltiple (Y; X 1; X 2 ) Y: concentración media anual de SO 2 (ug/m 3 ) 4 variables climáticas: X1: temperatura media anual (º F) X4: velocidad media anual del viento (millas/hora). X5: precipitación media anual (pulgadas) X6: número de días con precipitación al año 2 variables antrópicas: X2: número de fábricas con más de 20 empleados. X3: tamaño poblacional humana (en miles) Datos de Sokal & Rohlf (1995). Procesados con Statistica (7.1) 9
Ejemplo 2: Análisis de regresión múltiple (Y; X 1; X 2 ). Ejemplo 2: Análisis de regresión múltiple (Y; X 1; X 2 ). Ŷ = 77,24 1,05 X 1 + 0,02 X 2 R² = 11,374,09 / 22,037,90 = 0,516 R = R² = 0,5161 = 0,7184 R²aj = 1 (1 - R²)(n-1/n-k-1) = 1 (1 0,516)(41-1/41-2-1) = 0,4906 10
Ejemplo 3: Análisis de regresión múltiple (Y; X 1; X 2; X 3 ). Ŷ = 58,20 0,59 X 1 + 0,07 X 2 0,05 X 3 R² = 13,499,25 / 22,037,90 = 0,613 R = R² = 0,613 = 0,783 Ejemplo 3: Análisis de regresión múltiple (Y; X 1; X 2; X 3 ) Estimación de Y a partir del modelo: Ŷ = 58,20 0,59 X 1 + 0,07 X 2 0,05 X 3 Ciudad 1: X 1 (Temperatura media anual): 70,3 º F X 2 (Número de fábricas con más de 20 empleados): 213 X 3 (Tamaño poblacional humana, en miles): 582.00 0 hab. Ŷ = 58,183 (0,5868)(70,3) + (0,07128)(213) (0,04670)(582) = Y = 4,9 ug SO2/m3 Ŷ (estimado) = 4,9 ug SO2/m3 Y (observado) = 10 ug SO2/m3 11
Resultados Análisis de Regresión Múltiple Ejemplo 2: ARM (Y; X 1; X 2 ) Y = 77,24 1,05 X 1 + 0,02 X 2 R² = 11,374,09 / 22,037,90 = 0,516 R = R² = 0,7184 Ejemplo 3: ARM (Y; X 1; X 2; X 3 ) Y = 58,20 0,59 X 1 + 0,07 X 2 0,05 X 3 R² = 13,499,25 / 22,037,90 = 0,613 R = R² = 0,613 = 0,783 A medida que incremento el número de variables mejora el ajuste del modelo, lo que significa que las nuevas variables independientes muestran una correlación parcial con la variable dependiente. Análisis de regresión múltiple paso a paso A medida que aumentamos el número de variables independientes en un modelo se espera que se incremente el valor del coeficiente de correlación múltiple ( R), salvo que las nuevas variables no estén asociadas con la variable dependiente. Todas las variables aportan por igual al modelo? Cómo seleccionar aquellas que tienen mayor peso relativo? Análisis de regresión múltiple paso a paso: Forward (agregando) or Backward (eliminando) progresivamente. 12
Análisis de regresión múltiple paso a paso Los criterios de selección de variables pueden ser (Forward): i) Aquellas que producen un incremento significativo en el valor de R² (Coeficiente de determinación múltiple). A tal fin, se puede seleccionar aquella variable que tiene el mayor valor de correlación parcial (r y.1 k ). ii) Calcular el valor de F correspondiente al test de significancia del incremento de R² debido a la inclusión de la nueva variable ( valor de F para entrar ). Se incorpora aquella variable que tenga el mayor valor, sólo si es significativo a un nivel especificado. Ambos criterios son coincidentes. El proceso se detiene cuando el valor de F es no significativo en relación a un nivel nominal de P ( valor de P para entrar ). Ejemplo 4: Análisis de regresión múltiple paso a paso (Stepwise: Forward) (Y; X n ). 13
Ejemplo 4: Análisis de regresión múltiple paso a paso (Stepwise: Forward) (Y; X n ). Ejemplo 4: Análisis de regresión múltiple paso a paso (Stepwise: Forward) (Y; X n ). 14
Ejemplo 4: Análisis de regresión múltiple paso a paso (Stepwise: Forward) (Y; X n ). Ejemplo 4: Análisis de regresión múltiple paso a paso A medida que aumentamos el número de variables independientes en un modelo se incrementa el valor del coeficiente de correlación múltiple ( R), salvo que las nuevas variables no estén asociadas con la variable dependiente. Podemos observar el incremento de la varianza explicada y la reducción progresiva de la varianza NO explicada a medida que incluimos nuevas variables independientes (Forward). Del mismo modo podemos ver el efecto de eliminar progresivamente variables independientes del análisis sobre la varianza No explicada (errores o residual), eliminando del modelo aquellas variables que no aporten significativamente al modelo (Backward). De este modo podemos definir aquel modelo de regresión múltiple que tenga el mejor ajuste con el menor número de variables independientes. 15
UNLP FCNYM CLASE ESPECIAL MUCHAS GRACIAS La Plata, septiembre de 2014 Interpretación geométrica de la correlación parcial. Se observa un elipsoide tridimensional con sus respectivas proyecciones bidimensionales (sombreadas). El elipsoide se corta para Y2 = C, generando una elipse que representa la covariación de las variables Y1 y Y3 cuando la variable Y2 se mantiene constante (e igual a C), a medida que esa elipse sea más alargada, mayor será la correlación parcial entre Y1 y Y3. 16