Unidad Temática 3: Estadística Analítica Unidad 9 Correlación y Regresión Lineal Simple
Análisis de Correlación Creado por Karl Pearson en 1920. Tiene el propósito de medir el grado de asociación observado entre dos variables cuantitativas continuas o discretas. Prueba si el valor de correlación pudo haber sido obtenido únicamente por azar o existe realmente asociación. No se distingue entre variables. Es más bien un estudio exploratorio. No implica necesariamente una relación causa-efecto. Cuando se analiza una correlación, se debe estar muy atento para no atribuir equivocadamente una simple asociación a una relación causa-efecto.
Estadística Analítica CORRELACIÓN LINEAL SIMPLE Indica la fuerza y la dirección de una relación lineal proporcional entre dos variables cuantitativas. Es decir, si los valores de una de ellas varían sistemáticamente con respecto a los de la otra. REGRESIÓN LINEAL SIMPLE Permitiendo expresar si existe una relación funcional entre dos variables cuantitativas, el tipo de relación existente y llegar a conocer con que precisión se relacionan entre sí. Los métodos de regresión se usan para determinar la mejor relación funcional entre las variables (Ostle, 1970).
OBJETIVOS Correlación Lineal Permite determinar si dos variables se asocian entre sí y en que sentido se da dicha asociación. Regresión Lineal Si los valores de una variable pueden ser utilizados con el objeto de poder predecir los valores de la otra variable. Con el propósito de cubrir estos objetivos, tendremos que echar mano a algún tipo de función matemática: Función Lineal
Aplicaciones y ejemplos rápidos: Estimar si existe relación entre el peso corporal y el perímetro su perímetro torácico de novillos. Concentración de sustancias tóxicas en la carne y absorbancia. Crecimiento de bacterias y factores de crecimiento en el medio de cultivo. Actividad de una enzima y ph del medio de cultivo. Consumo de alimento balanceado y peso corporal en pollos para carne.
Relación entre consumo de alimento balanceado y peso corporal en pollos. i Xi = Peso (lb) Yi = Consumo 105 Y Diagrama de dispersión 1 4,6 87,1 2 5,1 93,1 3 4,8 89,8 4 4,4 91,4 5 5,9 99,5 6 4,7 92,1 7 5,1 95,5 100 95 90 85 4 4,5 5 5,5 6 X 8 5,2 99,3 9 4,9 93,4 10 5,1 94,4 Eje de Y = Consumo Eje de X = Peso Tomado: Steel & Torrie, (1992) Cap. 10.
Análisis de Correlación Su valor puede variar entre -1 a 1, y el valor cero significa ausencia total de correlación. El signo (+) o (-), indica si existe una relación directa o inversamente proporcional, respectivamente. El coeficiente de correlación se calcula como el cociente de la covariancia entre las variables estudiadas, sobre la raíz cuadrada del producto de las variancias de X e Y.
ANÁLISIS DE REGRESIÓN Reconocida la dispersión que se configura en los datos observados, busca encontrar algún modelo o función que se ajuste a la variación observada. Para ello podemos echar mano al: ajuste por función lineal, cuadrática, logarítmica, etc. Con los datos que tienen un comportamiento aleatorio como los observados en el ejemplo del consumo de los pollos, estimaremos un modelo de ajuste por el Método de Regresión Lineal o ajuste de curvas, para ello utilizaremos el Método de los Mínimos Cuadrados en la próxima clase.
Análisis de Correlación El coeficiente de correlación de Pearson lo designaremos con la letra r o R y queda configurado en la siguiente ecuación: R = ( Yi Y )( Xi X ) ( ) 2 Yi Y ( Xi X ) 2 El numerador se denomina suma de productos cruzados y corresponde a la covarianza de ambas variables. El denominador corresponde a la suma de cuadrados de la varianza de las variables de manera independiente.
CALCULOS i Peso (X) (Xi X) (Xi X) 2 Consumo (Y) (Yi Y) (Yi Y) 2 S(xy) 1 4,6-0,38 0,1444 87,1-6,48 41,99 2,4624 2 5,1 0,12 0,0144 93,1-0,48 0,2304-0,058 3 4,8-0,18 0,0324 89,8-3,78 14,288 0,6804 4 4,4-0,58 0,3364 91,4-2,18 4,7524 1,2644 5 5,9 0,92 0,8464 99,5 5,92 35,046 5,4464 6 4,7-0,28 0,0784 92,1-1,48 2,1904 0,4144 7 5,1 0,12 0,0144 95,5 1,92 3,6864 0,2304 8 5,2 0,22 0,0484 99,3 5,72 32,718 1,2584 9 4,9-0,08 0,0064 93,4-0,18 0,0324 0,0144 10 5,1 0,12 0,0144 94,4 0,82 0,6724 0,0984 n = 10 X = 4,98 0 1,536 Y = 93,56 0 135,61 11,812 Eje de Y = Consumo de balanceado Eje de X = Peso corporal pollos
Existe una fuerte relación lineal positiva entre ambas variables, es decir, cuando los valores de una variable aumentan también lo hacen los de la otra. Análisis de Correlación Remplazando valores tendremos: R = 11,812 ( 135,61)( 1,536) = 0,818 Cuál es el significado de este valor obtenido?
Análisis de Correlación Prueba de hipótesis para r : Ho) R = 0 H1) R ǂ 0 t = r 0 ( 2 1 R ) ( n 2) = t (n - 2) Conclusión: Si rechazo la Ho) concluimos que ambas variables se correlacionan linealmente entre sí, ya que el coeficiente de r es distinto de cero.
MÉTODO DE AJUSTE DE LA RELACIÓN Reconocida la dispersión podemos buscar algún modelo o función que permita explicar la variación observada. El ajuste puede se por función lineal, cuadrática, logarítmica, etc. Con los datos que tienen un comportamiento aleatorio como los observados en el ejemplo del consumo de los pollos, estimaremos un modelo de ajuste por el Método de Regresión Lineal o ajuste de curvas, para ello utilizaremos el Método de los Mínimos Cuadrados. Debemos considerar una variable como independiente y a la otra como dependiente o respuesta.
MÉTODO DE LOS MÍNIMOS CUADRADOS Minimiza la suma de los cuadrados de las desviaciones de los puntos observados con respecto a la recta. en la Recta ajustada, Y = a + bx, donde a y b se denominan coeficientes de regresión, la recta se llama recta de regresión, y la función es la ecuación de regresión. Ŷ = β 0 + β 1 X Para estimar los coeficientes de regresión, echaremos mano a la suma de los productos cruzados de las desviaciones de las observaciones respecto de sus medias.
CALCULO DE LOS COEFICIENTES Cálculo del coeficiente, pendiente de la recta ( 1 ): 1 xy = 2 Cálculo de la suma de productos (covariancia): n x xy = ( X X )( Y Y ) Cálculo de la suma de cuadrados de la variable Xi, o variancia de X: x 2 n = ( X X ) 2
CALCULOS i Peso (X) (Xi X) (Xi X) 2 Consumo (Y) (Yi Y) (Yi Y) 2 S(xy) 1 4,6-0,38 0,1444 87,1-6,48 41,99 2,4624 2 5,1 0,12 0,0144 93,1-0,48 0,2304-0,058 3 4,8-0,18 0,0324 89,8-3,78 14,288 0,6804 4 4,4-0,58 0,3364 91,4-2,18 4,7524 1,2644 5 5,9 0,92 0,8464 99,5 5,92 35,046 5,4464 6 4,7-0,28 0,0784 92,1-1,48 2,1904 0,4144 7 5,1 0,12 0,0144 95,5 1,92 3,6864 0,2304 8 5,2 0,22 0,0484 99,3 5,72 32,718 1,2584 9 4,9-0,08 0,0064 93,4-0,18 0,0324 0,0144 10 5,1 0,12 0,0144 94,4 0,82 0,6724 0,0984 n = 10 X = 4,98 0 1,536 Y = 93,56 0 135,61 11,812 Eje de Y = Consumo de balanceado Eje de X = Peso corporal pollos R = 11,812 ( 135,61)( 1,536) = 0,818
CALCULO DE LOS COEFICIENTES Cálculo del coeficiente, pendiente de la recta: 11,812 = = 7,69 1 1,536 Cálculo de la ordenada al origen: Y + 1X X = = 0 1 0 = = 93,56 ( 7,69*4,98) Y X 0 1 0 0 Y = 55,26
Tablas: Cálculos Recta de regresión por Y-estimado i Yˆ = + 1X 0 i Yˆ = 55,26+ 7, 69X i Peso Xi Consumo (lbs) Yi 1 4,6 87,1 90,634 2 5,1 93,1 94,479 3 4,8 89,8 92,172 4 4,4 91,4 89,096 5 5,9 99,5 100,631 6 4,7 92,1 91,403 7 5,1 95,5 94,479 8 5,2 99,3 95,248 9 4,9 93,4 92,941 10 5,1 94,4 94,479 n = 10 X = 4,98 Y = 93,56 Ŷ
Gráfico: Diagrama de dispersión 105 Y = a + bx Ŷ = 0 + 1 X 100 95 90 85 4 4,5 5 5,5 6 105 Recta de regresión: es una línea recta que pasa a través de los puntos que minimiza la suma de los cuadrados de las diferencias entre los datos reales y los puntos ajustados. Modelo lineal ajustado 100 Ŷ = 55,26 + 7,69X 95 90 85 4 4,5 5 5,5 6