Regresón y correlacón smple 113 Captulo X ANALISIS DE REGRESION Y CORRELACION El análss de regresón consste en emplear métodos que permtan determnar la mejor relacón funconal entre dos o más varables concomtantes (o relaconadas), y el análss de correlacón, el grado de asocacón de las msmas. Es decr; no sólo se busca una funcón matemátca que exprese de que manera se realconan, sno tambén con que prescón se puede predecr el valor de una de ellas s se conoce los valores de las varables asocadas. ANALISIS DE REGRESION Una relacon funconal matemátcamente hablando, está dada por: Y f(x 1,...,x n ; θ 1,...,θ m ) (1) donde: Y : Varable respuesta (o dependente) x : La -ésma varable ndependente (1,...,n) θ j : El j-ésmo parámetro en la funcón (j1,...m) f : La funcón Para elegr una relacón funconal partcular como la representatva de la poblacón bajo nvestgacón, usualmente se procede: 1) Una consderacón analítca del fenómeno que nos ocupa, y ) Un examen de dagramas de dspersón. Una vez decddo el tpo de funcón matemátca que mejor se ajusta (o representa nuestro concepto de la relacón exacta que exste entre las varables) se presenta el problema de elegr un expresón partcular de esta famla de funcones; es decr, se ha postulado una certa funcón como térmno del verdadero estado en la poblacón y ahora es necesaro estmar los parámetros de esta funcón (ajuste de curvas). Como los valores de los parámetros no se pueden determnar sn errores por que los valores observados de la varable dependente no concuerdan con los valores esperados, entonces la ecuacón (1) replanteada, estadístcamente, sería: Y f(x 1,...x n ;θ 1,...,θ m ) + ε () donde ε respresenta el error cometdo en el ntento de observar la característca en estudo, en la cual muchos factores contrbuyen al valor que asume ε. REGRESION LINEAL SIMPLE Cuando la relacón funconal entre las varables dependente (Y) e ndependente (X) es una línea recta, se tene una regresón lneal smple, dada por la ecuacón donde: Y β o + β 1 X + ε βo : El valor de la ordenada donde la línea de regresón F. de Mendburu / Apuntes de clase - uso nterno. Grupo G / Martes -4, Mercoles -3 pm
Regresón y correlacón smple 114 se ntersecta al eje Y. β1 : El coefcente de regresón poblaconal (pendente de la línea recta) ε : El error. Supocsones de la regresón lneal 1. Los valores de la varable ndependente X son "fjos".. La varable X se mde sn error (se despreca el error de medcón en X) 3. Exsten subpoblacones de valores Y para cada X que están normalmente dstrbudos. 4. Las varancas de las subpoblacones de Y son todas guales. 5. Todas las medas de las subpoblacones de Y están sobre la msma recta. 6. Los valores de Y están nomalmente dstrbudos y son estadístcamente ndependentes. Las suposcones del 3 al 6 equvalen a decr que los errores son aleatoros, que se dstrbuyen normalmente con meda cero y varanca σ². Estmacón de parámetros La funcón de regresón lneal smple es expresado como: Y ß o + ß 1 X + ε (3) la estmacón de parámetros consste en determnar los parámetros ß o y ß 1 a partr de los datos muestrales observados; es decr, deben hallarse valores como bo y b1 de la muestra, que represente a ß o y ß 1, respectvamente. De la ecuacón (3), para un x determnado, se tene el correspondente Y, y el valor del error ε sería (Y -ß o -ß 1 X ) Empleando el método de los mínmos cuadrados, es decr mnmzando la suma de cuadrados de los errores, se determnan los valores de b o y b 1, así: Q Q (4) β ε ( y β β ) 0 1 x 0 Q β ( )( 1) 0 y β 0 β x 1 ( )( ) 0 y β β x x 0 1 1 (5) Al sstema formado por las ecuacones (4) y (5) se les denomna ecuacones normales. Resolvendo las ecuacones normales, se tene: b0 1 y b x F. de Mendburu / Apuntes de clase - uso nterno. Grupo G / Martes -4, Mercoles -3 pm
Regresón y correlacón smple 115 b 1 ( x x)( y y) ( x) x xy x ( )( ) x SPXY SCX ( ) n n x y donde: b 0 : es el valor que representa (estmador) a ß 0 b 1 : es el valor que representa (estmador) a ß 1 SPXY : denota a la suma de productos de X con Y, SCX : denota a la suma de cuadrados de X. Luego, la ecuacón de regresón es: yˆ b0+ b1 X El coefcente de regressón (b 1 ) Está expresado en las msmas undades de medda de la varable X. e ndca el número de undades que varía Y cuando se produce cambo en una undad en X (pendente de la recta de regresón). S b 1 0, se dce que no exste relacón lneal entre las dos varables y que estas son ndependentes. EJEMPLO: A contnuacón se desarrollara un ejemplo práctco que se rá explcando a través de los tópcos de regresón y correlacón a tratarse. Los datos de la sguente tabla representan las alturas (X) y los pesos (Y) de varos hombres. Se escogeron las alturas de antemano y se observaron los pesos de un grupo de hombres al azar que tenan las alturas escogdas, resultando: X(cm) 15 155 15 155 157 15 157 165 16 178 183 178 Y(kg) 50 61.5 54.5 57.5 63.5 59 61 7 66 7 84 8 Se asume que exste una relacón funconal entre X e Y, obtener la ecuacón de regresón. Solucón: En prmer lugar se observa que Yf(x), por tanto se asume que la varable altura (X) es ndependente y la varable peso (Y) es la dependente, luego se afrma que Y b o + b 1 X. Para ello se efectúan los sgtes cálculos: n 1, X 1946, x 16.167, Y 783, y 65.5 SCX X²-( X)²/1 316986- (1946)²/1 1409.667 SPXY XY-( X)( Y)/1 18199.5-(1946x783)/113 Luego, se calcula b o y b 1 : b o 65.5-(0.8676)(16.167) -75.446 b 1 13/1409.667 0.8676 Por tanto, la ecuacón buscada es: F. de Mendburu / Apuntes de clase - uso nterno. Grupo G / Martes -4, Mercoles -3 pm
Regresón y correlacón smple 116 yˆ 75.446+ 0. 8676X El valor de b 1 0.8676 ndca que por cada centímetro de aumento en la altura de los hombres, habrá un ncremento,en promedo, de 0.8676 kg en el peso de los msmos. Fuentes de varacón en la regresón lneal Los cálculos de regresón pueden ser vstos como un proceso de partcón de la suma total de cuadrados; así, gráfcamente se tene: Grafco FIG 1 Se observa que la desvacón total para un Y en partcular es gual a la suma de las desvacones explcada e nexplcada, smbolcamente. ( y y) ( yˆ y) + ( y yˆ ) Luego, ( y y) (ˆ y y) + ( y yˆ ) SCT SCR + SCE SCT: Suma de cuadrados del total SCR: Suma de cuadrados de la regreson SCE: Suma de cuadrados resdual Suma de Cuadrados del Total (SCT), mde la dspersón (varacón total) en los valores observados de Y. Este térmno se utlza para el cálculo de la varanca de la muestra. Suma de Cuadrados explcada (Suma de Cuadrados debdo a la Regresón, SCR) mde la varabldad total en los valores observados de Y en consderacón a la relacón lneal entre X e Y. Suma de Cuadrados nexplcada (Suma de Cuadrados del Error, SCE) mde la dspersón de los valores Y observados respecto a la recta de regresón Y (es la cantdad que se mnmza cuando se obtene la recta de regresón). Análss de Varanca para la regresón lneal smple Cuando cada partcón se asoca a una porcón correspondente del total de grados de lbertad, la técnca es conocda cono ANALISIS DE VARIANCIA (ANVA), que generalmente se presenta en un cuadro de la sguente forma: Cuadro ANVA F. de V. G.L. SC. CM. Fc Regresón 1 b 1 SPXY b 1 SPXY CMR/CME Error n- Σ(Y -Y )² SCE/(n-) Total n-1 SCT F. de Mendburu / Apuntes de clase - uso nterno. Grupo G / Martes -4, Mercoles -3 pm
Regresón y correlacón smple 117 La prueba estadístca es F y evalua las hpótess: H p : No exste una regresón lneal entre X e Y H a : Exste regreson lneal de Y en funcón de X Para el ejemplo planteado efectuar el ANVA. Cálculo de las sumas de cuadrados: SCTotal SCT ΣY²-(ΣY)²/n 597 - (783)²/1 106.5 SCRegresón SCR b 1 SPXY (0.8676)(13) 1061.0748 SCError SCE SCT - SCR 106.5-1061.0748 145.175 Càlculo de la varanca resdual o del error: S² (SCT - SCR)/(N-) 145.175/10 14.5175. esto nos ndca que la varabldad de los pesos de los hombres es 14.5175 kg² sn tener en cuenta el efecto de las alturas (X) sobre los pesos (Y); es decr, mde la varablad de Y una vez descontado el efecto de X, sendo menor que la varanca de Y. Cuadro ANVA F. de V. G.L. SC. CM. Fc Regresón 1 1061.0748 1061.0748 73.089 ** Error 10 145.175 14.5175 Total 11 106.500 El valor F 0.01 (1,10) 10. ; como Fc > F, la regresón es altamente sgnfactva. INTERVALOS DE CONFIANZA En muchos casos es de nterés conocer entre que valores se encuentra el coefcente de regresón de la poblacón ß 1 para un certo grado de confanza fjada, este procedmento permte hallar los valores llamados límtes de confanza, así: b 1 - t 0 S b1 ß 1 b 1 + t o S b1 donde: t 0 es el valor "t" tabular al nvel de sgnfcacón y n- grados de lbertad ( t 0 t,n- ). S² b1 S² E /SCX CME/SCX (obtendo del cuadro ANVA) es la varanca estmada del coefcente de regresón. Tambén es de nterés determnar el ntervalo de confanza de µ y/x, para un valor asumdo de X, que se calcula con la expresón: yˆ t S µ y+ t 0 y ˆ y / x 0 donde t o t,n- gl. y S² Y CME(1/n + (X - X)²/SCX). S y F. de Mendburu / Apuntes de clase - uso nterno. Grupo G / Martes -4, Mercoles -3 pm
Regresón y correlacón smple 118 Nota: Puede observarse que la varanca de la línea de regresón S y ˆ conforme X se aleja de X. rá ncrementándose EJEMPLO. Calcular los límtes de confanza para el coefcente de regresón ß 1 y de µ y/x para X 185, al 95% de confanza. a) Para ß 1 : cálculos prevos: S² b1 CME/SCX 14.5175/1409.667 0.01098. así, S b1 0.1015 y t o.8. Luego, 0.8676-(.8)(0.101479) ß 1 0.8676+(.8)(0.101479) 0.6415 ß 1 1.0937 b) Para µ y/x, donde X185: ˆ 75.446+ 0.8676(185) 85.06, y y S² y 14.5175(1/1 -(185-16.167)²/1409.667) 6.57889 ^ así, S y.5649. Luego, aplcando la fórmula dada ^ anterormente se tene: 79.3454 µ y/x 90.7746. Este ntervalo de confanza nos ndca que s las tallas fuesen de 185 cm, exste el 95% de probabldad que los valores del ntervalo encerren el verdadero promedo. PRUEBAS DE HIPOTESIS Se plantea los sguentes casos: a) Cuando ß0 (Prueba de Independenca); es decr, s la varable Y es ndependente de la varable X. Esto equvale a plantear la hpótess Hp: ß 1 0, y medante la prueba F comparar la F calculada (Fc) con la F tabular (Fo), donde FcCMR/CME y FoF (1,n- gl). S Fc>Fo, se rechaza la hpótes planteada y se concluye que Y depende de X. b) Cuando ß 1 tene un valor específco, dgamos ß 10 ; es decr; Hp: ß 1 ß 10. En este caso se usa el estadístco t para probar esta hpòtess, se calcula el valor de t: t c b1 β S b1 b β10 CMe SCx 10 1 S t c > t 0 se rechaza la hpótess planteada, donde t 0 es el valor de la tabla al nvel α y n- gl. F. de Mendburu / Apuntes de clase - uso nterno. Grupo G / Martes -4, Mercoles -3 pm
Regresón y correlacón smple 119 EJEMPLO: Probar s el peso de los hombres es ndependente de sus alturas, Tambén probar s por cada cm. de altura en cada hombre el peso aumenta en 1. kg. caso (a): Son X y Y ndependentes?. Las hpótess son: Hp: ß 1 0 Ha: ß 1 0 Aplcando las fórmulas dadas se tene: Fc 1061.0748/14.5175 73.089. Las F tabulares a 0.05 y 0.01 son: Fo 4.96 y Fo 10.04, respectvamente. Luego, comparando para ambos valores se tene que Fc > Fo. Por lo tanto se concluye en que la nfluenca de X sobre Y es drecta y no se debe al azar ( es decr, Y depende de X). caso (b): Se tene Hp: ß 1 1. Ha: ß 1 1. t c (0.8676-1.)/0.101479-3.7. Como t tabular es t o -.8 ( 0.05 y gl. 10) el valor de t c cae en la zona de rechazo de la Hp (t c < t o -.8), por lo tanto se concluye que por cada cm adconal el la altura no hay aumento de 1. kg. PREDICCION Hallada la ecuacón de regresón puede darse uso en los sguentes casos: a) Predecr el valor probable de Y dado un valor partcular de X. b) Estmar el valor desconocdo de X asocado a un valor observado de Y. c) Construr un ntervalo de predccón para un valor predcho de Y. Para los casos (a) y (b), se dentfcan los valores de las varables y se rremplazan en la ecuacón Yb o +b 1 X. ^ Así por ejemplo: Suponga que esta nteresado en conocer yˆ p (estmado de la meda poblaconal Y para un valor predcho Xp no consderado en la muestra). Este valor se obtene de Yb o +b 1 X; así, s Xp160 ^ yˆ p entonces 63.37Kg., este valor debe nterpretarse como el estmado del peso promedo s se tuvesen varas alturas de 160 cm. Para el caso (c), el ntervalo de confanza para la predccón es yˆ t S µ y + t p 0 yp ˆ y / x p 0 S yp F. de Mendburu / Apuntes de clase - uso nterno. Grupo G / Martes -4, Mercoles -3 pm
Regresón y correlacón smple 10 donde t 0 es t tabular a nvel α y grados de lbertad de n-. Sy p 1 CMe 1 + + n ( x) xp SCx Luego, el ntervalo de confanza para la predccón hallada al 95 % de confanza es: 54.507 µ / 7.193 y x Sgnfca, s se tuvesen muchos hombres de 160 cm, exste el 95% de probabldad de que el ntervalo de confanza [54.507, 7.193], encerre el verdadero promedo de los pesos. ANALISIS DE CORRELACION El análss de correlacón consste en emplear métodos que permtan medr el grado o ntensdad de asocacón entre dos o más varables. El concepto de correlacón está estrechamente vnculado al concepto de regresón, pues, para que una ecuacón de regresón sea razonable los puntos muestrales deben estar ceñdos a la ecuacón de regresón; además el coefcente de correlacón debe ser: - grande cuando el grado de asocacón es alto, y pequeño cuando es bajo - ndependente de las undades en que se mden las varables. CORRELACION LINEAL SIMPLE. El coefcente de correlacón (r) es un número que ndca el grado o ntensdad de asocacón entre las varables X e Y. Su valor varía entre -1 y +1; esto es: -1 r 1. S r-1, la asocacón es perfecta pero nversa; es decr, a valores altos de una varable le corresponde valores bajos a la otra varable, y vceversa. S r+1, tambén la asocacón es perfecta pero drecta. S r0, no exste asocacón entre las dos varables. Luego puede verse que a medda que r se aproxme a -1 ó +1 la asocacón es mayor, y cuando se aproxma a cero la asocacón dsmnuye o desaparece. El coefcente de correlacón está dada por: r SPxy ( SCx)( SCy) Así, para el ejemplo planteado: F. de Mendburu / Apuntes de clase - uso nterno. Grupo G / Martes -4, Mercoles -3 pm
Regresón y correlacón smple 11 r 13 1409.667 ( )( 106.5) 0.9381 Este valor nos ndca que hay un alto grado de asocacón entre las varables altura y peso, y la relacón es drecta (sgno postvo de r). COEFICIENTE DE DETERMINACION De la descomposcón de la suma de cuadrados total, se obtuvo: SCT SCR + SCE dvdendo ambos membros por la SCT, se tene: 1 SCR/SCT + SCE/SCT de este resultado, se defne el COEFICIENTE DE DETERMINACION de la muestra, denotada por r², como: r² 1 - SCE/SCT SCR/SCT r² SC explcada/sc total r² error explcado/error total Como SCR SCT, se deduce que 0 r² 1. Interpretacón de r²: Puede nterpretarse desde 3 aspectos: a) Como una medda de mejora debdo a la línea de regresón. Aquí, r² proporcona la reduccón relatva de la SCT (error total). S r² 0 decmos que no hay reduccón en la SCT; es decr no hay mejora debdo al ajuste de la línea de regresón, lo que sgnfca que: Error _ Explcado ˆ y ( ) 0 y Gráfcamente, se observa que la línea de regresón es horzontal y concdente con Y. S r²1, decmos que ha habdo una reduccón del 100% en el error total, o sea: ( ˆ ) 0 Error _ total y y Gráfcamente, todos los puntos del dagrama de dspersón caen sobre la línea de regresón no horzontal. b) Como medda de grado de ajuste. S r²1, los puntos Y caen todos sobre la línea de regresón. S r²0, los puntos son esparcdos y la línea de regresón resulta horzontal. F. de Mendburu / Apuntes de clase - uso nterno. Grupo G / Martes -4, Mercoles -3 pm
Regresón y correlacón smple 1 En conclusón, cuando mayor es el grado de ajuste de la línea de regresón a los puntos, el valor de r² se acerca a 1. c) Como el grado de lnealdad de dspersón de los puntos. S r² se aproxma al volor uno, la dspersón de puntos se parece a una línea recta. S r² se acerca al valor cero, la dspersón no se parece a una línea recta. EJEMPLO. Del caso planteado. Hallar e nterpretar r². Según los calculos, r 13 (1409.667)(106.5) 0.9381 entonces r²0.88004; (1-r²)0.1996 Indca que el 88.004% de los cambos en los pesos se asoca a los cambos en las alturas (tallas), resultando, 1.996% de varabldad que no es explcada por la regresón. F. de Mendburu / Apuntes de clase - uso nterno. Grupo G / Martes -4, Mercoles -3 pm