5 Regresón Lneal Smple 5. Introduccón 90 En muchos problemas centífcos nteresa hallar la relacón entre una varable (Y), llamada varable de respuesta, ó varable de salda, ó varable dependente y un conjunto de varables (X, X,...) llamadas varables explcatvas, ó varables ndependentes ó varables de entrada. Consderaremos el caso más smple que consste en descrbr la relacón entre dos varables contnuas medante una recta. Aún cuando el análss ncluya eventualmente más de una varable explcatva, es habtual mrar ncalmente una varable explcatva por vez. Ejemplo. Interesa estudar la relacón entre la presón (bar) de transcón de Bsmuto I-II con la temperatura ( o C) TEMP PRESION TEMP PRESION TEMP PRESION TEMP PRESION 0.8 576 0.9 556 56.9 587. 57. 587.4 577.5 577 4.8 5 4.8 5093 5 5080 33.5 4750 34 470 34. 476 4.5 4374 Fgura 4.7 4394 4.9 4384 49.7 4077 50. 406 50.3 4057 Vemos que la presón de transcón de Bsmuto I-II, decrece a medda que aumenta la temperatura, observamos una tendenca lneal decrecente aunque los puntos del dagrama de dspersón no están perfectamente alneados. 5. Puntos sobre una recta Dremos que la relacón entre dos varables X e Y es perfectamente lneal, s todos los pares de valores observados (x,y ) de dchas varables satsfacen la ecuacón de una recta: y = α + β x () En esta expresón α y β son constantes: α es la ordenada al orgen y β la pendente. Decmos que X es una varable predctora de Y, ecuacón (). El valor del subíndce ndexa las observacones: =,,3,...,n. Para el ejemplo y representa el valor de la presón obtendo para la temperatura x.
9 Fgura Gráfcamente, () defne una línea recta, donde: α (la ordenada al orgen) es el punto donde la recta corta al eje vertcal y β (la pendente), ndca cuantas undades camba y cuando x aumenta undad. S β postvo la recta sube β undades por cada aumento de x en undad. S β es negatvo la recta cae cuando x aumenta. S β = 0 la recta es horzontal. Fgura 3 a Fgura 3 b La fgura 3 muestra dos ejemplos hpotétcos. S la relacón entre X e Y es perfectamente lneal y conocemos los valores α y β, la ecuacón () permte predecr qué valor de Y corresponde a cualquer valor de X. Más aún, dos pares de datos son sufcentes para determnar los parámetros α y β, de la msma manera que dos puntos y una regla alcanzan para dbujar una línea recta. La relacón entre datos reales es rara vez tan smple. 5.3 Modelo de Regresón Lneal Smple En forma más realsta podríamos plantear que el valor esperado (la meda poblaconal) de Y, más que los valores ndvduales, camba lnealmente con X: E [ / ] = + β, Y X = x α x ()
9 donde α es gual a la meda poblaconal de Y cuando X = 0. Con un aumento de una undad en X se obtene un aumento de la meda poblaconal de Y en β undades. Este tpo de modelos tene muchas aplcacones práctcas. En el caso de la presón y la temperatura el modelo dce que la meda poblaconal de las medcones de la presón para una temperatura fja está dada por α + β TEMP Otras cosas, además de X, causan que los valores observados de Y varíen alrededor de la meda de todos los valores de Y cuando X toma el valor x, E[Y/X=x]. Esas otras cosas son lo que determnan el error (de medcón en nuestro ejemplo) ε. ( α + β ) - E [ / ]. ε = Y - x = Y Y X = x El valor de Y es gual a la meda más un error: Y =EY [ / X = x ] + ε = α+ β x + ε. Por lo tanto, otra forma de expresar el modelo lneal dado en () es: los valores de la varable respuesta se encuentran relaconados lnealmente con la varable explcatva más un error. Tenemos así el sguente Modelo de regresón lneal smple Y = α + β x + ε. (4) (3) S nos nteresa predecr PRESION a partr de TEMP (tabla), llamaremos a la prmera varable respuesta y a la segunda varable explcatva o predctora. La varable respuesta sempre se grafca en el eje vertcal, o eje Y, y la varable predctora en el eje horzontal, o eje X, como muestra el dagrama de dspersón de la fgura. El problema consste en ajustar una recta que represente al conjunto de datos de la mejor manera, para obtener la predccón de Y para cualquer valor de X. Hay muchas maneras de evaluar s una recta representa ben al conjunto de datos. El enfoque tradconal consste en hallar la recta que en promedo tenga la menor dstanca vertcal, resduo, al cuadrado a cada uno de los puntos. Este procedmento se llama método de Cuadrados Mínmos (CM) y lo descrbremos en la Seccón 4.5. UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF PRESION PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P --------- ----------- --------- ----------- ------ CONSTANT 6079.9.9034 90.97 0.0000 TEMP -39.8935 0.35843 -.30 0.0000 La recta de regresón ( para los datos de la tabla es: y = a+b x ˆ ) obtenda por el método de cuadrados mínmos
93 PRESION ajustada ( ŷ ) = 6079.9-39.8935 TEMP (5) El valor ajustado ( ŷ ) puede utlzarse de dos maneras dstntas: a) como estmador de la meda poblaconal de Y para cada x fjo, en este caso como estmador de la meda de la presón de transcón para una temperatura fja. b) como predctor de un valor futuro de Y para un valor fjo de x. La dferenca entre a) y b) se encuentra úncamente en la varanza de ŷ. Fgura 4. Dagrama de dspersón junto con la recta ajustada. 5. 4 Resduos El resduo de un punto a una recta en un dagrama de dspersón es la dstanca vertcal del punto a dcha recta. La fgura 5 muestra el dagrama de dspersón de los datos junto con la recta ajustada y el dagrama de dspersón de los resduos vs. la temperatura para los prmeros 8 datos. Fgura 5 Algunos resduos son postvos, la presón observada está por encma de la recta, y otros son negatvos, la presón observada está por debajo de la recta. La suma de todos los resduos es cero. La fgura 6 muestra el dagrama de dspersón de los resduos vs. la temperatura del conjunto de datos completo. Fgura 6
94 Para la prmera medcón TEMP = 0.8, PRESION = 576. El resduo =5.8799 es postvo y se obtene como resduo = valor de Y observado - valor de Y estmado por la recta = y - ŷ = PRESION - {6079.9-39.8935 TEMP } = 576 - {6079.9-39.8935 * 0.8 } = 5.8799 Para la tercera medcón TEMP=, PRESION = 56. El resduo= -6.43 es negatvo. 5.5 El Método de Cuadrados Mínmos La suma de los cuadrados de los resduos (RSS) da una medda de la "bondad de ajuste" de la recta. Cuanto más pequeño es ese número tanto mejor es el ajuste. Hemos observado valores de dos varables, X (TEMP) e Y (PRESION), y hemos realzado una "regresón de Y sobre X", obtenendo una recta que da un valor "ajustado" estmado de Y ( ŷ, y "sombrero") para cada valor de la varable X. Un estudo comenza por un modelo lneal (4) porque exste una teoría que lo sugere o porque se desea comenzar de manera smple. En cualquera de los dos casos, nos nteresa obtener los mejores estmadores de los parámetros α y β. S llamamos a y b a nuestros estmadores, la ecuacón de la recta estmada es: yˆ = a+b x, donde ŷ (y "sombrero") ndca el valor ajustado (o predcho) de la varable Y para el caso (es el valor de la ordenada para x sobre la recta ajustada) (ver fgura 5). Los resduos e, la contraparte muestral de los errores (ε ), son las dferencas entre el valor observado y el valor predcho: e = y - yˆ = y -(a+b x ). Los resduos mden el error de predccón. Como hemos vsto, s el valor observado es mayor que el valor predcho (y > ŷ ) el resduo es postvo; en caso contraro es negatvo.
95 Con una predccón perfecta (y = ŷ ) resulta un resduo nulo. La suma de los cuadrados de los resduos (RSS) refleja la precsón y exacttud global de nuestras predccones: n n n RSS = e = ( y yˆ ). = ( y a bx ) (6) = = = Cuanto más cerca estén los valores observados de los predchos tanto menor será RSS. El método de Cuadrados Mínmos (CM) consste en elegr a y b de manera que la suma de cuadrados de los resduos (RSS) sea lo más pequeña posble. Cómo hallamos a y b? n ( y = n ( y = a bx ) n = ( y a bx ) = 0 a = a bx ) n = x ( y a bx ) = 0 b = (7) Las ecuacones anterores defnen los estmadores de los parámetros α y β resultan de dervar (6) con respecto a a y a b. Se trata de dos ecuacones lneales con dos ncógntas cuyas solucones son b = n ( x x)( y y) = ( x x) a = y bx Observacones De la prmera ecuacón de (7) tenemos que la suma de los resduos es 0. La segunda ecuacón de (8), nos dce que la recta de cuadrados mínmos pasa por ( x, y), ya que y = a + bx. n = Podemos pensar al método de cuadrados mínmos como fjando un punto, dado por el promedo de los valores de la varable explcatva (x s) y el promedo de los valores de la varable respuesta (y s) y luego grando la recta que pasa por ese punto elegmos la que deja en promedo, en forma pareja, tantos valores observados por arrba como por abajo. Nnguna otra recta tendrá, para el msmo conjunto de datos, una RSS tan baja como la obtenda por CM. En este sentdo, el método de mínmos cuadrados brnda la solucón que mejor ajusta a ese conjunto de datos. Advertenca: en general no pueden realzarse predccones fuera del rango de valores observados de la varable ndependente. Que nos dce la ecuacón de la recta ( PRESION ajustada ( ) = 6079.9-39.8935 TEMP) ajustada?: ŷ La estmacón de la varable PRESION, obtenda a partr de la ecuacón de regresón ajustada, es el valor predcho de PRESION. (8)
96 Para cualquer valor de la varable TEMP un aumento en un grado de la temperatura produce una reduccón de 39.8935(bar) en la presón meda ( verdadera ) de transcón de Bsmuto I-II. El método de CM permte estmar una recta a partr de un conjunto de datos. S estos datos son una muestra adecuada de una poblacón, la recta nos permte extender resultados a dcha poblacón. Certas característcas de los datos podrían nvaldar los resultados del método. 5.6 Supuestos Antes de utlzar el análss de regresón y consderar meddas de ncerteza o dspersón, es necesaro conocer los supuestos en los que se basa el método. Veremos prmero cuáles son esos supuestos y luego qué procedmentos pueden utlzarse para valdarlos. 5.6. Descrpcón de los supuestos Supuesto a: Normaldad de los errores. Para cada valor x, de la varable predctora X, la varable respuesta Y debe tener dstrbucón Normal Por ejemplo, s se cumple este supuesto, la presón de transcón (Y) es una varable aleatora Normal con meda µ x que depende de x (temperatura). Supuesto b: Lnealdad La meda de la varable Y varía lnealmente con X. S pasar de a 0 C no fuera lo msmo que pasar 4 a 4 0 C respecto del cambo de la presón de transcón, este supuesto no se cumplría. Supuesto c: Homoscedastcdad La varabldad de Y, que es medda por su varanza (σ ), o por su desvío estándar (σ ), debe ser la msma para cada valor x de la varable X. Este supuesto no se cumplría por ejemplo s a medda que aumenta (o dsmnuye) la temperatura los valores de la presón de transcón de Bsmuto l-ii estuveran comprenddos en un rango más amplo. No sabemos s los supuestos se satsfacen, n conocemos los verdaderos valores de los parámetros α y β. Fgura 7. Supuestos de Normaldad, lnealdad y homoscedastcdad
97 La fgura 7 representa dos varables para las cuales se satsfacen los supuestos de lnealdad ( µ(x) = α + β x, la meda de la varable Y crece lnealmente con x ), normaldad y homoscedastcdad de los errores. Supuesto d: Independenca de los errores Hemos vsto que cuando dos varables son ndependentes su correlacón es cero, en general la recíproca no es certa pero bajo el supuesto de normaldad el supuesto de ndependenca de los errores se reduce a que no estén correlaconados (corr ( ε, ε j ) = 0 j ). Por ejemplo, s las presones de transcón fueron obtendas en un orden secuencal con la temperatura, podría ocurrr que los errores fueran mayores en temperaturas más bajas que en temperaturas más altas nvaldando el supuesto de ndependenca de los errores. 5.6. Valdacón de los Supuestos La valdacón de los supuestos se realza en base a los datos y a los resduos de los msmos respecto de la recta ajustada. El dagrama de dspersón de los datos permte obtener una mpresón sobre el supuesto de lnealdad y homoscedastcdad. El análss posteror de resduos permtrá confrmar la mpresón ncal y valdar los supuestos de Normaldad e ndependenca. Veamos algunas estructuras que suelen verse en los dagramas de dspersón de los resduos.