ANÁLISIS DE REGRESIÓN Feradez Departameto de Matemátcas Uversdad de Puerto Rco Recto Uverstaro de Mayagüez
REGRESIÓN LINEAL SIMPLE Regresó: cojuto de téccas que so usadas para establecer ua relacó etre ua varable cuattatva llamada varable depedete y ua o más varables depedetes, llamadas predctoras. Estas debe ser por lo geeral cuattatvas, s embargo usar predctoras que so cualtatvas es permsble. Cuado hay solo ua predctora se llama regreso smple. Modelo de regresó. Ecuacó que represeta la relacó etre las varables. Cuado el modelo es leal se llama regreso leal Para estmar la ecuacó del modelo se debe teer ua muestra de etreameto. Aalss de Regreso Eero, 03
Ejemplo NACION %INMUNIZACION TASA_mor "Bolva" 77 8 "Brazl" 69 65 3 "Camboda" 3 84 4 "Caada" 85 8 5 "Cha" 94 43 6 "Czech_Republc" 99 7 "Egypt" 89 55 8 "Ethopa" 3 08 9 "Flad" 95 7 0 "Frace" 95 9 "Greece" 54 9 "Ida" 89 4 3 "Italy" 95 0 4 "Japa" 87 6 5 "Mexco" 9 33 6 "Polad" 98 6 7 "Russa_Federato" 73 3 8 "Seegal" 47 45 9 "Turkey" 76 87 0 "Uted_Kgdom" 90 9 Aalss de Regreso Eero, 03
Relaco de la tasa de mortaldad co el porcetaje de muzaco Ethopa Camboda Seegal Turkey Brazl Greece Russa_Federato Caada Japa Uted_Kgdom Bolva Ida Egypt Cha Mexco Flad Frace Italy Polad Czech_Republ 0 50 00 50 00 0 40 60 80 00 porcetaje de muzaco Aalss de Regreso Eero, 03 tasa de mortaldad
Ejemplo de ua lea de Regreso Relaco de la tasa de mortaldad co el porcetaje de muzaco Ethopa Camboda Seegal Turkey Brazl Greece Russa_Federato Caada Japa Uted_Kgdom Bolva Ida Egypt Cha Mexco y^ = 4.363 + -.35869x Flad Frace Italy Polad Czech_Republ tasa de mortaldad 0 50 00 50 00 0 40 60 80 00 porcetaje de muzaco Aalss de Regreso Eero, 03
..Usos del aálss de regresó a Predccó b Descrpcó c Cotrol d Seleccó de varables Aalss de Regreso Eero, 03
. El modelo de Regresó Leal smple Y = α + βx + ε Cosderado la muestra (X,Y para =, Y = α + βx + e Suposcoes del modelo: La varable predctora X es o aleatora Los errores e so varables aleatoras co meda 0 y varaza costate σ. Los errores y ( j=, so depedetes etre s e e j Aalss de Regreso Eero, 03
..Estmacó de la líea de regresó usado Mímos Cuadrados Se debe Mmzar Q( α,β = e = = ( y α βx Dervado parcalmete co respecto a α y β se obtee u par de ecuacoes ormales para el modelo, cuya soluco produce ˆβ x y = = = = = x ( x = = x y αˆ = y βx ˆ O equvaletemete Aalss de Regreso Eero, 03 βˆ = S S xy xx
.. Iterpretacó de los coefcetes de regresó estmados La pedete dca el cambo promedo e la varable de respuesta cuado la varable predctora aumeta e ua udad adcoal. β El tercepto α dca el valor promedo de la varable de respuesta cuado la varable predctora vale 0. S embargo carece de terpretacó práctca s es rrazoable cosderar que el rago de valores de x cluye a cero. Aalss de Regreso Eero, 03
..3 Propedades de los estmadores mímos cuadrátcos de regresó a β es u estmador segado de β. Es decr, E( β =β b α es u estmador segado de α. Es decr, E( α =α c La varaza de es y la de es σ ( + x Sxx β σ α Sxx Aalss de Regreso Eero, 03
..4 Dstrbucó de los estmadores mímos cuadrátcos Para efecto de hacer fereca e regresó, se requere asumr que los errores e, se dstrbuye e forma ormal e depedetemete co meda 0 y varaza costate σ. E cosecueca, també las y ' s se dstrbuye ormalmete co meda α + βx y varaza σ. Se puede establecer que: ˆ ~ N(, σ x β β ˆ α ~ N ( α,( + σ S xx S xx Aalss de Regreso Eero, 03
..5 Propedades de los resduales Los resduales so las desvacoes de los valores observados de la varables de respuesta co respecto a la líea de regresó. a La suma de los resduales es 0. Es decr, = r = 0 b = r x = 0 c = r y = 0 Aalss de Regreso Eero, 03
..7 Descomposcó de la suma de cuadrados total La desvaco de u valor observado de la varable de respuesta co respecto a su meda se puede escrbr como: ( y y = ( y y + ( y y = ( y y = ( y y = + = ( y y SST = SSE + SSR Se puede deducr que SSR = ˆβ = ( x x Aalss de Regreso Eero, 03
Se puede demostrar que: E( SSR = E( ˆ β S xx = σ + β S xx Las sumas de cuadrados so formas cuadrátcas del vector aleatoro Y y por lo tato se dstrbuye como ua J-cuadrado. Se puede establecer los sguetes resultados: SST (J-Cuadrado o cetral co - g.l ~ χ' ( σ SSE σ SSR σ χ ~ ( ~ χ ' ( Equvaletemete ( s σ (J-Cuadrado o cetral co g.l ~ χ ( Aalss de Regreso Eero, 03
Aalss de Regreso Eero, 03..6 Estmacó de la varaza del error U estmador sesgado de es: σ ( = = = = r y y s s es tambe llamado el cuadrado medo del error (MSE
..8 El Coefcete de Determacó R Es ua medda de la bodad de ajuste del modelo R = SSR SST * 00 % U modelo de regreso co mayor o gual a 75% se puede cosderar bastate aceptable. Nota: El valor de R es afectado por la preseca de valores aormales. R Aalss de Regreso Eero, 03
.3 Ifereca e Regreso Leal Smple Pruebas de hpótess e tervalos de cofaza acerca de los coefcetes de regresó del modelo de regresó poblacoal. Itervalos de cofaza para u valor predcho y para el valor medo de la varable de respuesta Aalss de Regreso Eero, 03
.3. Ifereca acerca de la pedete y el tercepto usado la prueba t. La pedete de regresó se dstrbuye como ua ormal co σ meda β y varaza Sxx U tervalo de cofaza del 00(-α% para la pedete poblacoal β es de la forma: s ( β t(, α /, β + t(, α / Sxx s Sxx Dode α represeta el vel de sgfcacó. Aalss de Regreso Eero, 03
Itervalo de cofaza para el tercepto α U tervalo de cofaza del 00(-α% para el tercepto α de la lea de regresó poblacoal es de la forma: ( α t x, α + Sxx (, α / s + t(, α / s + x Sxx Aalss de Regreso Eero, 03
Pruebas de hpótess para la pedete β (asumedo que su valor es β* Caso I Caso II Caso III Ho: β=β* Ho: β=β* Ho: β=β* Ha: β<β* Ha: β β* Ha: β>β* Prueba Estadístca t β β * s = ( Sxx Regla de Decsó Rechazar Ho, Rechazar Ho Rechazar Ho s tcal<-t(α,- s tcal >t(α/,- s tcal>t(α,- *U P-value cercao a cero sugere rechazar la hpótess ula. ~ t Aalss de Regreso Eero, 03
.3. El aálss de varaza para regresó leal smple El aálss de varaza para regresó cosste e descompoer la varacó total de la varable de respuesta e varas partes llamadas fuetes de varacó. La dvsó de la suma de cuadrados por sus grados de lbertad es llamada cuadrado medo. Así se tee tres cuadrados medos. Cuadrado Medo de Regresó=MSR=SSR/ Cuadrado Medo del Error= MSE=SSE/(- Cuadrado Medo del Total=MST=SST/(- Aalss de Regreso Eero, 03
Tabla de Aálss de Varaza Fuete de Varacó g.l. Sumas de Cuadrados Cuadrados Medos F Debdo a la Regreso SSR MSR=SSR/ MSR Error - SSE MSE=SSE/(- MSE Total - SST Se rechazaría la hpótess ula Ho:β=0 s el P-value de la prueba de F es meor de 0.05 Aalss de Regreso Eero, 03
Itervalo de cofaza para el valor medo de la varable de respuesta e Itervalo de Predccó Queremos predecr el valor medo de las Y para u valor x 0 de la varable predctora x. E( Y/ x = x0 =α + βx El estmador atural es Yˆ = α ˆ + βˆ x o o Como las Y s se dstrbuye ormalmete, etoces també Ŷ se dstrbuye ormalmete co o meda E(Y/X=xoy varaza gual a: 0 Var( Yˆ 0 = σ ( + ( x 0 x Sxx Aalss de Regreso Eero, 03
Itervalo de cofaza (cot U tervalo de cofaza del 00(- α% para el valor medo de las y s dado que x=x0 es de la forma: ˆ α ˆ βx Trabajado co la dfereca E se tee Luego el tervalo de predccó para u valor dvdual de Y dado x=x0 es de la forma ± t + 0 ( α /, Y ˆ 0 Y = ( 0 0 ˆ α s ˆ βx + ± t ( x 0 x Sxx Var( Y + 0 ( α /, 0 Y Yˆ 0 Yˆ s 0 + 0 = σ ( + + ( x0 x + Sxx ( x 0 x Sxx Aalss de Regreso Eero, 03
.4 El Coefcete de Correlacó Mde el grado de asocacó leal etre las varables X y Y y se defe como: ρ = a ρ b La meda codcoal de Y dado X es E( Y / X =α + βx, σ y dode: β = ρ y σ Cov( X, Y σ σ x y α = μ y βμ x c La varaza codcoal de las Y dado X, está dado por σ / σ ( ρ y x = y S etoces (perfecta relacó leal. σ y / x = ρ = ± 0 x Aalss de Regreso Eero, 03
Coefcete de correlacó muestral Cosderado ua muestra de pares (x,y Notar que: r = β r = Sxx Syy Sxy SxxSyy β Sxx r = = Syy SSR SST El cuadrado del coefcete de correlacó es gual al coefcete de determacó. Aalss de Regreso Eero, 03
.5 Aálss de resduales Los resduales, so estmacoes de los errores del modelo y srve para establecer s las suposcoes del modelo se cumple y para explorar el porqué de u mal ajuste del modelo. Podemos ver: S la dstrbucó de los errores es ormal y s outlers. S la varaza de los errores es costate y s se requere trasformacoes de las varables. S la relacó etre las varables es efectvamete leal o preseta algú tpo de curvatura S hay depedeca de los errores, especalmete e el caso de que la varable predctora sea tempo. Aalss de Regreso Eero, 03
Tpos de resduales Resdual Estadarzado, se dvde el resdual etre la desvacó estádar del error. Es decr, y y Resdual Estudetzado, se dvde el resdual etre su desvacó estádar estmada. Es decr, s s ( y y ( x x Sxx Aalss de Regreso Eero, 03
.5. Cotejado ormaldad de los errores y detectado outlers La ormaldad de los errores es u requsto dspesable para que tega valdez las pruebas estadístcas de t y F que se usa e regresó. La maera más fácl es usado gráfcas tales como: hstogramas, stem-ad-leaf o Boxplots. El plot de Normaldad, plotea los resduales versus los scores ormales ( valores que se esperaría s exstera ormaldad. Aalss de Regreso Eero, 03
.5. Cotejado que la varaza sea costate Se plotea los resduales estadarzados versus los valores ajustados o versus la varable predctora X. S los putos del plot cae e ua fraja horzotal alrededor de 0 etoces la varaza es costate. S los putos sgue algú patró etoces se dce que la varaza o es costate. Nota: Se debe teer cudado co la preseca de outlers. Aalss de Regreso Eero, 03
.5.3 Cotejado s los errores esta correlacoados. Cuado la varable predctora es tempo, puede ocurrr que los errores este correlacoados secuecalmete etre s. Prueba de Durb-Watso, mde el grado de correlacó de u error co el ateror y el posteror a él. Estadístco D ( e = = = e e D varía etre 0 y 4. S D esta cerca de 0 los errores está correlacoados postvamete. S D está cerca de 4 etoces la correlacó es egatva. La dstrbucó de D es smétrca co respecto a. Así que u valor de D cercao a dca que o hay correlacó de los errores. Aalss de Regreso Eero, 03