ANEXO B B.. Regresió Se defie como Regresió al estudio de la fuerza, cosistecia o grado de asociació de la correlació de variables idepedietes [6]. B... Regresió Lieal Simple El objeto de u aálisis de regresió es ivestigar la relació estadística que existe etre ua variable depediete (Y) y ua o más variables idepedietes (X, X, X 3,... ) y así realizar la predicció de los futuros valores de la variable depediete. Para poder realizar esta ivestigació, se debe postular ua relació fucioal etre estas variables. La forma fucioal más utilizada es la relació lieal, y se da cuado solo existe ua variable idepediete, reduciedo el problema a resolver a ua líea recta: Y = β 0 + β X + ε (B.) dode los coeficietes β 0 y β so parámetros que defie la posició e icliació de la recta. Y ε es ua variable aleatoria o observable que idica el error aleatorio que se distribuye Normal co E(ε i )=0, Var(ε i )=σ costate. La estimació del modelo queda de la siguiete forma : ˆ = b + b X Y 0 Nótese que se ha usado el símbolo especial ˆ Y para represetar el valor de Y calculado por la recta. Como veremos, el valor real de Y rara vez coicide exactamete co el valor calculado, por lo que es importate hacer esta distició. 48
El parámetro b 0, coocido como la ordeada e el orige o itercepto, os idica cuáto es Y cuado X = 0, y es el estimador de β 0. El parámetro b, coocido como la pediete, os idica cuáto aumeta Y por cada aumeto de ua uidad e X, y es el estimador de β. Es posible obteer u estimador del error aleatorio ε a través de la diferecia etre el valor observado Y y el valor ajustado Yˆ. El problema cosiste e obteer estimacioes de los coeficietes a partir de ua muestra de observacioes sobre las variables Y y X. E el aálisis de regresió, estas estimacioes se obtiee por medio del método de míimos cuadrados. Cuado se asocia u error sustacial a los datos, la iterpolació poliomial es iapropiada y puede llevar a resultados o satisfactorios cuado se usa para predecir valores itermedios. Los datos experimetales a meudo so de ese tipo. Ua estrategia mas apropiada e estos casos es la de obteer ua fució aproximada que ajuste adecuadamete el comportamieto o la tedecia geeral de los datos, si coicidir ecesariamete co cada puto e particular. Ua líea recta puede usarse e la caracterizació de la tedecia de los datos y ua maera de determiar la líea, es ispeccioar los datos graficados y luego trazar la mejor líea a través de los putos. Por lo tato es ecesario cosiderar u criterio que cuatifique la suficiecia del ajuste. Ua forma de hacerlo es obteer ua curva que miimice la diferecia etre los datos y la curva y el método para llevar a cabo este objetivo es al que se le llama regresió co míimos cuadrados. 49
El ejemplo mas simple es el ajuste de ua líea recta a u cojuto de parejas de datos observadas: (x,y ), (x,y ),...,(x,y ). La expresió matemática de ua líea recta es Y = b + b X εˆ e dode b 0 y b so coeficietes que represeta la itersecció co el 0 + eje de las abscisas y la pediete, respectivamete y εˆ es el error o residuo etre el modelo y las observacioes, que se puede represetar reordeado la ecuació (B.) como ( b b X ) ˆ ε = + (B.) Y 0 Por lo tato, el error o residuo es la diferecia etre el valor real de Y y el valor aproximado, b 0 +b X, predicho por la ecuació lieal. B... Criterio de Míimos Cuadrados Ua estrategia que obtiee la mejor líea a través de los putos debe miimizar la suma de los errores residuales, como e: ˆ ε = ( Y b b X ) i i 0 i i= i= Otro criterio seria miimizar la suma de los valores absolutos de las diferecias, esto es: ˆ ε = Y b b X i i 0 i i= i= Ua tercera estrategia e el ajuste de ua líea óptima es el criterio de míimas. E este método, la líea se escoge de tal maera que miimice la distacia máxima a la que se ecuetra u puto de la líea recta. Esta estrategia esta mal codicioada para regresió ya 50
que ifluye de maera idebida sobre u puto extero, aislado, cuyo error es muy grade. Se debe otar que el criterio míimas alguas veces esta bie codicioado para ajustar ua fució simple a ua fució complicada. Ua estrategia que igora las restriccioes ateriores es la de miimizar la suma de los cuadrados de los residuos, S r, de la siguiete maera: ˆ ε ( ) 0 (B.3) S = = Y b b X r i i i i= i= Este criterio tiee muchas vetajas, icluyedo el que ajusta ua líea úica a u cojuto dado de datos. Ates de aalizar estas propiedades, se muestra u método que determia los valores de b 0 y b que miimiza la ecuació (B.3). B..3. Ajuste de ua recta utilizado Míimos Cuadrados Para determiar los valores de las costates b 0 y b, se deriva la ecuació (B.3) co respecto a cada uo de los coeficietes: Sr S = 0 r = i 0 i 0 0 Sr = i 0 ( Y b b X )( ) ( Y b b X ) 0 Sr S = 0 r = i ( Y b b X )( X ) i 0 i i Sr = ( Yi b0 bxi) Xi 5
Nótese que se ha simplificado los símbolos de la sumatoria; a meos que otra cosa se idique, todas las sumatorias va desde i= hasta. Igualado estas derivadas a cero, se geera u míimo S r. Si se hace así, las ecuacioes ateriores se expresara como: 0 = Yi b0 bxi 0 = YXi b0x i bx i Ahora cosiderado que b0 = b 0, las ecuacioes se puede expresar como u cojuto de dos ecuacioes lieales simultaeas co dos icógitas (b 0 y b ): (B.4) b0 + bx i = Yi bx 0 i + bx i = YX i i (B.5) A estas ecuacioes se les cooce como ecuacioes ormales. Se puede resolver simultáeamete y obteer: ( i) X Y X Y i i i i = Xi X b (B.6) Este resultado se puede usar juto co la ecuació (B.4) para obteer: e dode Y y X so la media de Y y X, respectivamete. b0 = Y bx (B.7) Por lo tato, la ecuació de la regresió estimada es: Yˆ = Y + b ( X X ) (B.8) 5
Ua vez obteida la ecuació, es posible calcular la variaza residual σ, siedo su estimador isesgado = ( i o i ) i= s Y b X b Defiiedo el coeficiete de correlació como r = ( Xi X)( Yi Y) ( Xi X) ( Yi Y) (B.9) que sólo toma valores e el itervalo [-, ], os da ua idea de hasta qué puto el ajuste lieal es razoable: Si r es próximo a, etoces el ajuste es aceptablemete bueo, distribuyédose las observacioes (X i, Y i ) alrededor de ua recta de pediete egativa. Si r es próximo a 0 etoces el ajuste o es aceptable, idicado que o existe relació lieal etre las variables. Si r es próximo a +, etoces el ajuste es aceptablemete bueo, distribuyédose las observacioes (X i, Y i ) alrededor de ua recta de pediete positiva. El cotraste de idepedecia etre las variables es más objetivo que la observació del coeficiete de correlació r. Así se platea comprobar si los datos observados corrobora o o la hipótesis ula: H 0 : "la variable explicativa X o ifluye e la respuesta Y", frete a la alterativa: H : "la variable explicativa X ifluye liealmete e la respuesta Y". Mediate el estadístico de cotraste 53
( ) ( Xi X) A= b ( Yi box b ) (B.0) que se distribuye como ua t - de Studet, se puede cotrastar la hipótesis ula H 0 al ivel de sigificació α 3. Y se rechaza H 0 si A t 4 α/(-). Esto es equivalete a decir que P- valor < α, dode P-valor es calculado co la distribució del estadístico. Y decimos que la variable explicativa X ifluye liealmete e la respuesta Y...4. Regresió Múltiple E el caso más geeral de la regresió múltiple, existe dos o más variables idepedietes: Y = b + b X + b X + L + b X + ε 0 i La estimació de los coeficietes de ua regresió múltiple es u cálculo bastate complicado y laborioso, por lo que se requiere del empleo de programas de computació especializados. Si embargo, la iterpretació de los coeficietes es similar al caso de la regresió simple: el coeficiete de cada variable idepediete mide el efecto separado que Ua variable aleatoria se distribuye segú el modelo de probabilidad t de Studet co k grados de libertad, dode k es u etero positivo, si su fució de desidad es la siguiete: ( ) ( k+ ) Γ ( k + ) f() t = + t k π kγ( k ), < t x p <, dode Γ ( p) = e x dx 3 Al realizar ua prueba se puede cometer uo de los dos errores siguietes: Error tipo I, se rechaza la hipótesis ula H 0 cuado es cierta; Error tipo II, se acepta la hipótesis ula H 0 cuado es falsa. Normalmete se desea cotrolar la probabilidad de cometer u error de tipo I. Y el ivel de sigificació es la probabilidad de cometer u error de tipo I. Fijar α lleva a dividir e dos regioes el cojuto de posibles valores del estadístico de cotraste: la regió de rechazo, co probabilidad α, bajo H 0 y la regió de aceptació, co probabilidad -α, bajo H 0. Segú la forma de la regió de rechazo, u cotraste puede ser cotraste uilateral (cotraste de ua cola) o cotraste bilateral como es éste caso (cotraste de dos colas). 4 Que se calcula co la fórmula de Distribució iversa de t co probabilidad α/ y co (-) grados de libertad. 0 54
esta variable tiee sobre la variable depediete. El coeficiete de determiació, por otro lado, mide el porcetaje de la variació total e Y que es explicado por la variació cojuta de las variables idepedietes. Y los supuestos para que se cumpla esta ecuació so: que los ε i sea idepedietes y siga la distribució Normal, que exista relació lieal etre Y y las X i s, E(ε i )=0, Var(ε i )=σ, y que las X i s sea liealmete idepedietes. 55