REGRESION Y CORRELACION

nav Estadístca (complementos) 1 REGRESION Y CORRELACION Fórmulas báscas en la regresón lneal smple Como ejemplo de análss de regresón, descrbremos el caso de Pzzería Armand, cadena de restaurantes de comda talana. Los lugares donde sus establecmentos han tendo más éxto están cercanos a establecmentos de educacón superor. Se cree que las ventas trmestrales (representadas por y) en esos restaurantes, se relaconan en forma postva con la poblacón estudantl (representada por x). Es decr, que los restaurantes cercanos a centros escolares con gran poblacón tenden a generar más ventas que los que están cerca de centros con poblacón pequeña. Aplcando el análss de regresón podremos plantear una ecuacón que muestre cómo se relacona la varable dependente y con la varable ndependente x. El modelo de regresón y la ecuacón de regresón En el ejemplo, cada restaurante está asocado con un valor de x (poblacón estudantl en mles de estudantes) y un valor correspondente de y (ventas trmestrales en mles de $). La ecuacón que descrbe cómo se relacona y con x y con un térmno de error se llama modelo de regresón. Éste usado en la regresón lneal smple es el sguente: Modelo de regresón lneal smple: y = β0 + β1 x + ε β0 y β1 son los parámetros del modelo. ε es una varable aleatora, llamada error, que explca la varabldad en y que no se puede explcar con la relacón lneal entre x y y. Los errores, ε, se consderan varables aleatoras ndependentes dstrbudas normalmente con meda cero y desvacón estándar σ. Esto mplca que el valor medo o valor esperado de y, denotado por E(Y/x), es gual a β0 + β1 x. Ecuacón de regresón lneal smple: E(y/x) = β0 + β1 x ( µy/x=e(y/x) ) 1 >0 1 <0 1 =0

nav Estadístca (complementos) La ecuacón estmada de regresón (lneal smple) Los parámetros, β0 y β1, del modelo se estman por los estadístcos muestrales b0 y b1, los cuales se calculan usando el método de mínmos cuadrados. Ecuacón Estmada de regresón lneal smple: ŷ = b0 + b1 x En la regresón lneal smple, la gráfca de la ecuacón de regresón se llama línea de regresón estmada. ŷ es el valor estmado de y para un valor específco de x. Datos de poblacón estudantl y ventas trmestrales para una muestra de 10 restaurantes: restaurante Poblac. estudantl (en mles) x Ventas trmestrales (mles de $) 1 58 6 105 3 8 88 4 8 118 5 1 117 6 16 137 7 0 157 8 0 169 9 149 10 6 0 y 0 00 180 160 140 10 100 80 60 Dagrama de dspersón 40 0 4 6 8 10 1 14 16 18 0 4 6 8 30 poblacón estud. (mles)

nav Estadístca (complementos) 3 Dagrama de dspersón 0 (y línea de regresón estmada) 00 180 160 ŷ = b0 + b1 x 140 10 100 80 60 40 0 4 6 8 10 1 14 16 18 0 4 6 8 30 poblacón estud. (mles) El método de mínmos cuadrados consste en hallar los valores b0 y b1 que hacen mínma la suma de los cuadrados de las desvacones entre los valores observados de la varable dependente, y, y los valores estmados de la msma, ŷ. Es decr se mnmza la suma: Σ(y ŷ). Al aplcar el método se llega al sguente sstema de ecuacones smultáneas (llamadas ecuacones normales de la recta de regresón de y en x), cuya solucón da los valores de b0 y b1: y nb ( x ) b x y x b x b 0 1 ( ) 0 ( ) 1 Las solucones son las sguentes: y b x y xy n 1 que tambén es _ ( x ) x n _ b0 y b1 x ( xx )( yy ) ( x x)(y y ) S 1 ( x x ) b n 1 XY ( x x) n1 S X Determne la ecuacón de regresón con los datos dados. b1= b0= ŷ =

nav Estadístca (complementos) 4 restaurante x y xy x 1 58 6 105 3 8 88 4 8 118 5 1 117 6 16 137 7 0 157 8 0 169 9 149 10 6 0 140 1300 1040 58 El coefcente de determnacón (r ) El coefcente de determnacón en la regresón lneal smple es una medda de la bondad de ajuste de la recta estmada a los datos reales. Suma de cuadrados debda al error: SCE = Σ(y ŷ ) Suma de cuadrados total: SCT = Σ(y y ) Suma de cuadrados debda a la regresón: SCR = Σ(ŷ - y ) Relacón entre SCT, SCR y SCE: SCT = SCR + SCE SCR Coefcente de determnacón : r SCT SCE SCE SCT = 1 SCT SCT Expresado r en porcentaje, se puede nterpretar como el porcentaje de la varabldad total de Y que se puede explcar aplcando la ecuacón de regresón. 0 00 180 160 ŷ = b0 + b1 x ŷ =60 + 5x 140 10 100 80 y 130 60 40 0 4 6 8 10 1 14 16 18 0 4 6 8 30 poblacón estud. (mles)

nav Estadístca (complementos) 5 restauran te x (poblac. estud) cálculo de SCE y SCT Y (ventas trmest.) 1 58 6 105 3 8 88 4 8 118 5 1 117 6 16 137 7 0 157 8 0 169 9 149 10 6 0 ŷ = 60 + 5 x Resduales y ŷ (y ŷ) y y = (y 130) (y y ) = (y 130) TOTALES 140 1,300 SCE=1,530 SCT=15,730 La suma de cuadrados debda a la regresón se calcula por dferenca: SCR = SCT SCE = 15,730 1,530 = 14,00 El coefcente de determnacón es entonces: SCR r SCT = 14,00/15,730 = 0.907 El 90.7% de la varacón en las ventas se puede explcar con la relacón lneal entre la poblacón estudantl y las ventas. El coefcente de correlacón lneal (r) Es una medda descrptva que mde la ntensdad de asocacón lneal entre las dos varables, x y y. Los valores del coefcente de correlacón lneal sempre están entre 1 y +1. 1 sgnfca una relacón lneal negatva perfecta, +1 sgnfca una relacón lneal postva perfecta. Los valores cercanos a cero ndcan que las varables x y y no tene relacón lneal. El coefcente de correlacón lneal se relacona con el coefcente de determnacón así: r = (sgno de b1) r (1) b1 es la pendente la recta de regresón de y en x. El coefcente de determnacón es más general que el coefcente de correlacón lneal. PRUEBAS DE SIGNIFICACIÓN PARA LA REGRESIÓN LINEAL La ecuacón de regresón lneal smple ndca que el valor medo o valor esperado de y es una funcón lneal de x: E(y/x) = β0 + β1 x. S β1=0 entonces E(y/x) = β0 y en este caso el valor medo no depende del valor de x, y conclumos que x y y no tenen relacón lneal. En forma alternatva, s el valor β1 0 llegamos a la conclusón que las dos varables se relaconan ( más específcamente, que hay una componente lneal en el modelo). Exsten dos pruebas, por lo menos, que se pueden utlzar para tal fn. En ambas se requere una estmacón de, la varanza de en el modelo de regresón. (1) El coefcente de correlacón se defne como SXY r SS denomnador es el producto de las desvacones típcas. x Y ; SXY es la covaranza muestral y el

nav Estadístca (complementos) 6 Cuadrados medos del error CME ( es una estmacón de ) S = CME = SCE/(n-) n- son los grados de lbertad asocados a SCE. son los parámetros estmados en la regresón lneal ( β0 y β1 ) y n es el número de pares de datos. Error estándar de estmacón (s) Es la raíz cuadrada de s SCE, s CME n y es el estmador de la desvacón estándar. Dstrbucón muestral de b1 b1 es un estadístco con dstrbucón normal de meda b1 = 1 y desvacón estándar b1=. S susttumos por su estmacón muestral, s, obtenemos un ( x x ) estmador de b1 que denotaremos por sb1. nformacón podemos construr un estadístco t. con =n- g.l. Prueba t de sgnfcacón en la regresón H0: 1 = 0 H1: 1 0 b1 0 Estadístco de contraste bajo H0, tc s b 1 t sb1= b s b 1 (x s x). Con esta 1 1 el cual se dstrbuye Decsón: Se rechaza H0 en favor de H1 s tc > t o s p-valor < ( Realzar la prueba con los datos del ejm propuesto). Prueba de sgnfcanca usando el estadístco F (es una prueba más general) Se usan dos estmacones de, una basada en CME y la otra basada en CMR. SCE CME y n SCR SCR CMR. númerode varables ndependentes 1 CME es un estmador nsesgado de, mentras que CMR lo es sólo s H0 es certa. S H0 es falsa, CMR tende a sobreestmar. El estadístco de contraste, bajo H0 es una F. F=CMR/CME con 1 gl en el numerador y n- en el denomnador. Los datos se acomodan en una tabla ANOVA. Se rechaza H0 en favor de H1 s Fc>F o tambén s el p-valor correspondente es menor que el nvel de sgnfcanca

VENTAS nav Estadístca (complementos) 7 Tabla ANOVA Fuente de varacón Suma de cuadrados Grados de lbertad Cuadrados medos F Regresón SCR 1 CMR F=CMR/CME Error SCE n- CME total SCT n-1 p-valor o sg. Realza la prueba del ejemplo usando ANOVA. Fuente de varacón Suma de cuadrados Grados de lbertad Cuadrados medos F p-valor o sg. Uso de la ecuacón de regresón lneal para evaluar y predecr. El modelo de regresón lneal smple es un supuesto acerca de la relacón entre x y y. S los resultados tenen una relacón estadístcamente sgnfcatva entre x y y, y s el ajuste que proporcona la ecuacón de regresón parece bueno, ésta podría utlzarse para estmacones y predccones. Intervalo de confanza para estmar la meda de y para un valor dado xp de x. µy /X p =E(y/xp): ŷp ± t / s 1 ( xp x) n ( x x) Intervalo de predccón para estmar un valor ndvdual de Y para un valor dado xp de x: Yp: ŷp ± t / s 1 1 ( x x) n ( x x) p 0 00 180 160 140 10 100 80 60 40 0 4 6 8 10 1 14 16 18 0 4 6 8 30 POBLAC

nav Estadístca (complementos) 8 Ejercco: a) Se desea estmar, medante un ntervalo del 95% de confanza, el promedo de venta trmestral para todos los restaurantes cercanos a centros escolares con 10,000 estudantes: µy: ŷp ± t / s xp= 10 ; ŷp=60+5(10)=110 ; x =140/10 = 14 ; ( x = 568 ; n=10 ; x) ( x =(10 14) SCE 1530 =16 ; CME 13. 893 ; t /=.306 p x) s n 8 µy/x=10 : 110 ± 11.415 mles de dólares. b) Se desea predecr, medante un ntervalo del 95% de confanza, las ventas trmestrales para un restaurante que se construrá cercano a un centro estudantl de 10,000 estudantes : Yp: ŷp ± t / s 1 1 ( x x) n ( x x) p Yp: 110 ± 33.875 mles de dólares Análss de resduales: valdacón de los supuestos del modelo Como ya se djo, el resdual en la observacón es la dferenca entre el valor observado de la varable dependente (y ) y el valor estmado de esa varable ( yˆ ). Resdual en observacón : y yˆ El análss de resduales es la prncpal herramenta para determnar s es adecuado el modelo de regresón supuesto. y = 0 + 1 x + ; es el térmno del error en el modelo, y se hacen los sguentes supuestos para él: 1. E() = 0. La varanza de, representada por, es gual para todos los valores de x. 3. Los valores de son ndependentes. 4. El térmno del error,, tene tendenca normal de probabldad. Estos supuestos forman la base teórca de las pruebas t y F que se usan para determnar s la relacón entre x y Y es sgnfcatva, y para los estmados de ntervalos de confanza y de predccón que ya se descrberon. El SPSS provee dos tpos de gráfcos para determnar las característca de los resduales: Un gráfco de resduales en funcón de x o de yˆ, con el cual se puede analzar s la varanza es constante, y un gráfco de probabldad normal. Generalmente se trabaja con los resduales estandarzados o tpfcados. Determnar estos gráfcos para los datos del ejemplo de la pzería Armand. Hay otros análss para los resduales que permten determnar valores atípcos y observacones nfluyentes en los datos muestrales que por ahora no estudaremos.

nav Estadístca (complementos) 9 Modelos no lneales ntrínscamente lneales Hay alguna tendencas que no son lneales pero con una adecuada transformacón de varables se pueden transformar en lneales, por ejm tendencas exponencales, potencales, logarítmca, etc. El Spss tene ésas y otras tendencas en el menú de regresón. Los sguentes ejerccos son de ese tpo: 1. Los sguentes datos se referen al crecmento de una colona de bacteras en un medo de cultvo: Días desde la noculacón x Número de bacteras (en mles) y 3 115 6 147 9 39 1 356 15 579 18 864 a) Trace ln(y) versus x para verfcar que es razonable una curva exponencal. b) Ajuste una curva exponencal a los datos. c) Estme el número de bacteras al térmno de 0 días.. Los sguentes datos se referen a la demanda de un producto (en mles de undades) y su preco (en centavos) en cnco mercados dferentes: Preco X Demanda y 0 16 41 10 10 11 89 14 56 Ajuste una funcón potencal y úsela para estmar la demanda cuando el preco del producto es de 1 centavos. 3. Los sguentes datos se referen al tempo de secado de un certo barnz y a la cantdad de adtvo añaddo para reducr el tempo de secado: Cantdad de adtvo agregado (g) x Tempo de secado (horas) y 0 1.0 1 10.5 10.0 3 8.0 4 7.0 5 8.0 6 7.5 7 8.5 8 9.0 a) Dbuje un dagrama de dspersón para verfcar que es razonable suponer que la relacón es parabólca. b) Ajuste un polnomo de segundo grado con el método de mínmos cuadrados.

nav Estadístca (complementos) 10 Regresón múltple Fórmulas clave Varables ndependentes =(x 1,x,,x p ) Modelo de regresón múltple y= 0 + 1 x 1 + x +... + p x p + Ecuacón de regresón múltple Ecuacón de regresón múltple estmada Crtero de mínmos cuadrados µ Y/ = E(y/ ) = 0 + 1 x 1 + x +... + p x p Y = b 0 + b 1 x 1 + b x +... +b p x p mn ( y y ) Relacón entre SCT, SCR y SCE SCT = SCR + SCE Coefcente de determnacón múltple r SCR SCT SCE SCE = 1 SCT SCT SCT Coefcente de determnacón múltple ajustado r a 1(1 r n 1 ) n p 1 Cuadrado medo debdo a la regresón Cuadrado medo del error SCR CMR p SCE CME n p 1 Estadístco de la prueba F CMR F CME Estadístco de la prueba t b t S b

nav Estadístca (complementos) 11 Modelo de regresón múltple El análss de regresón múltple es el estudo de la forma en que una varable dependente, y, se relacona con dos o más varables ndependentes. En el caso general emplearemos p para representar la cantdad de varables ndependentes. y = 0 + 1 x 1 + x +... + p x p + El térmno del error explca la varabldad en y que no puede explcar las p varables ndependentes. El error es una varable aleatora dstrbuda normalmente con meda cero y varanza constante,, para todos los valores de las X. S consderamos el valor medo de la varable y dadas las varables ndependentes =(x 1,x,,x p ), obtenemos la ecuacón de regresón lneal µ Y/ =E(y/ ) = 0 + 1 x 1 + x +... + p x p Utlzando los datos de una muestra de tamaño n y el método de mínmos cuadrados se determna la ecuacón de regresón múltple estmada: Y = b 0 + b 1 x 1 + b x +... +b p x p Cada coefcente b representa una estmacón del cambo en y que corresponde a un cambo untaro en x cuando todas las demás varables ndependentes se mantenen constantes. Coefcente de determnacón múltple (r ) r se nterpreta como la proporcón de la varabldad de la varable dependente que se puede explcar con la ecuacón de regresón múltple. SCR SCT SCE SCE r = 1 SCT SCT SCT SCT: suma de cuadrados total ( y y) SCR: Suma de cuadrados debda a la regresón ( yˆ y) SCE: Suma de cuadrados debda al error y yˆ ) Pruebas de sgnfcanca ( Prueba F H0 : 1... p 0 H1 : Unoo más de los parámetrosno es cero F C =0.05 es el nvel de sgnfcacón de la prueba. CMR ; CMR=SCE/p y CME=SCE/(n-p-1) CME Se rechaza H 0 s el p-valor de F C es menor que.

nav Estadístca (complementos) 1 Los resultados se acomodan en una tabla ANOVA. Tabla ANOVA Fuente de varacón Suma de cuadrados Grados de lbertad Cuadrados medos F Regresón SCR p CMR=(SCR/p) FC=CMR/CME Error SCE n-p -1 CME=(SCE/(n - p -1)) total SCT n-1 p-valor o sg. Prueba t para coefcentes ndvduales ( ) 0 0 b tc ; con =n-p-1 S b Se rechaza H 0 s t c > t /; o alternatvamente, s p-valor de t c es menor que. Multcolnealdad En el análss de regresón hemos empleado el térmno varables ndependentes para ndcar cualquer varable que se usa para predecr o explcar el valor de la varable dependente. Sn embargo, el térmno no ndca que las varables ndependentes sean ndependentes entre sí en un sentdo estadístco. Al contraro, la mayor parte de las varables ndependentes en un problema de correlacón múltple se correlaconan en certo grado. Tener un coefcente de correlacón de la muestra mayor que 0.70 o menor que -0.70 para dos varables ndependentes es una regla fácl para advertr la posbldad de problemas por multcolnealdad. Cuando las varables ndependentes están muy correlaconadas no es posble determnar el efecto separado de una de ellas sobre la varable dependente. S es posble, se debe evtar nclur en el modelo, varables ndependentes que tengan mucha correlacón. Sn embargo, en la práctca cas nunca es posble adherrse estrctamente a este crtero. Empleo de la ecuacón de regresón estmada para evaluar y predecr. Podemos determnar ntervalos de confanza para estmar la meda de y e ntervalos de predccón para estmar valores ndvduales de y. Como ejemplo de análss de regresón múltple descrbremos un problema que se presentó en la compañía Butler, una empresa dedcada a entregas de encomendas. Para poder contar con mejores programas de trabajo, se desea estmar el tempo daro total que vajan sus operaros. Se han consderado dos varables ndependentes que se cree que nfluyen en el tempo daro total. A contnuacón se muestran los datos de una muestra de 10 recorrdos:

nav Estadístca (complementos) 13 Recorrdo mllas recorrdas (x1) cantdad de entregas (x) tempo de recorrdo en horas (y) 1 100 4 9.3 50 3 4.8 3 100 4 8.9 4 100 6.5 5 50 4. 6 80 6. 7 75 3 7.4 8 65 4 6.0 9 90 3 7.6 10 90 6.1 Incalmente analce el tempo de recorrdo en funcón de las mllas recorrdas y luego ncorpore la cantdad de entregas en el modelo. En cada caso analce tambén la dstrbucón de resduales. Cuál es la ecuacón de regresón estmada en cada caso? Cómo nterpreta los coefcentes de regresón en cada modelo? Cómo nterpreta el coefcente de determnacón múltple r? En general, r aumenta sempre a medda que se agregan varables ndependentes al modelo. Hay muchas personas que preferen ajustar r de acuerdo con el número de varables ndependentes, para evtar una sobreestmacón al agregar otras varables al modelo estudado. n 1 r a 1(1 r ) n p 1 Cuánto vale r a en el ejemplo?. Advértase que cuando r es pequeño, el coefcente ajustado puede asumr un valor negatvo; en este caso el programa de computadora ajusta en cero el valor de ese coefcente. Estme, medante un ntervalo del 95% de confanza, la meda del tempo de vaje para todos los camones que recorren 100 mllas y hacen dos entregas. Estme, medante un ntervalo del 95% de confanza, el tempo de vaje para un camón que va a recorrer 100 mllas y a hacer entregas.

nav Estadístca (complementos) 14 Varables ndependentes cualtatvas Como hemos vsto, las varables nvolucradas en problema de regresón son todas varables numércas tanto las ndependentes como la dependente. Sn embargo, en muchas stuacones se debe ncorporar al modelo varables cualtatvas. El objetvo de esta seccón es mostrar cómo se manejan este tpo de varables. Se crean unas varables llamadas varables fctcas o ndcadoras, las cuales sólo pueden tomar dos valores, 0 y 1. Para ejemplfcar el uso de estas varables consderemos el sguente problema en la empresa Jonson fltraton, la cual se dedca al servco de mantenmento de sstemas de fltrado de agua. Sus clentes se comuncan solctando servco de mantenmento en sus sstemas de fltrado de agua. Para estmar el tempo y el costo de servcos, la gerenca desea predecr el tempo necesaro de reparacón para cada solctud de mantenmento. Se cree que ese tempo de reparacón se relacona con dos factores: la cantdad de meses transcurrdos desde el últmo servco y el tpo de reparacón (mecánca o eléctrca). En la tabla se presentan los datos de una muestra de 10 órdenes de servco: órden de servco Meses desde el últmo servco Tpo de reparacón Tempo de reparacón (horas) 1 eléctrca.9 6 mecánca 3.0 3 8 eléctrca 4.8 4 3 mecánca 1.8 5 eléctrca.9 6 7 eléctrca 4.9 7 9 mecánca 4. 8 8 mecánca 4.8 9 4 eléctrca 4.4 10 6 eléctrca 4.5 Desarrolle un modelo que explque el tempo de reparacón (Y) en funcón de los meses desde el últmo servco (X 1 ) y del tpo de reparacón (x ). Y= 0 + 1 x 1 + x + Haga un análss de los resultados obtendos, nterprete los parámetros estmados. Varables cualtatvas más complejas S una varable cualtatva tene más de dos nveles, se pueden defnr varas varables ndcadoras para resolver el problema. En general se necestan k-1 varables ndcadoras para ncorporar una varable cualtatva con k nveles. Por ejm s una varable tene 3 nveles o categorías (A, B y C) se pueden crear dos varables fctcas de la sguente manera x x 1 1 s es el nvel B 0 s es cualquer otro 1 s es el nvel C 0 s es cualquer otro Con esta defncón tenemos los sguentes valores de x 1 y x. categoría x 1 x A 0 0 B 1 0 C 0 1