Modelos lneales Regresón smple y múl3ple Dept. of Marne Scence and Appled Bology Jose Jacobo Zubcoff Modelos de Regresón Smple Que tpo de relacón exste entre varables Predccón de valores a partr de una de ellas Varable Explcatva, Predctor o Independente Varable Dependente 1
Estudo conjunto de dos varables Datos de dos varables de una muestra. En cada fla tenemos los datos de un ndvduo Cada columna representa los valores que toma una varable sobre los msmos. Las ndvduos no se muestran en nngún orden partcular. Las observacones pueden ser representadas en un dagrama de dspersón Nuestro objetvo será ntentar reconocer a partr del msmo s hay relacón entre las varables, de qué tpo, y s es posble predecr el valor de una de ellas en funcón de la otra. Altura en cm. Peso en Kg. 16 61 154 1 78 158 6 171 66 169 166 54 176 84 163 68...... 100 Dagramas de dspersón o nube de puntos Tenemos las alturas y los pesos de ndvduos representados en un dagrama de dspersón. 90 Pesa 76 kg. Pesa kg. Mde 161 cm. 1 1 1 1 1 190 00 Mde 187 cm.
Relacón entre varables Tenemos las alturas y los pesos de ndvduos representados en un dagrama de dspersón. 100 90 Parece que el peso aumenta con la altura 1 1 1 1 1 190 00 100 90 Predccón de una varable en funcón de la otra Aparentemente el peso aumenta 10Kg por cada 10 cm de altura... o sea, el peso aumenta en una undad por cada undad de altura. 10 kg. 10 cm. 1 1 1 1 1 190 00 3
3 1 1 Incorrelacón Relacón drecta e nversa 1 1 1 1 1 190 00 Para valores de X por encma de la meda tenemos valores de Y por encma y por debajo en proporcones smlares. Incorrelacón. 0 10 Certa relacón nversa 0 1 1 1 1 1 190 00 100 90 Fuerte relacón drecta. 1 1 1 1 1 190 00 Para los valores de X mayores que la meda le corresponden valores de Y mayores tambén. Para los valores de X menores que la meda le corresponden valores de Y menores tambén. Esto se llama relacón drecta. Para los valores de X mayores que la meda le corresponden valores de Y menores. Esto es relacón nversa o decrecente. Cuándo es bueno un modelo de regresón? y y 3 3 3 0 3 3 3 3 390 r= 0.415 r^ = 0.17 1 1 1 1 190 r= 0.984 r^ = 0.969 Lo adecuado del modelo depende de la relacón entre: la dspersón margnal de Y La dspersón de Y condconada a X Es decr, fjando valores de X, vemos cómo se dstrbuye Y La dstrbucón de Y, para valores fjados de X, se denomna dstrbucón condconada. La dstrbucón de Y, ndependentemente del valor de X, se denomna dstrbucón margnal. S la dspersón se reduce notablemente, el modelo de regresón será adecuado. 1 1 1 1 190 4
Interpretacón de la varabldad en Y En prmer lugar olvdemos que exste la varable X. Veamos cuál es la varabldad en el eje Y. Y La franja sombreada ndca la zona donde varían los valores de Y. Proyeccón sobre el eje Y = olvdar X Interpretacón del resduo Mremos ahora los errores de predccón (líneas vertcales). Los proyectamos sobre el eje Y. Y Se observa que los errores de predccón, resduos, están menos dspersos que la varable Y orgnal. Cuanto menos dspersos sean los resduos, mejor será la bondad del ajuste. 5
Ejemplos de correlacones postvas 3 1 1 r=0,1 1 1 1 1 1 190 00 1 10 110 100 90 r=0,4 1 1 1 1 1 190 00 100 90 r=0,8 1 1 1 1 1 190 00 100 90 r=0,99 1 1 1 1 1 190 00 Ejemplos de correlacones negatvas 90 0 10 r=-0,5 0 1 1 1 1 1 190 00 0 10 r=-0,7 0 1 1 1 1 1 190 00 0 10 r=-0,95 0 1 1 1 1 1 190 00 0 10 r=-0,999 0 1 1 1 1 1 190 00 6
Asocacón entre varables contnuas 7
Regresón lneal Meddas de Bondad de ajuste Coefcente de correlacón El coefcente de correlacón (r) es una medda de la ntensdad de la relacón entre dos varables -1 <= r <= 1 Coefcente de determnacón Es la proporcón de la varanza de la varable dependente que está explcada por una varable ndependente en un modelo estadístco. Pendente y constante 0 <= r <= 1 8
Modelo de regresón lneal smple En el modelo de regresón lneal smple, dado dos varables Y (dependente) X (ndependente, explcatva, predctora) buscamos encontrar una funcón de X muy smple (lneal) que nos permta aproxmar Y medante Ŷ = b 0 + b 1 X b 0 (ordenada en el orgen, constante) b 1 (pendente de la recta) Y e Ŷ rara vez concdrán por muy bueno que sea el modelo de regresón. A la cantdad e = (Y-Ŷ) se le denomna resduo o error resdual. Regresón lneal El modelo lneal de regresón se construye utlzando la técnca de estmacón mínmo cuadrátca: Buscar b 0, b 1 de tal manera que se mnmce la cantdad Σ e Se comprueba que para lograr dcho resultado basta con elegr: Se obtene además otras ventajas El error resdual medo es nulo La varanza del error resdual es mínma para dcha estmacón. Traducdo: En térmno medo no nos equvocamos. Cualquer otra estmacón que no cometa error en térmno medo, s es de tpo lneal, será peor por presentar mayor varabldad con respecto al error medo (que es cero). 9
10 Modelos de Regresón Smple Modelo Lneal o Recta de Regresón Y βx = γ + Método de Mínmos Cuadrados X X Y E β = γ + ) ( 1 1 )) ( ( X Y n n β γ ε + = = = Modelos de Regresón Smple bx Y a = 1 1 1 1 ) ( ) )( ( X XY n n n n S S X X Y Y X X nx X nxy X Y b = = " " " " # $ % % % % & ' = = = = = Fórmula para la estmacón por Mínmos Cuadrados Varanza Resdual de Y para cada valor de X ( ) 1.. 1 )) ( ( 1 X Y n X Y S b S n n bx a Y n S = + = =
Múltple Supuestos de la Regresón Lneal No debe exstr nnguna relacón exacta entre cualesquera de las varables ndependentes. Cuando el modelo tene dos varables explcatvas se habla de colnealdad, s hay más de dos varables explcatvas, entonces, hablamos de multcolnealdad. La multcolnealdad es una cuestón de grado no de exstenca. Se supone que es un problema de la muestra y no de la poblacón. S en un modelo de RLM alguna varable ndependente es combnacón lneal de otras, el modelo es rresoluble, debdo a que, en ese caso, la matrz X'X es sngular, es decr, su determnante es cero y no se puede nvertr. Supuestos de la Regresón Lneal Multcolnealdad: cómo detectarla? 11
Supuestos de la Regresón Lneal Multcolnealdad: Solucones Supuestos de la Regresón Lneal Varabldad de los valores de X No todos los valores de X en una muestra dada deben ser guales. La varanza de (X) debe ser un número postvo fnto. Gujarat (1997) La varacón en Y al gual que en X es esencal para utlzar el análss de regresón como herramenta de nvestgacón. las varables deben varar!!! 1
Supuestos de la Regresón Lneal Supuestos de la Regresón Lneal 13
Supuestos de la Regresón Lneal Heterocedastcdad 14
Supuestos de la Regresón Lneal Heterocedastcdad Supuestos de la Regresón Lneal 15
Supuestos de la Regresón Lneal Supuestos de la Regresón Lneal: AUTOCORRELACIÓN 16
Supuestos de la Regresón Lneal AUTOCORRELACIÓN de índces 17
OTROS Supuestos de la Regresón Lneal 18
OTROS Supuestos de la Regresón Lneal OTROS Supuestos de la Regresón Lneal: Valores atípcos 19
OTROS Supuestos de la Regresón Lneal: Valores atípcos Puntos Influyentes 0
Puntos Influyentes Supuestos de la Regresón Lneal: NORMALIDAD Normaldad 1
Múltple RESUMEN Supuestos de la Regresón Lneal No debe exstr nnguna relacón exacta entre cualesquera de las varables ndependentes. Multcolnealdad Independenca de los Resduos (ausenca de autocorrelacón) Normaldad de los Resduos Homocedastcdad de los Resduos Otros requstos Las varables deben varar!! Número sufcente de muestras Varables NO ncludas en el modelo NO afectan sstemátcamente Lnealdad (en caso de NO lnealdad es un error de especfcacón) Ausenca de outlers y puntos nfluyentes