T. 9 El modelo de regresión lineal



Documentos relacionados
Figura 1

Inferencia en Regresión Lineal Simple

Tema 6. Estadística descriptiva bivariable con variables numéricas

Modelos lineales Regresión simple y múl3ple

CURSO INTERNACIONAL: CONSTRUCCIÓN DE ESCENARIOS ECONÓMICOS Y ECONOMETRÍA AVANZADA. Instructor: Horacio Catalán Alonso

Aspectos fundamentales en el análisis de asociación

DISTRIBUCIONES BIDIMENSIONALES

Problemas donde intervienen dos o más variables numéricas

Muestra: son datos de corte transversal correspondientes a 120 familias españolas.

Medidas de Variabilidad

Prueba de Evaluación Continua

Instituto Tecnológico Superior del Sur del Estado de Yucatán EGRESIÓN LINEAL REGRESI. 10 kg. 10 cm

Lección 4. Ejercicios complementarios.

Licenciatura en Administración y Dirección de Empresas INTRODUCCIÓN A LA ESTADÍSTICA EMPRESARIAL

Población 1. Población 1. Población 2. Población 2. Población 1. Población 1. Población 2. Población 2. Frecuencia. Frecuencia

TEMA III EL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

A. Una pregunta muy particular que se puede hacer a una distribución de datos es de qué magnitud es es la heterogeneidad que se observa.

Problema: Existe relación entre el estado nutricional y el rendimiento académico de estudiantes de enseñanza básica?

Regresión Lineal Simple y Correlación

Medidas de centralización

REGRESION LINEAL SIMPLE

ACTIVIDADES ESTADÍSTICA UNIDIMENSIONAL. a) Calcula la temperatura media y la temperatura mediana de la semana.

CAPÍTULO 4 MARCO TEÓRICO

Introducción a la Física. Medidas y Errores

TEMA III EL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

EXAMEN FINAL DE ECONOMETRIA, 3º CURSO (GRADOS EN ECO y ADE) 6 de Junio de :00 horas. Pregunta 19 A B C En Blanco. Pregunta 18 A B C En Blanco

Relaciones entre variables

EXAMEN FINAL DE ECONOMETRIA, 3º CURSO (GRADOS EN ECO y ADE) 17 de Mayo de :00 horas

Un estimado de intervalo o intervalo de confianza ( IC

Correlación y regresión lineal simple

EJERCICIOS: Tema 3. Los ejercicios señalados con.r se consideran de conocimientos previos necesarios para la comprensión del tema 3.

EXAMEN FINAL DE ECONOMETRIA, 3º CURSO (GRADOS EN ECO y ADE) 19 de Septiembre de :30 horas. Pregunta 19 A B C En Blanco

UNIDAD 12: Distribuciones bidimensionales. Correlación y regresión

Ejercicios y Talleres. puedes enviarlos a

EJERCICIO 1 1. VERDADERO 2. VERDADERO (Esta afirmación no es cierta en el caso del modelo general). 3. En el modelo lineal general

MATEMÁTICAS para estudiantes de primer curso de facultades y escuelas técnicas

Regresión múltiple k k

REGRESION LINEAL SIMPLE

16/02/2015. Ángel Serrano Sánchez de León

EXAMEN FINAL DE ECONOMETRIA, 3º CURSO (GRADOS EN ECO y ADE) 20 DE JUNIO DE horas

FE DE ERRATAS Y AÑADIDOS AL LIBRO FUNDAMENTOS DE LAS TÉCNICAS MULTIVARIANTES (Ximénez & San Martín, 2004)

ESTADÍSTICA BIDIMENSIONAL ÍNDICE GENERAL

EJERCICIOS. Ejercicio 1.- Para el modelo de regresión simple siguiente: Y i = βx i + ε i i =1,..., 100. se tienen las siguientes medias muestrales:

Análisis de Regresión y Correlación

a) DIAGRAMA DE DISPERSION

Regresión de Datos de Vida

Regresión y Correlación Métodos numéricos

Especialista en Estadística y Docencia Universitaria REGRESION LINEAL MULTIPLE

REGRESION Y CORRELACION

Estas medidas serán más significativas cuanto más homogéneos sean los datos y pueden ser engañosas cuando mezclamos poblaciones distintas.

EXPERIMENTACIÓN COMERCIAL(I)

Regresión Binomial Negativa

Tema 1: Estadística Descriptiva Unidimensional

Tema 3. Estadísticos univariados: tendencia central, variabilidad, asimetría y curtosis

Regresión y correlación simple 113

llamadas variables independientes, d e es, tomando valores en R las p+1 variables consideradas.

Estadísticos muéstrales

Regresión lineal y correlación lineal

ESTADISTÍCA. 1. Población, muestra e individuo. 2. Variables estadísticas. 3. El proceso que se sigue en estadística

IDENTIFICACIÓN Y MODELADO DE PLANTAS DE ENERGÍA SOLAR

INTRODUCCIÓN AL ANÁLISIS DE DATOS SEPTIEMBRE 2014 Código asignatura: EXAMEN TIPO TEST MODELO B DURACION: 2 HORAS.

SEMANA 13. CLASE 14. MARTES 20/09/16

Prueba de Inferencia Estadística y Contraste de Hipótesis. 8 de octubre de 2012 GRUPO A

INTRODUCCIÓN. Técnicas estadísticas

Relación 2: Regresión Lineal.

17/02/2015. Ángel Serrano Sánchez de León

COLEGIO INGLÉS MEDIDAS DE DISPERSIÓN

TEMA 14. ESCALAMIENTO CONJUNTO. INTRODUCCIÓN A LA TEORÍA DE LA RESPUESTA A LOS ITEMS (TRI)

Apéndice A: Metodología para la evaluación del modelo de pronóstico meteorológico

CLAVE - Laboratorio 1: Introducción

El Impacto de las Remesas en el PIB y el Consumo en México, 2015

Facultad de Ciencias Básicas

Tema 1:Descripción de una variable. Tema 1:Descripción de una variable. 1.1 El método estadístico. 1.1 El método estadístico. Describir el problema

Guía para el Trabajo Práctico N 5. Métodos Estadísticos en Hidrología

2 Dos tipos de parámetros estadísticos

Estadísticos muéstrales

Tema 2.- Regresión lineal múltiple (I) Introducción 2.2. Especificación del modelo de regresión lineal múltiple. 2.3.

Examen Final de Econometría Grado

Height (altura) Extraction (extracción)

PRÁCTICA 16: MODELO DE REGRESIÓN MÚLTIPLE SOLUCIÓN

EL MÉTODO DE DIFERENCIAS FINITAS POR GUILLERMO HERNÁNDEZ GARCÍA

Análisis de la varianza de un factor

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS. Métodos multivariantes en control estadístico de la calidad

Riesgos Proporcionales de Cox

CASO PRÁCTICO TEORÍA. 1 i (REGRESIÓN LINEAL CON PESOS ESTADÍSTICOS OBTENIDOS DE RÉPLICAS)

OPENCOURSEWARE REDES DE NEURONAS ARTIFICIALES Inés M. Galván José M. Valls. Preguntas y Ejercicios para Evaluación: Tema 5

Capítulo 2: ANALISIS EXPLORATORIO de DATOS Estadística Computacional 1º Semestre 2003

Un ejemplo de Análisis Factorial de Correspondencias

Tema 9. Análisis de Varianza de un factor. Análisis de la Varianza (ANOVA) Conceptos generales

MEDIDAS DE ASOCIACIÓN: COEFICIENTES DE CORRELACIÓN Y DE REGRESIÓN I.- Introducción En el tema I estudiamos las medidas descriptivas para una

FISICOQUÍMICA FARMACÉUTICA (0108) UNIDAD 1. CONCEPTOS BÁSICOS DE CINÉTICA QUÍMICA

ENUNCIADOS DE LOS EJERCICIOS PROPUESTOS EN 2011 EN MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES. 3 y

TODO ECONOMETRIA. Variables cualitativas

MEDIDAS DESCRIPTIVAS

1. Notación y tabulación

ANEXO A: Método de Interpolación de Cokriging Colocado

Estimación de incertidumbres en calibración de Osciladores

1.Variables ficticias en el modelo de regresión: ejemplos.

PyE_ EF2_TIPO1_

Transcripción:

1 T. 9 El modelo de regresón lneal 1. Conceptos báscos sobre el análss de regresón lneal. Ajuste de la recta de regresón 3. Bondad de ajuste del modelo de regresón Modelos predctvos o de regresón: la representacón de la relacón entre dos (o más) varables a través de un modelo formal supone contar con una expresón lógco-matemátca que, aparte de resumr cómo es esa relacón, va a permtr realzar predccones de los valores que tomará una de las dos varables (la que se asuma como varable de respuesta, dependente, crtero o ) a partr de los valores de la otra (la que se asuma como varable explcatva, ndependente, predctora o ). En lo que respecta al papel que juegan las varables en el modelo, mentras que en el análss de la relacón entre dos varables no se asumía un rol específco para las varables mplcadas (rol smétrco de las varables), la aplcacón de un modelo predctvo supone que una de las varables adopta el papel de varable explcatva y la otra el de varable de respuesta y es, por tanto, que se dce que las varables adoptan un rol asmétrco. En la lteratura estadístca se han planteado dferentes tpos de modelos predctvos que han dado respuesta a las característcas (escala de medda, dstrbucón...) de las varables que pueden aparecer mplcadas en un determnado modelo. El más conocdo es el modelo de regresón lneal (varable de respuesta cuanttatva), s ben, otras opcones a tener en cuenta son el modelo de regresón logístca (varable de respuesta categórca) o el modelo de Posson (varable de respuesta cuanttatva con dstrbucón muy asmétrca), entre otros. 1. Conceptos báscos sobre el análss de regresón lneal El modelo de regresón lneal es el más utlzado a la hora de predecr los valores de una varable cuanttatva a partr de los valores de otra varable explcatva tambén cuanttatva (modelo de Curso 9-1

regresón lneal smple). Una generalzacón de este modelo, el de regresón lneal múltple, permte consderar más de una varable explcatva cuanttatva. Por otra parte, tal como se verá en un tema posteror, es tambén posble nclur varables explcatvas categórcas en un modelo de regresón lneal s se sgue una determnada estratega en la codfcacón de los datos conocda como codfcacón fctca. En concreto, según el modelo de regresón lneal smple, las puntuacones de los sujetos en varables -una de ellas consderada como varable predctora () y la otra como varable de respuesta ()- venen representadas (modeladas) por la ecuacón de una línea recta: Ŷ β β1 1 = + Cuando hay más de una varable explcatva (modelo de regresón lneal múltple), se utlza un subíndce para cada una de ellas, por ejemplo, para el caso de dos varables explcatvas: Ŷ = + + β β1 1 β Ejemplo de aplcacón de un modelo de regresón lneal smple a fn de modelar la dstrbucón conjunta de las varables Estrategas de afrontamento y Estrés. En este ejemplo concreto, el modelo de regresón se concreta en el ajuste a los datos de la sguente ecuacón de regresón (tambén conocda como recta de regresón): ˆ = 75, + (,76) 1 1 8 8 Puntuacón escala de estrés 6 Estrategas de afrontamento 6 8 1 Puntuacón escala de estrés 6 Estrategas de afrontamento 6 8 1 Curso 9-1

Los dos parámetros de la ecuacón de regresón lneal smple, β y β 1, son conocdos como el orgen (tambén, constante) y la pendente del modelo, respectvamente. En conjunto recben el nombre de coefcentes de la ecuacón de regresón. S la ecuacón de la recta de regresón es obtenda a partr de una muestra, y no de una poblacón (esto es, los coefcentes de la ecuacón de regresón son estadístcos, y no parámetros), la ecuacón se expresa como: Ŷ = b + b1 1 3 Una vez que sean conocdos los valores de β y β 1 del modelo de regresón lneal smple, éste puede ser utlzado como modelo predctvo, esto es, para realzar predccones de los valores que tomará la varable de respuesta para determnados valores de la varable explcatva. Basta para ello con susttur en la ecuacón de regresón el valor concreto de que se quera ( ). Al hacerlo, se obtendrá el valor predcho para según la ecuacón de regresón para aquellos casos que en la varable tomen el valor. Este valor es conocdo de forma genérca como puntuacón predcha, sendo representado smbólcamente como ' o ˆ. Ejercco 1: A partr de la dstrbucón conjunta de las varables cuanttatvas e y el correspondente dagrama de dspersón, dbuja la recta de regresón que mejor se ajuste a la nube de puntos. Cuál será la ecuacón de la recta de regresón dbujada?, cuáles serán, por tanto, los valores de β y β 1? Obtener los valores predchos en para dstntos valores de (por ejemplo, para = 3, para = 6, para = 9 ). 5 9 5 11 6 13 18 17 16 15 1 13 1 11 1 9 8 7 6 5 3 1 8 17 1 3 5 6 7 8 9 Curso 9-1

Relacones determnstas vs. probablístcas y error de predccón: El anteror ejemplo representa el caso de una relacón determnsta (perfecta) entre e, donde r = 1, en consecuenca, los valores predchos ˆ a partr de según el modelo de regresón concdrán exactamente con los valores observados en, no cometéndose nngún error de predccón. Sn embargo, esta stuacón es nusual en el ámbto de las cencas socales y de la salud, donde cas sempre nos encontramos con relacones entre varables no perfectas (r 1 o -1). En estos casos, cuando se utlza la recta de regresón para predecr el valor en a partr del valor en de un determnado sujeto ( ), es probable que se cometa un error en la predccón realzada. A este error se le suele denomnar como error de predccón o resdual (E ) y queda defndo, por tanto, como la dferenca entre el verdadero valor de un sujeto en la varable ( ) y su valor predcho según la ecuacón de regresón ( ˆ ): E = ˆ De la expresón anteror se derva que la puntuacón observada de un sujeto en se puede obtener sumando a la puntuacón predcha el error de predccón o resdual para dcha puntuacón, esto es: = ˆ + E Ejemplo de los conceptos presentados para dos varables e (n = 5), sendo el modelo de regresón lneal ajustado a la dstrbucón conjunta de ambas varables, el sguente: ˆ =,8 + 1, 6 6 9 5 1 6 1 8 15 1 1 1 8 6 Sq r lneal =,93 6 8 Curso 9-1

Utlzando la ecuacón de regresón ajustada a los datos, qué error cometemos al predecr a partr de para cada uno de los 5 casos? Por ejemplo, para el cuarto sujeto en la tabla ( = 6), el valor predcho es 1, ( Ŷ =,8+1,6 6 = 1,) y, en consecuenca, su error de predccón o resdual es 1,6 (E = 1 1,). Del msmo modo, para el resto de casos: 5 ˆ 6 6, 9 9, -, 5 1 1,8 -,8 6 1 1, 1,6 8 15 15,6 -,6 E Adelantar que la columna de los errores de predccón consttuye un elemento de nformacón clave a la hora de tratar el concepto de bondad de ajuste del modelo de regresón, algo que se abordará en una seccón posteror. Gráfcamente, el resdual correspondente a cualquer punto del dagrama de dspersón vene representado por su dstanca vertcal a la recta de regresón, tal como se muestra abajo para el caso º de la muestra. 1 1 1 1, = 1,6 1 8 6 Sq r lneal =,93 6 8 Otro ejemplo (Loslla y cols., 5) para el caso de las varables e cuyo dagrama de dspersón se muestra a contnuacón, sendo la correspondente ecuacón de regresón: Ŷ =,6 +,5 Curso 9-1

A la derecha se muestra el error de predccón, según el modelo de regresón ajustado, para el sujeto cuya puntuacón en y en es, respectvamente, 1,65 y 1,8. 6 Interpretacón de β y β 1 : El orgen (o constante) de la ecuacón de la recta de regresón (β ) representa el valor predcho en cuando la varable es gual a ; por su parte, más nteresante resulta el valor de la pendente (β 1 ), el cual representa la nclnacón de la recta de regresón respecto al eje de abscsas, más concretamente, cuánto cambo se produce en Ŷ por cada undad de ncremento en. En este sentdo, β 1 representa un ndcador de la relevanca del efecto que los cambos en tenen sobre. Ejemplo para el caso de varables e, sendo la ecuacón de regresón: Ŷ =,6 +,5 En cuanto que representa el ncremento en Ŷ por cada ncremento de en una undad, el valor de la pendente estará expresado en las msmas undades que la varable de respuesta. Curso 9-1

7 Valores que puede tomar β 1 : Puede tomar valores tanto postvos como negatvos, sendo mayores en valor absoluto cuanto mayor sea la pendente de la recta de regresón. Sería gual a s la recta de regresón fuese horzontal. A contnuacón se muestran ejemplos que muestran el vínculo drecto entre el valor de β y el tpo de relacón exstente entre las varables: β 1 > β 1 < Fgura A. Relacón lneal postva (drecta). Fgura B. Relacón lneal negatva (nversa). β 1 = β 1 = Fgura C. Ausenca de relacón. Fgura D. Relacón no lneal: curvlínea. En la fgura A la relacón entre e es postva (β 1 >), lo cual ndca que cada ncremento de una undad en producrá un ncremento en Ŷ gual al valor de la pendente. En la fgura B la relacón es nversa (β 1 <), por tanto, cada ncremento de una undad en producrá un decremento en Ŷ gual al valor de la pendente. En la fgura C y la fgura D, β 1 = y, por tanto, la recta de regresón es paralela al eje de abscsas, ponendo de manfesto que no exste relacón lneal entre e. Ejemplo: A contnuacón se presentan los datos de un estudo cuyo objetvo fue nvestgar el efecto de las estrategas de afrontamento () de los sujetos sobre su nvel de estrés (). En los sguentes apartados veremos cómo obtener el valor de los dos coefcentes del modelo de regresón lneal (lo que se conoce como el ajuste o dentfcacón del modelo), cómo utlzarlo Curso 9-1

8 para realzar predccones en Estrés a partr del valor de Afrontamento de los sujetos, y cómo valorar la caldad de dchas predccones (lo que se conoce como el análss de la bondad de ajuste o capacdad predctva del modelo). En la tabla nferor se muestran las puntuacones recogdas a partr de una muestra de 7 sujetos en una escala observaconal de estrés y en un test orentado a evaluar la utlzacón de mecansmos de afrontamento. El rango de puntuacones en ambas varables puede osclar entre a 1, sgnfcando puntuacones más altas mayor estrés y mayor capacdad de utlzacón de mecansmos de afrontamento, respectvamente. Caso 1 3 5 6 7 8 9 1 11 1 13 1 15 16 17 18 19 1 3 5 6 7 Estrés 61 6 3 38 8 17 1 7 15 5 5 5 3 78 1 35 31 6 7 17 37 5 5 67 7 Afronta 38 8 8 6 18 65 78 6 5 58 5 19 8 63 3 87 8 83 85 35 15 9 8 35 1 8 Puntuacón escala de estrés 6 6 8 1 Estrategas de afrontamento Curso 9-1

9. Ajuste de la recta de regresón La dentfcacón o ajuste de un modelo de regresón supone obtener los coefcentes que caracterzan al msmo, en el caso del modelo de regresón lneal smple, β y β 1. Ello supone aplcar un procedmento de cálculo (método de estmacón) que permta, a partr de los datos dsponbles, obtener los coefcentes de la ecuacón de la línea recta que represente óptmamente la dstrbucón conjunta de las varables modeladas. Ahora ben, cuál es la línea recta que representa óptmamente a una nube de puntos?, en defntva, cuál es la que ofrece una mayor bondad de ajuste? Ejemplo: para los 3 pares de valores en las varables e representados gráfcamente abajo se han superpuesto posbles rectas de regresón, cuál sería la recta de regresón que elegríamos como mejor?, por qué? En prncpo, un crtero natural de bondad de ajuste supone consderar la ecuacón de regresón que dé lugar a un menor error en las predccones. Ahora ben, pueden consderarse dferentes procedmentos a la hora de hacer operatva la evaluacón de la magntud de los errores de predccón. Por ejemplo, la tabla nferor (Loslla y cols., 5) lustra gráfcamente la dferenca entre el uso de tres métodos a la hora de evaluar la magntud de los errores de predccón de un determnado modelo de regresón: la suma de los errores (SE); la suma de los valores absolutos de los errores (SAE); y la suma de los cuadrados de los errores (SCE). Para cualquera de ellos, tendrá un mejor ajuste la ecuacón de regresón que tenga un valor más próxmo a. Curso 9-1

1 Ejemplo: en la tabla nferor se muestra el resultado de aplcar los 3 métodos consderados a cada una de las ecuacones de regresón ajustadas a los datos del ejemplo anteror, cuál de ellos hace corresponder como mejor modelo a aquél que hemos elegdo anterormente de forma gráfca?, qué ventajas e nconvenentes encontramos a estos métodos? Método SE Σ E Método SAE Σ E Método SCE Σ E Recta A: = 3,6 + 1, +6+( 6) = +6+6 = 1 +6 + ( 6) = 7 Recta B: = 7, +, 6++ = 6 6++ = 6 ( 6) ++ = 36 Recta C: = 3 +,5 3+( 3)+ = 3+3+ = 6 3 +( 3) + = 18 Recta D: = 1, +,8 +6+ = 6 +6+ = 6 +6 + = 36 (SE: Sumatoro de los errores; SAE: Sumatoro de valores absolutos de los errores; SCE: Sumatoro de cuadrados de los errores) Como puede observarse, el método SE enmascara la posble exstenca de errores de gran magntud que, al sumarse y ser de dstnto sgno, se compensan entre sí dando lugar a un valor de SE que puede llegar a ser bajo o ncluso nulo. Tanto el crtero SAE como el SCE salvan este nconvenente, sn embargo, el método SCE se ve favorecdo por la exstenca de errores que, en general, sean tan bajos como sea posble, pues los errores ndvduales altos, al elevarse a cuadrado, se converten en números muy grandes. En resumen, la ventaja del método SCE estrba en que su valor será más bajo cuando globalmente los errores para todas las observacones sean pequeños, algo que resulta deseable para una recta que represente a todos los datos y que pueda utlzarse a la hora de realzar predccones. Dadas la ventaja del método SCE frente a otros a la hora de evaluar la magntud de los errores de predccón, éste ha vendo en constturse como el método más popular a la hora de estmar los coefcentes de la ecuacón de regresón. Así, para este método, conocdo como método de los mínmos cuadrados ordnaros, la mejor recta de regresón, de entre todas las posbles que se pueden ajustar a la dstrbucón conjunta de varables, será aquélla para la que la SCE sea mínma: Mejor modelo de regresón mn( SCE) = mn ( E ) mn ( ( ˆ ) = ) Curso 9-1

11 Tras realzar las dervacones matemátcas pertnentes, de acuerdo al método de mínmos cuadrados ordnaros, las fórmulas de obtencón de los parámetros de la ecuacón de regresón que van a satsfacer que la SCE sea mínma son las sguentes: β σ 1 = ρ 1 σ β = µ β µ en el caso que los msmos deban ser estmados a partr de datos muestrales, los mejores estmadores puntuales de los anterores parámetros son los sguentes estadístcos: ˆ s s' β b = r o r ˆ β b = b 1 1 1 s s' A partr de lo anteror, la ecuacón de la recta de regresón quedaría expresada a nvel muestral como ˆ = b+ b1, s ben, tambén aparece en algunos lbros de texto como ˆ = a+ b. Ejercco : a) Obtener el valor de los coefcentes b y b 1 para el ejemplo sobre afrontamento y estrés, tenendo en cuenta los sguentes resultados: r xy =,87; s =,8; s =,37; = 5, e = 35,56 b) Plantear la ecuacón de la recta de regresón. c) Qué predccón de estrés haríamos para un sujeto con una puntuacón de 78 en la escala de afrontamento ( = 78)? Cuál sería el error de predccón (E ) para este sujeto? d) Interpretar los coefcentes de la recta de regresón e) Dbujar (de forma aproxmada) la recta de regresón sobre el dagrama de dspersón de las varables presentado anterormente. f) A contnuacón se muestran los outputs obtendos con el programa SPSS del análss de regresón para este ejemplo. Identfcar en los msmos los resultados obtendos anterormente. Modelo 1 Resumen del modelo R cuadrado Error típ. de la R R cuadrado corregda estmacón.87 a.717.75 1.1 a. Varables predctoras: (Constante), Estrategas de afrontamento Curso 9-1

1 Modelo 1 (Constante) Estrategas de afrontamento Coefcentes a Coefcentes no estandarzados Coefcent es estandar zados B Error típ. Beta t Sg. 75.5 5.53 13.63. -.763.96 -.87-7.951. a. Varable dependente: Puntuacón escala de estrés 3. Bondad de ajuste del modelo de regresón La bondad de ajuste de un modelo de regresón se refere al grado en que éste es convenente como modelo que representa a las varables mplcadas en el msmo. Tal como hemos vsto, al ajustar un modelo de regresón lneal smple a la dstrbucón conjunta de varables obtendremos la mejor recta de regresón de entre todas las posbles que se pueden ajustar a esa dstrbucón, ahora ben, ello no sgnfca que sea buena como modelo que represente a ambas varables. Así, puede ocurrr que la dstrbucón conjunta de varables sea dfícl de modelar debdo a la nexstenca de relacón entre las varables (ver, por ejemplo, el caso de la Fgura A), o ben, que el modelo de regresón lneal no sea el más adecuado para ese propósto (ver, por ejemplo, el caso de la Fgura B). Fgura A: Ausenca de relacón. Fgura B: Relacón no lneal. Ejemplo: la relacón entre los dos pares de varables 1-1 y - que aparece representada en los dos sguentes dagramas de dspersón (Loslla y cls., 5) es ajustada, casualmente, por la msma ecuacón de regresón lneal ( ' = 5,7+,56 ). Sn embargo, tal como se puede ntur a nvel vsual, la bondad de ajuste de la ecuacón de la fgura de la zquerda será mejor que la de la fgura de la derecha. Curso 9-1

13 1 1 8 8 6 6 1 1 1 16 18 6 8 1 1 1 16 18 6 1 Modelo 1: 1' = 5,7 +,56 Modelo : ' = 5,7+,56 Exsten dferentes aproxmacones en la evaluacón de la bondad del ajuste de un modelo a la realdad que ese modelo pretende representar. Una elemental consste en comparar las puntuacones predchas por el modelo de regresón ( ˆ ) con las puntuacones reales a partr de las que ha sdo estmado ( ). El índce más utlzado en esta aproxmacón es, precsamente, el conocdo como la suma de cuadrados de los errores de predccón (o resduales) (SCE o SC ), el cual ya fue ntroducdo en el apartado anteror como crtero de referenca del método de estmacón de mínmos cuadrados ordnaros en la estmacón de los parámetros de la ecuacón de regresón: SCE ( o SC ) = n n E = 1 = 1 = ( ˆ ) La suma de cuadrados de los resduales puede osclar entre y cualquer valor postvo. S este sumatoro da, el modelo de regresón se ajusta perfectamente a los datos; cuanto mayor sea su valor, ello sgnfcará que más erróneas son las predccones de la ecuacón de regresón y, por lo tanto, peor su bondad como modelo predctvo. Consecuenca de esta ausenca de un techo numérco, este índce puede resultar dfícl de nterpretar en la práctca. Un índce dervado del anteror es el que se obtene como meda artmétca del cuadrado de los errores de predccón, esto es, el resultado de dvdr la SCE por n, el cual se denomna como varanza de los errores ( S que SCE. ). De nuevo, este índce adolece del msmo problema de nterpretacón S n = = 1 ( ˆ ) n Curso 9-1

1 Otro índce que supera el problema nterpretatvo de los dos anterores ha sdo propuesto tras tomar como punto de referenca una relacón básca que se da cuando se ajusta un modelo de regresón lneal a (o más) varables. Es la que se conoce como gualdad de la descomposcón de la varanza de, la cual se derva del axoma que establece que la puntuacón observada en la varable de respuesta es gual a la predcha según el modelo de regresón más el error de predccón cometdo: = ˆ + E. A partr de la anteror gualdad se puede dervar algebracamente la sguente: SC SC' SC = +, o lo que es lo msmo: n n n ' ( ) ( ) ( = 1 = 1 = 1 = + ' ) S cada uno de los térmnos de la expresón anteror lo dvdmos por n, tendremos la msma gualdad expresada en forma de varanzas: s = s + s ' Así, la varanza en las puntuacones de la varable de respuesta () es gual a la varanza explcada por el modelo de regresón (varanza de las puntuacones predchas) más la varanza no explcada por el modelo de regresón (varanza de los errores o resduales). ( s se hubese dvddo por n-1, lo msmo con cuas-varanzas: s= ) Consecuenca de la gualdad de descomposcón de la varanzas, se puede plantear un índce de la bondad de ajuste como razón de la varanza explcada por el modelo de regresón ( s ' ) respecto a la varanza total ( s ): s s ' La anteror razón, conocdo como coefcente de determnacón (R ), puede tambén expresarse en forma de razón de cuas-varanzas o de sumas de cuadrados: R ' = s' s' SC ' s = s = ' SC Curso 9-1

15 El coefcente de determnacón (R ) representa la proporcón de varanza de explcada por las varables mplcadas en el modelo de regresón ajustado a los datos ( en el modelo de regresón lneal smple). En cuanto que una razón, este coefcente osclará sempre entre y 1, de modo que cuanto más próxmo sea R a 1, ndcará mejor bondad de ajuste del modelo de regresón a la dstrbucón conjunta de las varables. S R es gual a 1, el ajuste será perfecto. Otro propuesta de índce de bondad de ajuste complementara a la anteror, aunque mucho menos utlzada en la práctca, es el conocdo como coefcente de alenacón, el cual tambén oscla entre y 1, s ben, en este caso valores próxmos a 1 ndcan peor bondad de ajuste del modelo a los datos. SC s s ' CALN = = = SC s s ' Obvamente, CALN = 1 R Destacar que, en el caso del modelo de regresón lneal smple, el coefcente de determnacón puede ser tambén calculado elevando al cuadrado el coefcente de correlacón de Pearson entre la varable predctora y la varable de respuesta R = r, lo cual puede facltar enormemente el cálculo de R s se conoce r. En resumen: R SC s s ' ' ' ' = = = = r SC s s ' Ejemplo de cálculo de la recta de regresón de sobre a partr de los sguentes 5 pares de puntuacones en ambas varables: 8 11 5 11 9 3 1 = 6; S = 3,16; = 7; S = 3,7; r =,69 Ecuacón de la recta de sobre : ˆ =,8 +,8 Curso 9-1

16 Obtencón valores predchos ˆ para cada sujeto: ˆ =, 8 +,8 E ˆ ) 8 11 5 11 9 3 1 5,36 8,6 11,1 3,7 6,18 ( -3,36,36 -,1 -,7 3,8 ˆ ) ( 11,9 5,57,1,5 1,59 ( ˆ,69,69 16,81 1,76,67 ) s = 36,/5 = 7,8 s ' = 33,6/5 = 6,7 A partr de los valores predchos se puede obtener: - La varanza de los errores (o resduales) s = 7,8 - La varanza de las puntuacones predchas s ' = 6,7 Descomposcón de la varanza de : s = 3,7 = 1 1 = 6,7 + 7,8 s = s + s ' Coefcente de determnacón (proporcón de la varanza de explcada por ): R = 6,7/1 =,8 (=,69 ) Coefcente de alenacón (proporcón de la varanza de no explcada por ): CALN = 7,8/1 =,5 (= 1,8) Ejercco 3: Al estudar la relacón entre dos varables e, sabemos que la varanza de es 1 y la varanza de los errores es 8. Cuál es el valor del coefcente de determnacón y del de alenacón?, y el del coefcente de correlacón de Pearson entre e? Ejercco : En una muestra de 1 alumnos de enseñanza secundara se han meddo dos varables: rendmento en el curso, cuantfcado como el promedo de las calfcacones de las asgnaturas del curso (); y el promedo de horas de estudo semanal durante el curso, obtendo a partr de autonforme de los propos estudantes (). Los datos obtendos son los que se muestran a contnuacón: Curso 9-1

17 5 3 1 6 7 9 5 15 9 1 6 1 6 8 5 18 9 1 7 Obtener a partr de los msmos: (1) medas y desvacones típcas de las dos varables [ a mano o, mejor, con la calculadora]; () el coefcente de correlacón de Pearson entre ambas varables [ídem]; (3) la ecuacón del modelo de regresón lneal de sobre [ídem]; () los valores predchos por la ecuacón de regresón para cada sujeto ( ˆ ); (5) los errores de predccón o resduales para cada sujeto (E ); (6) la varanza de los errores ( s ); (7) la varanza de ( s ); (8) la varanza de las puntuacones predchas ( s Ŷ ) [ a mano o, mejor, con la calculadora]; (9) comprobar que es certa la gualdad de la descomposcón de la varanza ( S = S ˆ + S ); (1) el coefcente de determnacón [de dos formas: (1.1) a partr de las varanzas; (1.) a partr del coefcente de correlacón entre e ]; (11) nterpretar las estmacones puntuales de los parámetros de la ecuacón de regresón obtendos (b y b 1 ); (1) estmar según el modelo de regresón obtendo cuál será la puntuacón meda obtenda a fnal de curso para un estudante que dedque 16 horas de estudo a la semana de promedo. Ejercco 5: A contnuacón se muestran el output del análss de regresón realzado con el programa SPSS para los datos del ejercco anteror. Identfcar en los msmos los resultados obtendos en el ejercco anteror (apartados, 3 y 6 a 1). Resumen del modelo Modelo R R cuadrado R cuadrado corregda Error típ. de la estmacón 1.96(a).93.91.56 Curso 9-1

18 ANOVA Modelo Suma de cuadrados gl Meda cuadrátca F Sg. 1 Regresón 31.613 1 31.613 15.935.(a) Resdual.387 8.98 Total 3. 9 a Varables predctoras: (Constante), Horas_estudo b Varable dependente: Rendmento_curso Coefcentes(a) Modelo Coefcentes no estandarzados Coefcentes estandarzados T Sg. Intervalo de confanza para B al 95% B Error típ. Beta Límte nferor Límte superor 1 (Constante).81.533 1.519.167 -.19.39 Horas_estudo.7.6.96 1.9..366.578 Ejercco 6: En el ejemplo anteror de las varables de Afrontamento y Estrés sabemos que r =,87 y que S =,37. Cuál será el valor del coefcente de determnacón?; cómo se nterpreta dcho valor?; cuál es el valor de la varanza de explcada por el modelo de regresón (en este caso, por la varable Afrontamento )?, y cuál el de la varanza de los resduales? Referencas: Loslla, J. M., Navarro, B., Palmer, A., Rodrgo, M. F. y Ato, M. (5). Del contraste de hpótess al modelado estadístco. Documenta Unverstara. [www.edconsapetco.com] Curso 9-1