1 Introducción. 2 Modelo. Hipótesis del modelo. MODELO DE REGRESIÓN SIMPLE Julián de la Horra Departamento de Matemáticas U.A.M.

Documentos relacionados
1 Introducción. 2 Modelo. Hipótesis del modelo. MODELO DE REGRESIÓN MÚLTIPLE Julián de la Horra Departamento de Matemáticas U.A.M.

2 Modelo de Diseño de Experimentos con dos factores sin interacción. Hipótesis del modelo

1 Introducción. 2 Modelo. Hipótesis del modelo MODELO DE REGRESIÓN LOGÍSTICA

Tema 4. Regresión lineal simple

Estadística II Tema 4. Regresión lineal simple. Curso 2009/10

TEMA 4 Modelo de regresión múltiple

ANÁLISIS DE REGRESIÓN

TEMA 2 Diseño de experimentos: modelos con varios factores

Tema 8: Regresión y Correlación

7. ANÁLISIS DE VARIABLES CUANTITATIVAS: REGRESIÓN LINEAL SIMPLE

REGRESIÓN LINEAL SIMPLE

Tema 10: Introducción a los problemas de Asociación y Correlación

Regresión múltiple. Demostraciones. Elisa Mª Molanes López

ASOCIACIÓN ENTRE DOS VARIABLES CONTINUAS: REGRESIÓN Y CORRELACIÓN

T2. El modelo lineal simple

INTERVALOS DE CONFIANZA Julián de la Horra Departamento de Matemáticas U.A.M.

ANÁLISIS ESTADÍSTICO REGRESIÓN LINEAL SIMPLE

peso edad grasas Regresión lineal simple Los datos

ESTADÍSTICA. Tema 4 Regresión lineal simple

Tema 3: Análisis de datos bivariantes

Estadística; 3º CC. AA. Examen final, 23 de enero de 2009

Estadística II Examen final junio - 17/06/16 Curso 2015/16 Soluciones Duración del examen: 2 h. y 45 min.

Julio Deride Silva. 4 de junio de 2010

Definición de Correlación

Estructura de este tema. Tema 4 Regresión lineal simple. Ejemplo: consumo de vino y dolencias cardíacas. Frecuencias

Tema 1: Estadística descriptiva. Probabilidad y Estadística (Ing. Informática). Tema 1: Estadística descriptiva 1

MATEMATICAS Primer curso de Ciencias Ambientales / Curso Soluciónes HOJA 4

ESTADÍSTICA APLICADA. Tema 4: Regresión lineal simple

Los estimadores mínimo cuadráticos bajo los supuestos clásicos

ESTIMACIÓN PUNTUAL Julián de la Horra Departamento de Matemáticas U.A.M.

FUNCIONES DE UNA VARIABLE Julián de la Horra Departamento de Matemáticas U.A.M.

Se permite un folio escrito por las dos caras. Cada problema se realiza en hojas diferentes y se entregan por separado.

Regresión lineal. Marcelo Rodríguez Ingeniero Estadístico - Magíster en Estadística

Tema 2: Análisis de datos bivariantes

Tercera práctica de REGRESIÓN.

INTERPRETACIÓN DE LA REGRESIÓN. Interpretación de la regresión

Prácticas Tema 2: El modelo lineal simple

Teoría de la decisión

TEMA 2: DISTRIBUCIONES BIDIMENSIONALES

Estadística Diplomado

TEMA 4 CUESTIONARIO DE AUTOEVALUACIÓN

DISEÑO Y ANÁLISIS DE DATOS EN PSICOLOGÍA II

Correlación. El coeficiente de correlación mide la fuerza o el grado de asociación entre dos variables (r)

4.1 Análisis bivariado de asociaciones

Métodos Estadísticos Multivariados

Profesor: Hugo S. Salinas. Primer Semestre Tabla 1: Inteligencia y Rendimiento. X Y Figura 1: Inteligencia y Rendimiento.

Estadística Descriptiva II: Relación entre variables

CORRELACIÓN LINEAL SIMPLE

VARIABLES ESTADÍSTICAS BIDIMENSIONALES

3. ASOCIACIÓN ENTRE DOS VARIABLES CUALITATIVAS

Tema 4: Otros Métodos de Análisis de Datos Cuantitativos y Cualitativos

Estadística Inferencial. Sesión No. 9 Regresión y correlación lineal

Tema 2: Regresión. Grado en Fisioterapia, 2010/11. Jesús Montanero Fernández. Cátedra de Bioestadística Universidad de Extremadura

Regresión Lineal. Rodrigo A. Alfaro. Rodrigo A. Alfaro (BCCh) Regresión Lineal / 16

REGRESIÓN LINEAL SIMPLE

15. Regresión lineal. Te recomiendo visitar su página de apuntes y vídeos:

Lección 3. Análisis conjunto de dos variables

Ajuste por mínimos cuadrados

Grado en Finanzas y Contabilidad

ANÁLISIS DE LA VARIANZA CON UN FACTOR (ANOVA)

Análisis de la Varianza (ANOVA) y Correlación

Práctica 3: Regresión simple con R

Universidad de Chile DIPLOMA PREPARACIÓN Y EVALUACIÓN SOCIAL DE PROYECTOS Prof: Sara Arancibia

Intervalos de confianza con STATGRAPHICS

Modelos lineales. Tema 1: Modelo de regresión lineal simple. 6 de febrero de Carmen Armero

Método de cuadrados mínimos

1 El Análisis de Varianza

Qué es una regresión lineal?

Tema 13 : Intervalos de probabilidad y confianza. Hipótesis y decisiones estadísticas.

Módulo de Estadística

PRÁCTICA 3. REGRESIÓN LINEAL SIMPLE CON SPSS Ajuste de un modelo de regresión lineal simple Porcentaje de variabilidad explicado

PROBABILIDAD Y ESTADÍSTICA. Sesión 4 4. REGRESIÓN Y CORRELACIÓN SIMPLE

EXTENSIONES DEL MODELO DE REGRESIÓN

Curso de nivelación Estadística y Matemática

Resumen teórico de los principales conceptos estadísticos

El Movimiento Browniano en la modelización del par EUR/USD

Ejemplo 7.1. Heterocedasticidad. Pilar González y Susan Orbe. Dpto. Economía Aplicada III (Econometría y Estadística)

BLOQUE 3 TEMA 11 ESTIMACIÓN DE PARÁMETROS. ERRORES DE ESTIMACIÓN

Un modelo para representar una relación aproximadamente

Estadística para el análisis de los Mercados S3_A1.1_LECV1. Estadística Descriptiva Bivariada

Repaso Estadística Descriptiva

Tema VII. La predicción de variables

CUESTIONES Y PROBLEMAS DE DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES PROPUESTOS EN EXÁMENES

TODO ECONOMETRIA TEMA 1: MODELO BASICO DE REGRESIÓN LINEAL MULTIPLE (MBRL)

6. Inferencia con muestras grandes. Informática. Universidad Carlos III de Madrid

Econometría Aplicada

Introducción a la Estadística Aplicada en la Química

El Modelo de Regresión Lineal General Estimación

El Modelo de Regresión Lineal

Estadística y sus aplicaciones en Ciencias Sociales 5. Estimación. Facultad de Ciencias Sociales, UdelaR

TEMA 4 FASE ESTADÍSTICO-ANALÍTICA: RECURSOS PARA EL ANÁLISIS DE DATOS

Modelo de Análisis de la Covarianza. Introducción al modelo de Medidas Repetidas

ANÁLISIS DE REGRESIÓN N LINEAL

Regresión con variables independientes cualitativas

Estadística para la Economía y la Gestión IN 3401

Tema 3. Modelo de regresión simple. Estadística (CC. Ambientales). Profesora: Amparo Baíllo Tema 3: Regresión simple 1

Estimación del modelo lineal con dos variables

TEMA 3 REGRESIÓN Y CORRELACIÓN

TEMA 3: Contrastes de Hipótesis en el MRL

Regresión ponderada y falta de ajuste

Transcripción:

1 Introducción MODELO DE REGRESIÓN SIMPLE Julián de la Horra Departamento de Matemáticas U.A.M. Los modelos de regresión sirven, en general, para tratar de expresar una variable respuesta (numérica) en función de una o más variables explicativas (también numéricas). En este tema, vamos a abordar el modelo más sencillo: el modelo de regresión simple en el que consideramos una única variable explicativa. Este modelo es especialmente interesante por motivos pedagógicos, ya que permite abordar muchos de los aspectos interesantes de la regresión con una notación y una metodología relativamente sencillas. En concreto, dedicaremos la mayor parte del tiempo al modelo de regresión lineal simple. Ejemplos Podemos estar interesados en expresar el peso de las personas en función de su estatura. Podemos estar interesados en expresar el peso de los ejemplares de cierta especie de aves en función de su envergadura. Podemos estar interesados en expresar el nivel de cierto contaminante en función de la densidad industrial. 2 Modelo. Hipótesis del modelo Disponemos de los siguientes elementos para el estudio estadístico: En primer lugar, una variable respuesta (o dependiente), Y, que será una variable numérica (o cuantitativa): es la variable que se quiere analizar. Formalmente, será una variable aleatoria de tipo continuo. En segundo lugar, una variable explicativa (o independiente), X, que será una variable numérica (o cuantitativa). Recuérdese que los factores en el modelo de diseño de experimentos eran siempre variables cualitativas. En tercer lugar, necesitamos datos. Supondremos que disponemos de n pares de datos: (x 1, y 1 )..., (x i, y i ),..., (x n, y n ) Obsérvese que aquí es absolutamente necesario que los datos vayan emparejados, es decir, que (x i, y i ) representa los valores de X e Y en el i-ésimo individuo o unidad muestral. El modelo de regresión lineal simple es de la siguiente forma: Y i = β 0 + β 1 x i + u i para i = 1,..., n Significado de los parámetros: β 0 = Valor medio de la variable respuesta cuando X = 0. Muy a menudo, el parámetro β 0 no tiene una interpretación intuitiva de interés. 1

β 1 = Mide la variación media que experimenta la variable respuesta cuando X aumenta una unidad. La interpretación intuitiva de β 1 siempre es muy interesante. u i = Término de error = Efecto adicional debido a otras variables que no se incluyen en el modelo por no ser consideradas relevantes. Para poder obtener y utilizar herramientas estadísticas que nos permitan tomar decisiones objetivas y razonadas, necesitamos que el modelo se ajuste a unas determinadas hipótesis. Estas hipótesis iniciales del modelo son las siguientes: Normalidad: Las observaciones Y i siguen una distribución Normal, Linealidad: Los valores medios de la variable respuesta dependen linealmente del valor de X: E[Y i ] = β 0 + β 1 x i, Homogeneidad o igualdad de varianzas (homocedasticidad): V (Y i ) = σ 2, Las observaciones son independientes. Todas estas hipótesis se pueden expresar abreviadamente de la siguiente forma: Y i N(β 0 + β 1 x i ; σ 2 ) independientes. Es importante que estas hipótesis iniciales del modelo se cumplan (aproximadamente) para que las conclusiones que obtengamos no sean una barbaridad. Llegados a este punto, se puede abordar la cuestión de si tenemos suficientes datos (suficiente información muestral) para abordar el análisis estadístico de este modelo. La regla básica para responder a esto es muy fácil de recordar (y de entender): en general, necesitaremos al menos tantos datos como parámetros queremos estimar en el modelo. En este modelo, tenemos: Número de datos= n Número de parámetros= 3 Por lo tanto, necesitamos, al menos, n = 3 pares de datos. 3 Metodología La metodología o plan de trabajo que seguiremos en el análisis estadístico de un modelo de regresión simple es el siguiente: (1) Diagnosis de las hipótesis del modelo. Se llevará a cabo mediante un análisis de los residuos. Si las hipótesis iniciales (Normalidad, Linealidad y Homocedasticidad) no se cumplen ni siquiera aproximadamente, habría que replantearse el modelo de alguna forma. En muchos casos, una transformación de los datos (por ejemplo, trabajando con sus logaritmos neperianos) soluciona el problema. Al final del capítulo, se indicarán las herramientas estadísticas que se pueden utilizar para llevar a cabo la diagnosis de las hipótesis del modelo. 2

(2) Estimación puntual de los parámetros del modelo. (3) Intervalos de confianza para estimar los parámetros del modelo. (4) Contraste de la regresión. El contraste de la regresión dará respuesta a la pregunta más importante que nos planteamos en un modelo de regresión lineal simple: Encontramos diferencias significativas en los valores medios de la variable respuesta para diferentes valores de X? O dicho de otra manera, la variable explicativa tiene una influencia relevante sobre la variable respuesta? (5) Evaluación del ajuste proporcionado por la recta de regresión. (6) Estimación de valores medios e individuales de la variable respuesta. Observación: Para llevar a cabo todo este plan de trabajo, necesitaremos solamente el cálculo de los siguientes estadísticos: Media muestral de X: x = 1 n ni=1 x i Media muestral de Y : ȳ = 1 n ni=1 y i Varianza muestral de X: v x = 1 n ni=1 (x i x) 2 = 1 n ( n i=1 x 2 i n x 2 ) Varianza muestral de Y : v y = 1 n ni=1 (y i ȳ) 2 = 1 n ( n i=1 y 2 i nȳ 2 ) Covarianza muestral entre X e Y : cov x,y = 1 n ni=1 (x i x)(y i ȳ) = 1 n ( n i=1 x i y i n xȳ) 4 Estimación puntual de los parámetros La metodología estadística para obtener estimadores puntuales de los parámetros es la siguiente: Se aplica el método de máxima verosimilitud, y el estimador obtenido se corrige (en caso necesario) para que sea insesgado. Con este procedimiento, se obtienen las siguientes estimaciones: ˆβ 0 = ȳ cov x,y x v x ˆβ 1 = cov x,y v x ˆσ 2 = S 2 R = 1 n 2 i (y i ŷ i ) 2 = 1 n 2 (y i ˆβ 0 ˆβ 1 x i ) 2 i Las estimaciones de β 0 y β 1 que obtenemos por máxima verosimilitud coinciden con las estimaciones que se obtienen mediante la técnica de mínimos cuadrados utilizada en Estadística Descriptiva. Por lo tanto, los coeficientes de la recta de regresión se pueden obtener tanto por máxima verosimilitud como por mínimos 3

cuadrados: y = ˆβ 0 + ˆβ 1 x = ȳ cov x,y v x x + cov x,y x y ȳ = cov x,y (x x) v x El estimador de σ 2, S 2 R, recibe habitualmente el nombre de varianza residual y merece algún comentario adicional. El nombre de varianza residual obedece a que es una varianza que calculamos a partir de los residuos de cada dato. El residuo de cada dato depende del modelo estadístico que estemos utilizando, pero responde siempre a la misma filosofía: Residuo = Valor observado - Estimación del valor esperado = y i ŷ i = y i ˆβ 0 ˆβ 1 x i v x 5 Intervalos de confianza Los estimadores puntuales son muy interesantes, pero son demasiado rígidos. Cuando decimos que estimamos que el parámetro β 1 vale, por ejemplo, 1,15, lo que estamos diciendo en realidad es que pensamos que vale, aproximadamente, 1,15. La forma en que los métodos estadísticos cuantifican este aproximadamente de forma automática y objetiva es a través de los intervalos de confianza. A continuación, damos los intervalos de confianza que se obtienen, aplicando el método de la cantidad pivotal, para estimar los diferentes parámetros involucrados en este modelo: IC 1 α (β 0 ) = 1 ˆβ0 ± t n 2;α/2 S R n + x2 = ( ˆβ0 ± t n 2;α/2 (error típico de ˆβ 0 ) ) IC 1 α (β 1 ) = IC 1 α (σ 2 ) = ( ˆβ 1 ± t n 2;α/2 S R 1 (n 2)S2 R χ 2 n 2;α/2 nv x ) = ( ˆβ1 ± t n 2;α/2 (error típico de nv ˆβ 1 ) ) x ; (n 2)S2 R χ 2 n 2;1 α/2 A continuación, hacemos algunos comentarios sobre el intervalo obtenido para estimar β 1, que es el parámetro más interesante: (a) Cuando aumentamos el nivel de confianza 1 α (es decir, cuando aumentamos la probabilidad de que la estimación sea buena ), t n 2;α/2 aumenta, y la amplitud del intervalo también aumenta (es decir, nuestra estimación se hace menos precisa ). (b) Cuando aumentamos el tamaño de la muestra n, la amplitud del intervalo disminuye (es decir, nuestra estimación se hace más precisa ). (c) Cuando aumentamos la varianza v x correspondiente a los datos de la variable explicativa, la amplitud del intervalo disminuye (es decir, nuestra estimación se hace más precisa ). Por este motivo, conviene diseñar el experimento de modo que los valores de X que obtenemos estén lo más separados posibles, siempre que esto sea posible. 4

6 Constraste de la regresión En el modelo de regresión lineal simple, la cuestión más importante a la que hay que responder es la siguiente: Disponemos de suficiente evidencia muestral para afirmar que X tiene una influencia significativa sobre Y? O dicho de otra manera, disponemos de suficiente evidencia muestral para asegurar que X es realmente una variable explicativa? Teniendo en cuenta que la posible influencia de X desaparecería si su coeficiente β 1 se anulase, esto nos lleva a elegir entre las posibilidades β 1 = 0 y β 1 0 y, por tanto, al siguiente contraste de hipótesis: H 0 : β 1 = 0 (X no influye) H 1 : β 1 0 (X sí influye) Este contraste de hipótesis suele recibir el nombre de contraste de la regresión. Elegiremos, como siempre, un nivel de significación α para tomar una decisión al final del estudio. Esta decisión la podemos tomar de dos formas: (a) Podemos utilizar el intervalo de confianza IC 1 α (β 1 ) que hemos estudiado en la sección anterior. Si el valor cero está contenido en IC 1 α (β 1 ), aceptaremos H 0, y concluiremos que no hay suficiente evidencia estadística para afirmar que X influye sobre Y. Si por el contrario, el valor cero no está contenido en IC 1 α (β 1 ), rechazaremos H 0, y concluiremos que X tiene una influencia significativa sobre Y. (b) También podemos utilizar el Análisis de la Varianza (ANOVA), que vuelve a tener una gran importancia en el modelo de regresión lineal. Se puede utilizar, como veremos a continuación, en el modelo de regresión lineal simple, pero alcanza toda su importancia en el modelo de regresión lineal múltiple. La descomposición de la variabilidad o análisis de la varianza en el caso del modelo de regresión lineal simple es de la siguiente forma: Variabilidad total de los datos = SCT= i(y i ȳ) 2 = i(y i ŷ i + ŷ i ȳ) 2 = i(ŷ i ȳ) 2 + i(y i ŷ i ) 2 = SCE + SCR En la regresión lineal, la variabilidad total se descompone siempre en dos partes, tanto en la simple como en la múltiple: SCE = i(ŷ i ȳ) 2 que es la variabilidad asociada al modelo (o explicada por el modelo). SCR = i(y i ŷ i ) 2 que es la variabilidad residual (o no explicada por el modelo). La decisión de aceptar o rechazar H 0 se va a tomar en base al estadístico que se obtiene a partir de este análisis de la varianza: F = SCE/1 SCR/(n 2) 5

Este estadístico tiene una distribucion F 1;n 2 (bajo H 0 ) y, por tanto, la la regla de decisión es de la siguiente forma: Rechazaremos H 0, al nivel de significación α, cuando F = SCE/1 SCR/(n 2) > F 1;n 2;α También podemos alcanzar una decisión razonando con el p-valor de los datos. La manera más sencilla de interpretar y utilizar el p-valor es entendiendo el p-valor como el apoyo que los datos dan a H 0. De este modo: Si el p-valor< α, el apoyo a H 0 es insuficiente, y rechazaremos H 0 (al nivel de significación α). Si el p-valor> α, el apoyo a H 0 es suficiente, y aceptaremos H 0 (al nivel de significación α). Por supuesto, obtendremos la misma decisión, tanto si trabajamos con el estadístico F como si trabajamos con el p-valor. Es tradicional, y así lo podemos ver en libros y salidas de ordenador, organizar los cálculos correspondientes a un análisis de la varianza en una tabla ANOVA, que suele ser del siguiente tipo: Sumas de cuadrados G.l. Med. cuad. Estadístico SCE = i(ŷ i ȳ) 2 SCE 1 F = SCE/1 1 SCR/(n 2) SCR = i(y i ŷ i ) 2 SCR n 2 n 2 SCT = i(y i ȳ) 2 n 1 Finalmente, hay que señalar que la decisión que alcancemos sobre el contraste de hipótesis H 0 : β 1 = 0 H 1 : β 1 0 siempre será la misma (una vez fijado el nivel de significación), tanto si trabajamos con el intervalo de confianza IC 1 α (β 1 ), como si trabajamos con el análisis de la varianza, ya que es sencillo probar que los contrastes obtenidos son equivalentes. Una vez estudiado todo esto, es importante hacer un par de comentarios: (a) En la regresión lineal múltiple, el intervalo de confianza IC 1 α (β 1 ) servirá para una cosa, y la tabla ANOVA para otra. Por eso, se explican las dos técnicas estadísticas. (b) En la regresión lineal múltiple es cuando será especialmente importante determinar si una variable explicativa tiene una influencia significativa o no sobre la variable respuesta. El motivo es sencillo: en principio, introducimos en el modelo varias presuntas variables explicativas y, posteriormente, los datos se encargarán de decirnos cuáles son realmente relevantes. 6

7 Evaluación del ajuste A partir de los datos (x 1, y 1 )..., (x i, y i ),..., (x n, y n ), podemos obtener siempre la recta de regresión: y = ˆβ 0 + ˆβ 1 x Esta recta, en algunos casos se ajustará muy bien a los pares de datos que tenemos, y en otros casos se ajustará peor. Cuando el ajuste sea bueno, tendremos una cierta seguridad de que esa recta representa razonablemente bien la relación entre X e Y. Por supuesto, siempre se puede y se debe echar un vistazo al diagrama de dispersión de Y sobre X, donde añadiremos la recta de regresión estimada, y esta inspección visual nos dará mucha información sobre la situación. Pero también es útil disponer de alguna medida numérica que nos evalúe, de manera sencilla, si el ajuste es bueno o no. Para hacer ésto, disponemos de dos posibles herramientas: Coeficiente de correlación lineal.- Este coeficiente procede de la Estadística Descriptiva y está basado en el error cuadrático medio que se comete al sustituir la nube de puntos por la recta de regresión: n E.C.M. = 1 n i=1 = 1 ( n n ( y i ȳ + cov x,y (y i ȳ) 2 + i=1 = v y (cov x,y) 2 v x x cov ) 2 x,y x i v x v x ( ) covx,y 2 n (x i x) 2 2 cov ) x,y n (x i x)(y i ȳ) v x i=1 v x i=1 [ 1 (cov x,y) 2 ] v x v y = v y El cociente que aparece en la última expresión motiva la definición del coeficiente de correlación lineal entre X e Y : Coeficiente de correlación lineal = r = cov x,y vx v y Por lo tanto, el error cuadrático medio cometido con la recta de regresión puede escribirse también de la siguiente manera: E.C.M. = v y (1 r 2 ) El coeficiente de correlacion muestral toma siempre un valor entre -1 y 1 (ya que el E.C.M., al ser una suma de cuadrados, no puede ser negativo). Es fácil dar algunas pautas para interpretar el valor de r: Si r está próximo a +1, el E.C.M. es pequeño, lo cual significa que el ajuste es bueno. Además, al ser la cov x,y positiva, la pendiente de la recta de regresión es positiva, y se dice que existe una asociación positiva entre X e Y. Si r está próximo a -1, el E.C.M. es pequeño, lo cual significa que el ajuste es bueno. Además, al ser la cov x,y negativa, la pendiente de la recta de regresión es negativa, y se dice que existe una asociación negativa entre X e Y. Si r toma valores próximos a cero, el E.C.M. es mayor, indicando un mal ajuste. 7

Coeficiente de determinación.- El concepto de coeficiente de determinación procede del Analisis de la Varianza y tiene una definición y una interpretación muy sencillas: Coeficiente de determinación = R 2 = SCE SCT El coeficiente de determinación toma siempre un valor entre 0 y 1, y su significado es obvio: R 2 mide la proporción de variabilidad explicada por el modelo. Las pautas para interpretar el valor de R 2 también son obvias: Cuando R 2 toma un valor próximo a cero, la proporción de variabilidad explicada por el modelo es pequeña, y el ajuste es malo. Cuando R 2 toma un valor próximo a uno, la proporción de variabilidad explicada por el modelo es grande, y el ajuste es bueno. Hay que insistir en la idea de que, tanto el coeficiente de correlación lineal como el coeficiente de determinación, siempre hay que considerarlos con cuidado, ya que están resumiendo toda una nube de puntos en un solo número. Es conveniente hacer un par de observaciones sobre estos coeficientes: En la regresión lineal simple, podemos utilizar indistintamente el coeficiente de correlación lineal o el coeficiente de determinación, ya que existe una relación muy estrecha entre ambos: R 2 = r 2 En la regresión lineal múltiple, sin embargo, el único coeficiente que tiene sentido para evaluar el ajuste del modelo es el coeficiente de determinación. 8 Estimación de valores medios e individuales de la variable respuesta En esta sección, abordamos dos problemas muy relacionados pero no exactamente iguales: Valores medios de la variable respuesta.- En muchas situaciones, es muy interesante saber estimar (o predecir o pronosticar) el valor medio que tendrá la variable respuesta Y para todos aquellos casos o individuos en la población para los cuales X = x 0. Si nos conformamos con una estimación puntual, la respuesta es muy sencilla, ya que basta con utilizar la recta de regresión: ŷ 0 = ˆβ 0 + ˆβ 1 x 0 Por el contrario, si deseamos hacer una estimación con un nivel de confianza 1 α, recurriremos a un intervalo de confianza que, en este caso, es de la forma: 8

1 IC 1 α (Valor medio de Y ) = ŷ 0 ± t n 2;α/2 S R n + (x 0 x) 2 nv x Sobre este intervalo se pueden hacer algunas observaciones interesantes: (a) Cuando aumentamos el nivel de confianza 1 α (es decir, cuando aumentamos la probabilidad de que la estimación sea buena ), t n 2;α/2 aumenta, y la amplitud del intervalo también aumenta (es decir, nuestra estimación se hace menos precisa ). (b) Cuando aumentamos el tamaño de la muestra n, la amplitud del intervalo disminuye (es decir, nuestra estimación se hace más precisa ). (c) Cuando aumentamos la varianza v x correspondiente a los datos de la variable explicativa, la amplitud del intervalo disminuye (es decir, nuestra estimación se hace más precisa ). Por este motivo, conviene diseñar el experimento de modo que los valores de X que obtenemos estén lo más separados posibles, siempre que esto sea posible. (d) Cuando x 0 se aleja de x, la amplitud del intervalo aumenta (es decir, nuestra estimación se hace menos precisa ). Por lo tanto, las estimaciones del valor medio de Y son más precisas para valores cercanos a la media muestral de X. Valores individuales de la variable respuesta.- En muchas situaciones, es muy interesante saber estimar (o predecir o pronosticar) el valor individual que tendrá la variable respuesta Y para un nuevo caso o individuo para el cual X = x 0. Si nos conformamos con una estimación puntual, la respuesta es muy sencilla, ya que basta con utilizar la recta de regresión: ŷ 0 = ˆβ 0 + ˆβ 1 x 0 Por el contrario, si deseamos hacer una estimación con un nivel de confianza 1 α, recurriremos a un intervalo de confianza que, en este caso, es de la forma: IC 1 α (Valor individual de Y ) = ŷ 0 ± t n 2;α/2 S R 1 + 1 n + (x 0 x) 2 nv x Sobre este intervalo se pueden hacer algunas observaciones interesantes: (a) Cuando aumentamos el nivel de confianza 1 α (es decir, cuando aumentamos la probabilidad de que la estimación sea buena ), t n 2;α/2 aumenta, y la amplitud del intervalo también aumenta (es decir, nuestra estimación se hace menos precisa ). (b) Cuando aumentamos el tamaño de la muestra n, la amplitud del intervalo disminuye (es decir, nuestra estimación se hace más precisa ). 9

(c) Cuando aumentamos la varianza v x correspondiente a los datos de la variable explicativa, la amplitud del intervalo disminuye (es decir, nuestra estimación se hace más precisa ). Por este motivo, conviene diseñar el experimento de modo que los valores de X que obtenemos estén lo más separados posibles, siempre que esto sea posible. (d) Cuando x 0 se aleja de x, la amplitud del intervalo aumenta (es decir, nuestra estimación se hace menos precisa ). Por lo tanto, las estimaciones del valor medio de Y son más precisas para valores cercanos a la media muestral de X. (e) El intervalo para estimar valores individuales siempre es mayor que el intervalo para estimar valores medios. La explicación intuitiva es que resulta más difícil acertar con las individualidades y, por eso, el intervalo es menos preciso. 9 Diagnosis de las hipótesis del modelo Como se indicó en la Sección 3 (Metodología), es conveniente hacer una diagnosis previa de las hipótesis del modelo: Normalidad, Linealidad y Homogeneidad de Varianzas. Este diagnóstico se puede llevar a cabo nuevamente utilizando unos análisis gráficos sencillos de los residuos. Para llevar a cabo este análisis gráfico, necesitamos dos cosas: Guardar los residuos de cada dato, que en este modelo son de la forma: Residuo = y i ŷ i = y i ˆβ 0 ˆβ 1 x i Guardar los valores pronosticados o estimados para cada dato, que en este modelo son de la forma: Valor pronosticado = ŷ i = ˆβ 0 + ˆβ 1 x i Con los residuos y los valores pronosticados podemos hacer un análisis visual de los siguientes gráficos: (a) Histograma de los residuos. La hipótesis de Normalidad de los datos será aceptable cuando este histograma muestre un razonable parecido con la curva Normal. (b) Gráfico de probabilidades normales de los residuos (probability plot). La hipótesis de Normalidad de los datos será aceptable cuando los puntos del gráfico estén razonablemente cerca de la diagonal del cuadrado. (c) Gráfico de dispersión de los residuos sobre los valores pronosticados (o sobre los valores de la variable explicativa). La hipótesis de Homocedasticidad (o igualdad de varianzas) de los datos será aceptable cuando la anchura vertical del gráfico de dispersión se mantenga razonablemente constante. La hipótesis de Linealidad de los datos será aceptable cuando la línea central del gráfico de dispersión sea razonablemente recta. 10

La gran ventaja de estos análisis gráficos es su sencillez. Sus grandes inconvenientes son que con pocos datos (como suele ser frecuente) no nos dicen prácticamente nada, y aunque dispongamos de muchos datos, las conclusiones son inevitablemente subjetivas (salvo situaciones muy claras que no son demasiado frecuentes con los datos reales). 10 Extensión a otros modelos Una de las grandes utilidades del modelo de regresión lineal es que es fácilmente exportable a varios modelos que no son lineales, pero que se pueden linealizar mediante sencillos cambios de variable. Vemos a continuación dos modelos muy interesantes que pueden ser linealizados, aunque no son los únicos. Modelo de regresión logarítimica.- En algunas situaciones, es muy adecuado pensar en un modelo de regresión logarítmica, Y = a + b ln X El modelo logarítmico sirve, por ejemplo, para describir empíricamente la relación entre el tamaño, Y, alcanzado por una planta y su concentración, X, de hormona del crecimiento. El modelo de regresión logarítmico se puede reducir fácilmente a un modelo de regresión lineal. Los pasos que tenemos que dar son los siguientes: Y = a+b ln X Definimos la nueva variable Z = ln X: Y = a+bz Obtenemos la recta de regresión de Y sobre Z, y deshacemos el cambio. Podemos confirmar de dos formas la validez del modelo de regresión logarítmica: (a) Desde un punto de vista gráfico, el diagrama de dispersión de Y sobre Z = ln X debería tener un aspecto razonablemente lineal. (b) Desde un punto de vista numérico, el coeficiente de correlación lineal entre Y y Z = ln X debería ser razonablemente próximo a +1. Modelo de regresión exponencial.- En otras situaciones, es muy adecuado pensar en un modelo de regresión exponencial, Y = ae bx El modelo exponencial sirve, por ejemplo, para describir empíricamente la evolución del tamaño de una población que crece (o decrece) un porcentaje fijo cada unidad de tiempo. El modelo de regresión exponencial se puede reducir fácilmente a un modelo de regresión lineal. Los pasos que tenemos que dar son los siguientes: Y = ae bx Tomamos logaritmos neperianos: ln Y = ln a + bx = a + bx Definimos la nueva variable Z = ln Y : Z = a + bx Obtenemos la recta de regresión de Z sobre X, deshacemos el cambio, y tomamos exponenciales. 11

Podemos confirmar de dos formas la validez del modelo de regresión exponencial: a) Desde un punto de vista gráfico, el diagrama de dispersión de Z = ln Y sobre X debería tener un aspecto razonablemente lineal. b) Desde un punto de vista numérico, el coeficiente de correlación lineal entre Z = ln Y y X debería ser razonablemente próximo a +1 ó a -1. 12