Estadística II Tema 4. Regresión lineal simple. Curso 2009/10

Documentos relacionados
Estadística II Tema 4. Regresión lineal simple. Curso 2010/11

T2. El modelo lineal simple

ESTADÍSTICA. Tema 4 Regresión lineal simple

Tema 10: Introducción a los problemas de Asociación y Correlación

Método de cuadrados mínimos

Tercera práctica de REGRESIÓN.

INTERPRETACIÓN DE LA REGRESIÓN. Interpretación de la regresión

Segunda práctica de REGRESIÓN.

Teoría de la decisión

TODO ECONOMETRIA. Bondad del ajuste Contraste de hipótesis

Se permite un folio escrito por las dos caras. Cada problema se realiza en hojas diferentes y se entregan por separado.

TEMA 2: Propiedades de los estimadores MCO

Tema 3: Análisis de datos bivariantes

Estadística y sus aplicaciones en Ciencias Sociales 5. Estimación. Facultad de Ciencias Sociales, UdelaR

Errores de especificación

Pronósticos, Series de Tiempo y Regresión. Capítulo 4: Regresión Lineal Múltiple

Estadística y sus aplicaciones en Ciencias Sociales 7. El modelo de regresión simple. Facultad de Ciencias Sociales - UdelaR

Multiple Linear Regression

TEMA 3: Contrastes de Hipótesis en el MRL

Métodos Estadísticos Multivariados

CUESTIONES Y PROBLEMAS DE DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES PROPUESTOS EN EXÁMENES

1 Introducción. 2 Modelo. Hipótesis del modelo MODELO DE REGRESIÓN LOGÍSTICA

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

APUNTES DE QUIMIOMETRIA REGRESIO LINEAL

Regresión lineal SIMPLE MÚLTIPLE N A Z IRA C A L L E J A

Prueba de Hipótesis. Para dos muestras

Teorema Central del Límite (1)

Tema 3. Modelo de regresión simple. Estadística (CC. Ambientales). Profesora: Amparo Baíllo Tema 3: Regresión simple 1

1 Introducción. 2 Modelo. Hipótesis del modelo. MODELO DE REGRESIÓN MÚLTIPLE Julián de la Horra Departamento de Matemáticas U.A.M.

VARIABLES ESTADÍSTICAS BIDIMENSIONALES

ECONOMETRÍA II Prof.: Begoña Álvarez TEMA 1 INTRODUCCIÓN. Estimación por máxima verosimilitud y conceptos de teoría asintótica

ESTADISTICA II. INGENIERIA INFORMATICA, 3 ER Curso

Estadística Descriptiva II: Relación entre variables

Estadísticas Elemental Tema 3: Describir la relación entre dos variables: Correlación y regresión 3.1-1

Aplicación de Correlación en la Investigación Correlation Application in Research

CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS

Universidad de Chile DIPLOMA PREPARACIÓN Y EVALUACIÓN SOCIAL DE PROYECTOS Prof: Sara Arancibia

15. Regresión lineal. Te recomiendo visitar su página de apuntes y vídeos:

Repaso Estadística Descriptiva

RESUMEN DE ALGUNOS CONCEPTOS ESTADÍSTICOS ELEMENTALES Y NOTACIÓN EMPLEADA EN EL CURSO

Regresión y Correlación

Tema 3.2: Modelo lineal general: inferencia y predicción. Universidad Complutense de Madrid 2013

GUIÓN TEMA 2. PROPIEDADES DE LOS ESTIMADORES MCO 2.1 PROPIEDADES ESTADÍSTICAS DEL ES- TIMADOR MCO DE.

MODELO DE RESPUESTAS Objetivos 2, 3, 4, 5, 6, 7, Y 8.

TEMA VI: EL MODELO DE REGRESIÓN LINEAL MÚLTIPLE

CORRELACIÓN Y REGRESIÓN. Juan José Hernández Ocaña

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua

Tema 8: Contraste de hipótesis

Introducción a la Estadística Aplicada en la Química

Análisis de regresión lineal simple

Estimación MC2E, MVIL en Modelos de Ecuaciones Simultáneas

Conceptos del contraste de hipótesis

Econometría II Grado en finanzas y contabilidad

478 Índice alfabético

CAPÍTULO 4 (Continuación): ESTADÍSTICA DESCRIPTIVA BIVARIADA

Coeficiente de Correlación

Estadística para el análisis de los Mercados S3_A1.1_LECV1. Estadística Descriptiva Bivariada

Relación entre la altura y la distancia del suelo al ombligo

INDICE Prefacio 1. Introducción 2. Distribuciones de frecuencia: tablas estadísticas y graficas

Estadistica II Tema 0. Repaso de conceptos básicos. Curso 2009/10

Diplomatura en Ciencias Empresariales X Y

INDICE. Prólogo a la Segunda Edición

4.1 Análisis bivariado de asociaciones

Tema 3. Relación entre dos variables cuantitativas

Econometría III Examen. 29 de Marzo de 2012

Estadística Espacial en Ecología del Paisaje

Técnicas Cuantitativas para el Management y los Negocios

Análisis de la covarianza

PROBABILIDAD Y ESTADÍSTICA. Sesión 4 4. REGRESIÓN Y CORRELACIÓN SIMPLE

MÓDULO X. LA DINÁMICA DE LA ECONOMÍA MUNDIAL PROGRAMA OPERATIVO MATEMÁTICAS ECONOMETRÍA I. Profesor: Noé Becerra Rodríguez.

El Modelo de Regresión Simple

UNIVERSIDAD TECNICA PARTICULAR DE LOJA ESTADISTICA Y PROBABILIDAD ENSAYO N 8

Unidad IV Introducción a la Regresión y Correlación

Tema 5. Análisis de regresión (segunda parte) Estadística II, 2010/11

T6. Modelos multiecuacionales

ECONOMETRÍA I. Tema 3: El Modelo de Regresión Lineal Múltiple: estimación

Ejercicios de Regresión Lineal

INFERENCIA ESTADISTICA

Estadística I Tema 7: Estimación por intervalos

2. EL DISEÑO UNIFACTORIAL (COMPARACION DE TRATAMIENTOS)

Motivación. Motivación PRONOSTICOS DE DEMANDA

Estadísticas Pueden ser

Tema 2. Descripción Conjunta de Varias Variables

Resumen teórico de los principales conceptos estadísticos

Guía docente 2007/2008

Tema 1. El Modelo de Regresión Lineal con Regresores Aleatorios.

ÍNDICE CAPÍTULO 1. INTRODUCCIÓN

ENUNCIADOS DE PROBLEMAS

Problemas deestadísticaii Cuaderno II: Regresión Multiple

ESTADISTICA II. INGENIERIA INFORMATICA, 3 ER Curso Septiembre Primera Parte

Análisis de la varianza

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos

CORRELACIÓN Y REGRESIÓN. Raúl David Katz

1. Objetivos. Introducción 2. ANOVA. Tema 8: Relaciones entre variables Test de hipótesis para el ANOVA. M. Iniesta Universidad de Murcia

CAPITULO 4. MODELO ECONOMETRICO. 4.1 Planteamiento del modelo.

Tema 5. Muestreo y distribuciones muestrales

Regresión con variables independientes cualitativas

MODELO ECONOMÉTRICO. José María Cara Carmona. Adrián López Ibáñez. Explicación del desempleo

Calculamos la covarianza. (La covarianza indica el sentido de la correlación entre las variables):

Regresión Lineal. Dra. Noemí L. Ruiz Limardo 2008 Derechos Reservados, Rev 2010

Transcripción:

Estadística II Tema 4. Regresión lineal simple Curso 009/10

Tema 4. Regresión lineal simple Contenidos El objeto del análisis de regresión La especificación de un modelo de regresión lineal simple Estimadores de mínimos cuadrados: construcción y propiedades Inferencias sobre el modelo de regresión: Inferencia sobre la pendiente Inferencia sobre la varianza Estimación de una respuesta promedio Predicción de una nueva respuesta

Tema 4. Regresión lineal simple Objetivos de aprendizaje Saber construir un modelo de regresión lineal simple que describa cómo influye una variable X sobre otra variable Y Saber obtener estimaciones puntuales de los parámetros de dicho modelo Saber contruir intervalos de confianza y resolver contrastes sobre dichos parámetros Saber estimar el valor promedio de Y para un valor de X Saber predecir futuros de la variable respuesta, Y

Tema 4. Regresión lineal simple Referencias en la bibliografía Meyer, P. Probabilidad y aplicaciones estadísticas (199) Capítulo Newbold, P. Estadística para los negocios y la economía (1997) Capítulo 10 Peña, D. Regresión y análisis de experimentos (005) Capítulo 5

Introducción Un modelo de regresión es un modelo que permite describir cómo influye una variable X sobre otra variable Y. X: Variable independiente o explicativa o exógena Y: Variable dependiente o respuesta o endógena El objetivo es obtener estimaciones razonables de Y para distintos valores de X a partir de una muestra de n pares de valores (x 1, y 1 ),..., (x n, y n ).

Introducción Ejemplos Estudiar cómo influye la estatura del padre sobre la estatura del hijo. Estimar el precio de una vivienda en función de su superficie. Predecir la tasa de paro para cada edad. Aproximar la calificación obtenida en una materia según el número de horas de estudio semanal. Prever el tiempo de computación de un programa en función de la velocidad del procesador.

Introducción Tipos de relación Determinista: Conocido el valor de X, el valor de Y queda perfectamente establecido. Son del tipo: y = f (x) Ejemplo: La relación existente entre la temperatura en grados centígrados (X ) y grados Fahrenheit (Y ) es: y = 1,8x + 3 11 Plot of Grados Fahrenheit vs Grados centígrados Grados Fahrenheit 9 7 5 3 0 10 0 30 40 Grados centígrados

Introducción Tipos de relación No determinista: Conocido el valor de X, el valor de Y no queda perfectamente establecido. Son del tipo: y = f (x) + u donde u es una perturbación desconocida (variable aleatoria). Ejemplo: Se tiene una muestra del volumen de producción (X ) y el costo total (Y ) asociado a un producto en un grupo de empresas. 80 Plot of Costos vs Volumen 60 Costos 40 0 0 6 31 36 41 46 51 56 Volumen Existe relación pero no es exacta.

Introducción Tipos de relación Lineal: Cuando la función f (x) es lineal, f (x) = β 0 + β 1 x Si β1 > 0 hay relación lineal positiva. Si β1 < 0 hay relación lineal negativa. Relación lineal positiva Relación lineal negativa 10 10 6 6 Y Y - - -6-6 - -1 0 1 - -1 0 1 X X Los datos tienen un aspecto recto.

Introducción Tipos de relación No lineal: Cuando la función f (x) no es lineal. Por ejemplo, f (x) = log(x), f (x) = x + 3,... Relación no lineal 1 0 Y -1 - -3-4 - -1 0 1 X Los datos no tienen un aspecto recto.

Introducción Tipos de relación Ausencia de relación: Cuando f (x) = 0.,5 Ausencia de relación 1,5 0,5 Y -0,5-1,5 -,5 - -1 0 1 X

Medidas de dependencia lineal La covarianza Una medida de la dependencia lineal es la covarianza: cov (x, y) = n (x i x) (y i ȳ) i=1 n 1 Si hay relación lineal positiva, la covarianza será positiva y grande. Si hay relación lineal negativa, la covarianza será negativa y grande en valor absoluto. Si hay no hay relación entre las variables o la relación es marcadamente no lineal, la covarianza será próxima a cero. PERO la covarianza depende de las unidades de medida de las variables.

Medidas de dependencia lineal El coeficiente de correlación lineal Una medida de la dependencia lineal que no depende de las unidades de medida es el coeficiente de correlación lineal: r (x,y) = cor (x, y) = cov (x, y) s x s y donde: n (x i x) n (y i ȳ) s x = i=1 n 1 y s y = i=1 n 1-1 cor (x, y) 1 cor (x, y) = cor (y, x) cor (ax + b, cy + d) = cor (x, y) para cualesquiera valores a, b, c, d.

El modelo de regresión lineal simple El modelo de regresión lineal simple supone que, donde: y i = β 0 + β 1 x i + u i y i representa el valor de la variable respuesta para la observación i-ésima. x i representa el valor de la variable explicativa para la observación i-ésima. u i representa el error para la observación i-ésima que se asume normal, u i N(0, σ) β 0 y β 1 son los coeficientes de regresión: β0 : intercepto β1 : pendiente Los parámetros que hay que estimar son: β 0, β 1 y σ.

El modelo de regresión lineal simple El objetivo es obtener estimaciones ˆβ 0 y ˆβ 1 de β 0 y β 1 para calcular la recta de regresión: ŷ = ˆβ 0 + ˆβ 1 x que se ajuste lo mejor posible a los datos. Ejemplo: Supongamos que la recta de regresión del ejemplo anterior es: Costo = 15,65 + 1,9 Volumen 80 Plot of Fitted Model 60 Costos 40 0 0 6 31 36 41 46 51 56 Volumen Se estima que una empresa que produce 5 mil unidades tendrá un costo: costo = 15,65 + 1,9 5 = 16,6 mil euros

El modelo de regresión lineal simple La diferencia entre cada valor y i de la variable respuesta y su estimación ŷ i se llama residuo: e i = y i ŷ i Valor observado Dato (y) Recta de regresión estimada Ejemplo (cont.): Indudablemente, una empresa determinada que haya producido exactamente 5 mil unidades no va a tener un gasto de exactamente 16,6 mil euros. La diferencia entre el costo estimado y el real es el residuo. Si por ejemplo el costo real de la empresa es de 18 mil euros, el residuo es: e i = 18 16,6 = 1,4mil euros

Hipótesis del modelo de regresión lineal simple Linealidad: La relación existente entre X e Y es lineal, f (x) = β 0 + β 1 x Homogeneidad: El valor promedio del error es cero, E[u i ] = 0 Homocedasticidad: La varianza de los errores es constante, Var(u i ) = σ Independencia: Las observaciones son independientes, E[u i u j ] = 0 Normalidad: Los errores siguen una distribución normal, u i N(0, σ)

Hipótesis del modelo de regresión lineal simple Linealidad Los datos deben ser razonablemante rectos. 80 Plot of Fitted Model 60 Costos 40 0 0 6 31 36 41 46 51 56 Volumen Si no, la recta de regresión no representa la estructura de los datos. 34 Plot of Fitted Model 4 Y 14 4-6 -5-3 -1 1 3 5 X

Hipótesis del modelo de regresión lineal simple Homocedasticidad La dispersión de los datos debe ser constante para que los datos sean homocedásticos. 80 Plot of Costos vs Volumen 60 stos Cos 40 0 0 6 31 36 41 46 51 56 Volumen Si no se cumple, los datos son heterocedásticos.

x i In Objetivo: Analizar la relación entre una o varias Hipótesis del modelo de regresión lineal simple Independencia variables dependientes y un conjunto de factores independientes. Los datos deben ser independientes. Tipos de relaciones: f ( Y, Y,..., Y X, X,..., X ) 1 k 1 Una observación- Relación no debe no lineal dar información sobre las demás. Habitualmente, -se Relación sabelineal por el tipo de datos si son adecuados o no para el análisis. Regresión lineal simple En general, las series temporales no cumplen la hipótesis de Regresión Lineal independencia. Normalidad Se asume que Modelo los datos son normales a priori. y 0 1x u, u N(0, ) i i i l i Núm. Obs (i) 1 3 4 5 6 7 8 9 10 11 1 13 14 15 16 17 18 19 0 1 3 4 5 6 7 8 9 30 Regresión H L y i 0 1 x N H

Estimadores de mínimos cuadrados Gauss propuso en 1809 el método de mínimos xi cuadrados para obtener los valores ˆβ 0 y ˆβ 1 que mejor se ajustan a los datos: Regresión Lineal ŷ i = ˆβ 0 + ˆβ 1 x i El método consiste en minimizar la suma de los cuadrados de las distancias verticales entre los datos y las estimaciones, es decir, minimizar la suma de los residuos al cuadrado, Residuos n n n ( ( )) ei = y (y i ŷ i ) = ˆ ˆ y i ˆβ 0 + ˆβ 1 x i i 0 1xi e i i=1 i=1 i=1 Valor Observado Valor Previsto Residuo e i x 7 y i yˆ i ˆ ˆ 0 1x i x i

y, Estimadores de mínimos i 1xi u u cuadrados i i y El resultado que se obtiene i : Variable dependiente es: cov(x, y) ˆβ 1 = = Regresión Lineal 0 N(0, ) x i : Variable independiente u i : Parte aleatoria s x n (x i x) (y i ȳ) i=1 0 n (x i x) i=1 6 y i y Regresión Lineal Recta de regresión ˆβ 0 = ȳ ˆβ 1 x yˆ ˆ ˆ 1x 0 Residuos y i Valor Observ y ˆ 0 y ˆ 1x x Pendiente ˆ 1 y i Regresión Lineal 8 Regresión Lineal

Estimadores de mínimos cuadrados Ejercicio 4.1 Los datos de la producción de trigo en toneladas (X ) y el precio del kilo de harina en pesetas (Y ) en la década de los 80 en España fueron: Producción de trigo 30 8 3 5 5 5 4 35 40 Precio de la harina 5 30 7 40 4 40 50 45 30 5 Ajusta la recta de regresión por el método de mínimos cuadrados Resultados ˆβ 1 = 10 i=1 10 i=1 x i y i n xȳ xi n x = 9734 10 8,6 35,4 8468 10 8,6 = 1,3537 ˆβ 0 = ȳ ˆβ 1 x = 35,4 + 1,3537 8,6 = 74,116 La recta de regresión es: ŷ = 74,116 1,3537x

Estimadores de mínimos cuadrados Ejercicio 4.1 Los datos de la producción de trigo en toneladas (X ) y el precio del kilo de harina en pesetas (Y ) en la década de los 80 en España fueron: Producción de trigo 30 8 3 5 5 5 4 35 40 Precio de la harina 5 30 7 40 4 40 50 45 30 5 Ajusta la recta de regresión por el método de mínimos cuadrados Resultados ˆβ 1 = 10 i=1 10 i=1 x i y i n xȳ xi n x = 9734 10 8,6 35,4 8468 10 8,6 = 1,3537 ˆβ 0 = ȳ ˆβ 1 x = 35,4 + 1,3537 8,6 = 74,116 La recta de regresión es: ŷ = 74,116 1,3537x

Estimadores de mínimos cuadrados 50 Plot of Fitted Model Precio en ptas. 45 40 35 30 5 5 8 31 34 37 40 Produccion en kg. βˆ0 βˆ1 Regression Analysis - Linear model: Y = a + b*x Dependent variable: Precio en ptas. Independent variable: Produccion en kg. Standard T Parameter Estimate Error Statistic P-Value Intercept 74,1151 8,73577 8,4841 0,0000 Slope -1,35368 0,300-4,5094 0,000 Analysis of Variance Source Sum of Squares Df Mean Square F-Ratio P-Value Model 58,475 1 58,475 0,33 0,000 Residual 07,95 8 5,9906 Total (Corr.) 736,4 9 Correlation Coefficient = -0,84714 R-squared = 71,7647 percent Standard Error of Est. = 5,0981

Estimación de la varianza Para estimar la varianza de los errores, σ, podemos utilizar, ˆσ = que es el estimador máximo verosímil de σ, pero es un estimador sesgado. n i=1 Un estimador insesgado de σ es la varianza residual, n n i=1 e i e i sr = n

Estimación de la varianza Ejercicio 4. Calcula la varianza residual en el ejercicio 4.1. Resultados Calculamos primero los residuos, e i, usando la recta de regresión, ŷ i = 74,116 1,3537x i x i 30 8 3 5 5 5 4 35 40 y i 5 30 7 40 4 40 50 45 30 5 ŷ i 33.5 36.1 30.79 40.7 40.7 40.7 44.33 41.6 6.73 19.96 e i -8.50-6.1-3.79-0.7 1.7-0.7 5.66 3.37 3.6 5.03 La varianza residual es: s R = n e i i=1 n = 07,9 = 5,99 8

Estimación de la varianza Ejercicio 4. Calcula la varianza residual en el ejercicio 4.1. Resultados Calculamos primero los residuos, e i, usando la recta de regresión, ŷ i = 74,116 1,3537x i x i 30 8 3 5 5 5 4 35 40 y i 5 30 7 40 4 40 50 45 30 5 ŷ i 33.5 36.1 30.79 40.7 40.7 40.7 44.33 41.6 6.73 19.96 e i -8.50-6.1-3.79-0.7 1.7-0.7 5.66 3.37 3.6 5.03 La varianza residual es: s R = n e i i=1 n = 07,9 = 5,99 8

Estimación de la varianza Regression Analysis - Linear model: Y = a + b*x Dependent variable: Precio en ptas. Independent variable: Produccion en kg. Standard T Parameter Estimate Error Statistic P-Value Intercept 74,1151 8,73577 8,4841 0,0000 Slope -1,35368 0,300-4,5094 0,000 Analysis of Variance Source Sum of Squares Df Mean Square F-Ratio P-Value Model 58,475 1 58,475 0,33 0,000 Residual 07,95 8 5,9906 Total (Corr.) 736,4 9 Correlation Coefficient = -0,84714 R-squared = 71,7647 percent Standard Error of Est. = 5,0981 s R

Inferencias sobre el modelo de regresión Hasta ahora sólo hemos obtenido estimaciones puntuales de los coeficientes de regresión. Usando intervalos de confianza podemos obtener una medida de la precisión de dichas estimaciones. Usando contrastes de hipótesis podemos comprobar si un determinado valor puede ser el auténtico valor del parámetro.

Inferencia para la pendiente El estimador ˆβ 1 sigue una distribución normal porque es una combinación lineal de normales, n (x i x) n ˆβ 1 = (n 1)sX y i = w i y i i=1 donde y i = β 0 + β 1 x i + u i, que cumple que y i N ( β 0 + β 1 x i, σ ). Además, ˆβ 1 es un estimador insesgado de β 1, y su varianza es, Por tanto, [ ] Var ˆβ 1 = [ ] E ˆβ1 = i=1 i=1 i=1 n (x i x) (n 1)sX E [y i ] = β 1 n ( ) (xi x) σ (n 1)sX Var [y i ] = (n 1)sX ( ˆβ 1 N β 1, σ (n 1)s X )

Intervalo de confianza para la pendiente Queremos ahora obtener el intervalo de confianza para β 1 de nivel 1 α. Como σ es desconocida, la estimamos con sr. El resultado básico cuando la varianza es desconocida es: ˆβ 1 β 1 s R (n 1)s X t n que nos permite obtener el intervalo de confianza para β 1 : sr ˆβ 1 ± t n,α/ (n 1)sX La longitud del intervalo disminuirá si: Aumenta el tamaño de la muestra. Aumenta la varianza de las x i. Disminuye la varianza residual.

Contrastes sobre la pendiente Usando el resultado anterior podemos resolver contrastes sobre β 1. En particular, si el verdadero valor de β 1 es cero entonces Y no depende linealmente de X. Por tanto, es de especial interés el contraste: H 0 : β 1 = 0 H 1 : β 1 0 La región de rechazo de la hipótesis nula es: ˆβ 1 s R /(n 1)sX > t n,α/ Equivalentemente, si el cero está fuera del intervalo de confianza para β 1 de nivel 1 α, rechazamos la hipótesis nula a ese nivel. El p-valor del contraste es: ( ) ˆβ 1 p-valor = Pr t n > s R /(n 1)sX

Inferencia para la pendiente Ejercicio 4.3 1. Calcula un intervalo de confianza al 95 % para la pendiente de la recta de regresión obtenida en el ejercicio 4.1.. Contrasta la hipótesis de que el precio de la harina depende linealmente de la producción de trigo, usando un nivel de significación de 0.05. Resultados 1. t n,α/ = t 8,0,05 =,306,306 1,3537 β1 5,99 9 3,04,046 β 1 0,661,306. Como el intervalo no contiene al cero, rechazamos que β 1 = 0 al nivel 0.05. De hecho: ˆβ 1 s R / (n 1) sx = 1,3537 5,99 = 4,509 >,306 p-valor= Pr(t 8 > 4,509) = 0,00 9 3,04

Inferencia para la pendiente Ejercicio 4.3 1. Calcula un intervalo de confianza al 95 % para la pendiente de la recta de regresión obtenida en el ejercicio 4.1.. Contrasta la hipótesis de que el precio de la harina depende linealmente de la producción de trigo, usando un nivel de significación de 0.05. Resultados 1. t n,α/ = t 8,0,05 =,306,306 1,3537 β1 5,99 9 3,04,046 β 1 0,661,306. Como el intervalo no contiene al cero, rechazamos que β 1 = 0 al nivel 0.05. De hecho: ˆβ 1 s R / (n 1) sx = 1,3537 5,99 = 4,509 >,306 p-valor= Pr(t 8 > 4,509) = 0,00 9 3,04

Inferencia para la pendiente s R ( n 1) sx ˆ β 1 s /( n 1) R s X Regression Analysis - Linear model: Y = a + b*x Dependent variable: Precio en ptas. Independent variable: Produccion en kg. Standard T Parameter Estimate Error Statistic P-Value Intercept 74,1151 8,73577 8,4841 0,0000 Slope -1,35368 0,300-4,5094 0,000 Analysis of Variance Source Sum of Squares Df Mean Square F-Ratio P-Value Model 58,475 1 58,475 0,33 0,000 Residual 07,95 8 5,9906 Total (Corr.) 736,4 9 Correlation Coefficient = -0,84714 R-squared = 71,7647 percent Standard Error of Est. = 5,0981

Inferencia para el intercepto El estimador ˆβ 0 sigue una distribución normal porque es una combinación lineal de normales, n ( ) 1 ˆβ 0 = n xw i y i i=1 donde w i = (x i x) /ns X y donde y i = β 0 + β 1 x i + u i, que cumple que y i N ( β 0 + β 1 x i, σ ). Además, ˆβ 0 es un estimador insesgado de β 0, y su varianza es, [ ] Var ˆβ 0 = y por tanto, [ ] E ˆβ 0 = n i=1 n i=1 ( ) 1 n xw i E [y i ] = β 0 ( ) ( 1 1 n xw i Var [y i ] = σ n + x ) (n 1)sX ( 1n ˆβ 0 N (β 0, σ + x )) (n 1)sX

Intervalo de confianza para el intercepto Queremos ahora obtener el intervalo de confianza para β 0 de nivel 1 α. Como σ es desconocida, la estimamos con s R. El resultado básico cuando la varianza es desconocida es: s R ˆβ 0 β 0 ( 1 n + x ) t n (n 1)sX que nos permite obtener el intervalo de confianza para β 0 : ( ) ˆβ 0 ± t n,α/ sr 1 n + x (n 1)sX La longitud del intervalo disminuirá si: Aumenta el tamaño de la muestra. Aumenta la varianza de las x i. Disminuye la varianza residual. Disminuye la media de las x i.

Contrastes sobre el intercepto Usando el resultado anterior podemos resolver contrastes sobre β 0. En particular, si el verdadero valor de β 0 es cero entonces la recta de regresión pasa por el origen. Por tanto, es de especial interés el contraste: H 0 : β 0 = 0 H 1 : β 0 0 La región de rechazo de la hipótesis nula es: ˆβ 0 ( ) > t n,α/ sr 1 n + x (n 1)s X Equivalentemente, si el cero está fuera del intervalo de confianza para β 0 de nivel 1 α, rechazamos la hipótesis nula a ese nivel. El p-valor es: p-valor = Pr t n > ˆβ 0 ( ) sr 1 n + x (n 1)s X

Inferencia para el intercepto Ejercicio 4.4 1. Calcula un intervalo de confianza al 95 % para el intercepto de la recta de regresión obtenida en el ejercicio 4.1.. Contrasta la hipótesis de que la recta de regresión pasa por el origen, usando un nivel de significación de 0.05. Resultados 1. t n,α/ = t 8,0,05 =,306,306 5,99 74,1151 β 0 ( 1 10 + 8,6 9 3,04 ),306 53,969 β0 94,61. Como el intervalo no contiene al cero, rechazamos que β 0 = 0 al nivel 0.05. De hecho: ˆβ 0 ( ) = 74,1151 ( ) = 8,484 >,306 sr 1 + n 5,99 x (n 1)s X p-valor= Pr(t 8 > 8,483) = 0,000 1 10 + 8,6 9 3,04

Inferencia para el intercepto Ejercicio 4.4 1. Calcula un intervalo de confianza al 95 % para el intercepto de la recta de regresión obtenida en el ejercicio 4.1.. Contrasta la hipótesis de que la recta de regresión pasa por el origen, usando un nivel de significación de 0.05. Resultados 1. t n,α/ = t 8,0,05 =,306,306 5,99 74,1151 β 0 ( 1 10 + 8,6 9 3,04 ),306 53,969 β0 94,61. Como el intervalo no contiene al cero, rechazamos que β 0 = 0 al nivel 0.05. De hecho: ˆβ 0 ( ) = 74,1151 ( ) = 8,484 >,306 sr 1 + n 5,99 x (n 1)s X p-valor= Pr(t 8 > 8,483) = 0,000 1 10 + 8,6 9 3,04

Inferencia para el intercepto ˆ β 0 1 x sr n ( n 1) s 1 x X sr n ( n 1) s Regression Analysis - Linear model: Y = a + b*x X Dependent variable: Precio en ptas. Independent variable: Produccion en kg. Standard T Parameter Estimate Error Statistic P-Value Intercept 74,1151 8,73577 8,4841 0,0000 Slope -1,35368 0,300-4,5094 0,000 Analysis of Variance Source Sum of Squares Df Mean Square F-Ratio P-Value Model 58,475 1 58,475 0,33 0,000 Residual 07,95 8 5,9906 Total (Corr.) 736,4 9 Correlation Coefficient = -0,84714 R-squared = 71,7647 percent Standard Error of Est. = 5,0981

Inferencia para la varianza El resultado básico es que: (n ) s R σ χ n Utilizando este resultado podemos: Construir el intervalo de confianza para la varianza: (n ) s R χ n,α/ σ (n ) s R χ n,1 α/ Resolver contrastes del tipo: H 0 : σ = σ 0 H 1 : σ σ 0

Estimación de una respuesta promedio y predicción de una nueva respuesta Se distiguen dos tipos de problemas: 1. Estimar el valor medio de la variable Y para cierto valor X = x 0.. Predecir el valor que tomará la variable Y para cierto valor X = x 0. Por ejemplo, en el ejercicio 4.1: 1. Cuál será el precio medio del kg. de harina para los años en que se producen 30 ton. de trigo?. Si un determinado año se producen 30 ton. de trigo, cuál será el precio del kg. de harina? En ambos casos el valor estimado es: ŷ 0 = ˆβ 0 + ˆβ 1 x 0 = ȳ + ˆβ 1 (x 0 x) Pero la precisión de las estimaciones es diferente.

Estimación de una respuesta promedio Teniendo en cuenta que: ( ) Var (ŷ 0 ) = Var (ȳ) + (x 0 x) Var ˆβ 1 ( ) = σ 1 n + (x 0 x) (n 1) sx El intervalo de confianza para la respuesta promedio es: ( ) ŷ 0 ± t n,α/ s 1 R n + (x 0 x) (n 1) sx

Predicción de una nueva respuesta La varianza de la predicción de una nueva respuesta es el error cuadrático medio de la predicción: [ E (y 0 ŷ 0 ) ] = Var (y 0 ) + Var (ŷ 0 ) ( ) = σ 1 + 1 n + (x 0 x) (n 1) s X El intervalo de confianza para la predicción de una nueva respuesta es: ( ) ŷ 0 ± t n,α/ s R 1 + 1 n + (x 0 x) (n 1) sx La longitud de este intervalo es mayor que la del anterior (menos precisión) porque no corresponde a un valor medio sino a uno específico.

Estimación de una respuesta promedio y predicción de una nueva respuesta En rojo se muestran los intervalos para las medias estimadas y en rosa los intervalos de predicción. Se observa que la amplitud de estos últimos es considerablemente mayor. 50 Plot of Fitted Model Precio en ptas. 45 40 35 30 5 5 8 31 34 37 40 Produccion en kg.