Figura 1

Documentos relacionados
Problemas donde intervienen dos o más variables numéricas

Relaciones entre variables

Análisis de Regresión y Correlación

Muestra: son datos de corte transversal correspondientes a 120 familias españolas.

EJERCICIO 1 1. VERDADERO 2. VERDADERO (Esta afirmación no es cierta en el caso del modelo general). 3. En el modelo lineal general

REGRESION LINEAL SIMPLE

T. 9 El modelo de regresión lineal

ESTADÍSTICA BIDIMENSIONAL ÍNDICE GENERAL

Correlación y regresión lineal simple

TEMA 3. VARIABLE ALEATORIA

Investigación y Técnicas de Mercado. Previsión de Ventas TÉCNICAS CUANTITATIVAS ELEMENTALES DE PREVISIÓN UNIVARIANTE. (IV): Ajustes de Tendencia

Regresión Lineal Simple y Correlación

PRÁCTICA 16: MODELO DE REGRESIÓN MÚLTIPLE SOLUCIÓN

TEMA III EL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

REGRESION Y CORRELACION

Efectos fijos o aleatorios: test de especificación

Regresión y correlación simple 113

MATEMÁTICAS para estudiantes de primer curso de facultades y escuelas técnicas

Medidas de centralización

CAPITULO 3.- ANÁLISIS CONJUNTO DE DOS VARIABLES. 3.1 Presentación de los datos. Tablas de doble entrada.

Modelos unifactoriales de efectos aleatorizados

Reconciliación de datos experimentales. MI5022 Análisis y simulación de procesos mineralúgicos

MODELOS DE ELECCIÓN BINARIA

EJERCICIOS DE ESTADÍSTICA BIDIMENSIONAL.

IES Menéndez Tolosa (La Línea) Física y Química - 1º Bach - Gráficas

De factores fijos. Mixto. Con interacción Sin interacción. No equilibrado. Jerarquizado

3. VARIABLES ALEATORIAS.

Regresión Binomial Negativa

TÉCNICAS AUXILIARES DE LABORATORIO

Regresión y correlación Tema Contraste sobre β 1.2 Regresión en formato ANOVA. 2. Correlación. Contraste sobre ρ xy

Variable aleatoria: definiciones básicas

Análisis de Weibull. StatFolio de Muestra: Weibull analysis.sgp

Además podemos considerar diferentes tipos de medidas de resumen. Entre ellas tenemos:

Fugacidad. Mezcla de gases ideales

Descripción de una variable

Vectores VECTORES 1.- Magnitudes Escalares y Magnitudes Vectoriales. Las Magnitudes Escalares: Las Magnitudes Vectoriales:

Tema 3. Estadísticos univariados: tendencia central, variabilidad, asimetría y curtosis

Tema 1.3_A La media y la desviación estándar

Tema 4: Variables aleatorias

Histogramas: Es un diagrama de barras pero los datos son siempre cuantitativos agrupados en clases o intervalos.

Introducción a los Modelos de Pronósticos

Econometría. Ayudantía # 01, Conceptos Generales, Modelo de Regresión. Profesor: Carlos R. Pitta 1

Práctica 2 Caracterización de un dinamómetro

Bloque 5. Probabilidad y Estadística Tema 2. Estadística descriptiva Ejercicios resueltos

INTRODUCCIÓN. Técnicas estadísticas

Organización y resumen de datos cuantitativos

CAPÍTULO 5 REGRESIÓN CON VARIABLES CUALITATIVAS

Trabajo y Energía Cinética

Tema 1: Estadística Descriptiva Unidimensional Unidad 2: Medidas de Posición, Dispersión y de Forma

CARTAS DE CONTROL. Han sido difundidas exitosamente en varios países dentro de una amplia variedad de situaciones para el control del proceso.

Cálculo y EstadísTICa. Primer Semestre.

Oferta de Trabajo Parte 2. Economía Laboral Julio J. Elías LIE - UCEMA

EL MÉTODO DE DIFERENCIAS FINITAS POR GUILLERMO HERNÁNDEZ GARCÍA

Media es la suma de todas las observaciones dividida por el tamaño de la muestra.

USOS Y EXTENSIONES DEL MODELO LINEAL CON K VARIABLES

Métodos específicos de generación de diversas distribuciones discretas

PRUEBAS DE ACCESO A LAS UNIVERSIDADES DE ANDALUCÍA PARA MAYORES DE 25 AÑOS MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES

Análisis de error y tratamiento de datos obtenidos en el laboratorio

Población: Es el conjunto de todos los elementos cuyo conocimiento nos interesa y serán objeto de nuestro estudio.

Apéndice A: Metodología para la evaluación del modelo de pronóstico meteorológico

Medidas de Tendencia Central y de Variabilidad

TEMA 8: PRÉSTAMOS ÍNDICE

Tema 1: Análisis de datos unidimensionales

Estimación del consumo del consumo diario de gas a partir de lecturas periódicas de medidores

Facultad de Ingeniería División de Ciencias Básicas Coordinación de Ciencias Aplicadas Departamento de Probabilidad y Estadística

Pronósticos. Humberto R. Álvarez A., Ph. D.

Reconocimiento de Locutor basado en Procesamiento de Voz. ProDiVoz Reconocimiento de Locutor 1

ACTIVIDADES INICIALES

Para una población dada, se pueden estudiar simultáneamente dos o más caracteres cuantitativos diferentes.

CÁLCULO DE INCERTIDUMBRE EN MEDIDAS FÍSICAS: MEDIDA DE UNA MASA

LECTURA 07: MEDIDAS DE TENDENCIA CENTRAL (PARTE II) LA MEDIANA Y LA MODA TEMA 17: LA MEDIANA Y LA MODA

Hidrología superficial

Maestría en Administración. Medidas Descriptivas. Formulario e Interpretación. Dr. Francisco Javier Cruz Ariza

EXPERIMENTACIÓN COMERCIAL(I)

Modelos de Regresión análisis de regresión diagrama de dispersión coeficientes de regresión

v i CIRCUITOS ELÉCTRICOS (apuntes para el curso de Electrónica)

Electricidad y calor

APLICACIÓN DEL ANALISIS INDUSTRIAL EN CARTERAS COLECTIVAS DE VALORES

Electricidad y calor. Un repaso... Temas. 4. Primera ley de la Termodinámica. Webpage: Algunas definiciones

MEDIDAS DESCRIPTIVAS

PARÁMETROS DE UNA DISTRIBUCIÓN DE PROBABILIDAD DISCRETA Media aritmética: μ = x

LECTURA N 06: MEDIDAS DE TENDENCIA CENTRAL (PARTE I) TEMA 14: MEDIDAS ESTADISTICAS: DEFINICION Y CLASIFICACION

ENCUESTA ESTRUCTURAL DE TRANSPORTE POR CARRETERA AÑO CONTABLE 2011 INSTITUTO NACIONAL DE ESTADÍSTICAS

Capitalización y descuento simple

TEMA 4. TRABAJO Y ENERGIA.

VARIABLE ALEATORIA DISCRETA. DISTRIBUCIÓN BINOMIAL.

Cinemática del Brazo articulado PUMA

ESTADÍSTICA (GRUPO 12)

1. Introducción 1.1. Análisis de la Relación

Modelos triangular y parabólico

EJERCICIOS RESUELTOS TEMA 2

3. Algunos modelos estadísticos

NÚMEROS COMPLEJOS. y sabemos que no podemos calcular raíces de números negativos en R. Para resolver este problema introduciremos el valor i = 1

Pruebas Estadísticas de Números Pseudoaleatorios

CAPÍTULO 3 DIAGNÓSTICOS DE REGRESIÓN

Pregunta Hoy está nublado, cuál es la probabilidad de que mañana continúe nublado? cuál es la probabilidad de que está nublado pasado mañana?

Guía de Electrodinámica

UNA FORMA GRÁFICA DE ENSEÑANZA: APLICACIÓN AL DUOPOLIO DE. Dpto. de Métodos Cuantitativos e Informáticos. Universidad Politécnica de Cartagena.

CAPITULO CUATRO MEDIDAS DE DISPERSION, ASIMETRIA Y CURTOSIS

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS

Transcripción:

5 Regresón Lneal Smple 5. Introduccón 90 En muchos problemas centífcos nteresa hallar la relacón entre una varable (Y), llamada varable de respuesta, ó varable de salda, ó varable dependente y un conjunto de varables (X, X,...) llamadas varables explcatvas, ó varables ndependentes ó varables de entrada. Consderaremos el caso más smple que consste en descrbr la relacón entre dos varables contnuas medante una recta. Aún cuando el análss ncluya eventualmente más de una varable explcatva, es habtual mrar ncalmente una varable explcatva por vez. Ejemplo. Interesa estudar la relacón entre la presón (bar) de transcón de Bsmuto I-II con la temperatura ( o C) TEMP PRESION TEMP PRESION TEMP PRESION TEMP PRESION 0.8 576 0.9 556 56.9 587. 57. 587.4 577.5 577 4.8 5 4.8 5093 5 5080 33.5 4750 34 470 34. 476 4.5 4374 Fgura 4.7 4394 4.9 4384 49.7 4077 50. 406 50.3 4057 Vemos que la presón de transcón de Bsmuto I-II, decrece a medda que aumenta la temperatura, observamos una tendenca lneal decrecente aunque los puntos del dagrama de dspersón no están perfectamente alneados. 5. Puntos sobre una recta Dremos que la relacón entre dos varables X e Y es perfectamente lneal, s todos los pares de valores observados (x,y ) de dchas varables satsfacen la ecuacón de una recta: y = α + β x () En esta expresón α y β son constantes: α es la ordenada al orgen y β la pendente. Decmos que X es una varable predctora de Y, ecuacón (). El valor del subíndce ndexa las observacones: =,,3,...,n. Para el ejemplo y representa el valor de la presón obtendo para la temperatura x.

9 Fgura Gráfcamente, () defne una línea recta, donde: α (la ordenada al orgen) es el punto donde la recta corta al eje vertcal y β (la pendente), ndca cuantas undades camba y cuando x aumenta undad. S β postvo la recta sube β undades por cada aumento de x en undad. S β es negatvo la recta cae cuando x aumenta. S β = 0 la recta es horzontal. Fgura 3 a Fgura 3 b La fgura 3 muestra dos ejemplos hpotétcos. S la relacón entre X e Y es perfectamente lneal y conocemos los valores α y β, la ecuacón () permte predecr qué valor de Y corresponde a cualquer valor de X. Más aún, dos pares de datos son sufcentes para determnar los parámetros α y β, de la msma manera que dos puntos y una regla alcanzan para dbujar una línea recta. La relacón entre datos reales es rara vez tan smple. 5.3 Modelo de Regresón Lneal Smple En forma más realsta podríamos plantear que el valor esperado (la meda poblaconal) de Y, más que los valores ndvduales, camba lnealmente con X: E [ / ] = + β, Y X = x α x ()

9 donde α es gual a la meda poblaconal de Y cuando X = 0. Con un aumento de una undad en X se obtene un aumento de la meda poblaconal de Y en β undades. Este tpo de modelos tene muchas aplcacones práctcas. En el caso de la presón y la temperatura el modelo dce que la meda poblaconal de las medcones de la presón para una temperatura fja está dada por α + β TEMP Otras cosas, además de X, causan que los valores observados de Y varíen alrededor de la meda de todos los valores de Y cuando X toma el valor x, E[Y/X=x]. Esas otras cosas son lo que determnan el error (de medcón en nuestro ejemplo) ε. ( α + β ) - E [ / ]. ε = Y - x = Y Y X = x El valor de Y es gual a la meda más un error: Y =EY [ / X = x ] + ε = α+ β x + ε. Por lo tanto, otra forma de expresar el modelo lneal dado en () es: los valores de la varable respuesta se encuentran relaconados lnealmente con la varable explcatva más un error. Tenemos así el sguente Modelo de regresón lneal smple Y = α + β x + ε. (4) (3) S nos nteresa predecr PRESION a partr de TEMP (tabla), llamaremos a la prmera varable respuesta y a la segunda varable explcatva o predctora. La varable respuesta sempre se grafca en el eje vertcal, o eje Y, y la varable predctora en el eje horzontal, o eje X, como muestra el dagrama de dspersón de la fgura. El problema consste en ajustar una recta que represente al conjunto de datos de la mejor manera, para obtener la predccón de Y para cualquer valor de X. Hay muchas maneras de evaluar s una recta representa ben al conjunto de datos. El enfoque tradconal consste en hallar la recta que en promedo tenga la menor dstanca vertcal, resduo, al cuadrado a cada uno de los puntos. Este procedmento se llama método de Cuadrados Mínmos (CM) y lo descrbremos en la Seccón 4.5. UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF PRESION PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P --------- ----------- --------- ----------- ------ CONSTANT 6079.9.9034 90.97 0.0000 TEMP -39.8935 0.35843 -.30 0.0000 La recta de regresón ( para los datos de la tabla es: y = a+b x ˆ ) obtenda por el método de cuadrados mínmos

93 PRESION ajustada ( ŷ ) = 6079.9-39.8935 TEMP (5) El valor ajustado ( ŷ ) puede utlzarse de dos maneras dstntas: a) como estmador de la meda poblaconal de Y para cada x fjo, en este caso como estmador de la meda de la presón de transcón para una temperatura fja. b) como predctor de un valor futuro de Y para un valor fjo de x. La dferenca entre a) y b) se encuentra úncamente en la varanza de ŷ. Fgura 4. Dagrama de dspersón junto con la recta ajustada. 5. 4 Resduos El resduo de un punto a una recta en un dagrama de dspersón es la dstanca vertcal del punto a dcha recta. La fgura 5 muestra el dagrama de dspersón de los datos junto con la recta ajustada y el dagrama de dspersón de los resduos vs. la temperatura para los prmeros 8 datos. Fgura 5 Algunos resduos son postvos, la presón observada está por encma de la recta, y otros son negatvos, la presón observada está por debajo de la recta. La suma de todos los resduos es cero. La fgura 6 muestra el dagrama de dspersón de los resduos vs. la temperatura del conjunto de datos completo. Fgura 6

94 Para la prmera medcón TEMP = 0.8, PRESION = 576. El resduo =5.8799 es postvo y se obtene como resduo = valor de Y observado - valor de Y estmado por la recta = y - ŷ = PRESION - {6079.9-39.8935 TEMP } = 576 - {6079.9-39.8935 * 0.8 } = 5.8799 Para la tercera medcón TEMP=, PRESION = 56. El resduo= -6.43 es negatvo. 5.5 El Método de Cuadrados Mínmos La suma de los cuadrados de los resduos (RSS) da una medda de la "bondad de ajuste" de la recta. Cuanto más pequeño es ese número tanto mejor es el ajuste. Hemos observado valores de dos varables, X (TEMP) e Y (PRESION), y hemos realzado una "regresón de Y sobre X", obtenendo una recta que da un valor "ajustado" estmado de Y ( ŷ, y "sombrero") para cada valor de la varable X. Un estudo comenza por un modelo lneal (4) porque exste una teoría que lo sugere o porque se desea comenzar de manera smple. En cualquera de los dos casos, nos nteresa obtener los mejores estmadores de los parámetros α y β. S llamamos a y b a nuestros estmadores, la ecuacón de la recta estmada es: yˆ = a+b x, donde ŷ (y "sombrero") ndca el valor ajustado (o predcho) de la varable Y para el caso (es el valor de la ordenada para x sobre la recta ajustada) (ver fgura 5). Los resduos e, la contraparte muestral de los errores (ε ), son las dferencas entre el valor observado y el valor predcho: e = y - yˆ = y -(a+b x ). Los resduos mden el error de predccón. Como hemos vsto, s el valor observado es mayor que el valor predcho (y > ŷ ) el resduo es postvo; en caso contraro es negatvo.

95 Con una predccón perfecta (y = ŷ ) resulta un resduo nulo. La suma de los cuadrados de los resduos (RSS) refleja la precsón y exacttud global de nuestras predccones: n n n RSS = e = ( y yˆ ). = ( y a bx ) (6) = = = Cuanto más cerca estén los valores observados de los predchos tanto menor será RSS. El método de Cuadrados Mínmos (CM) consste en elegr a y b de manera que la suma de cuadrados de los resduos (RSS) sea lo más pequeña posble. Cómo hallamos a y b? n ( y = n ( y = a bx ) n = ( y a bx ) = 0 a = a bx ) n = x ( y a bx ) = 0 b = (7) Las ecuacones anterores defnen los estmadores de los parámetros α y β resultan de dervar (6) con respecto a a y a b. Se trata de dos ecuacones lneales con dos ncógntas cuyas solucones son b = n ( x x)( y y) = ( x x) a = y bx Observacones De la prmera ecuacón de (7) tenemos que la suma de los resduos es 0. La segunda ecuacón de (8), nos dce que la recta de cuadrados mínmos pasa por ( x, y), ya que y = a + bx. n = Podemos pensar al método de cuadrados mínmos como fjando un punto, dado por el promedo de los valores de la varable explcatva (x s) y el promedo de los valores de la varable respuesta (y s) y luego grando la recta que pasa por ese punto elegmos la que deja en promedo, en forma pareja, tantos valores observados por arrba como por abajo. Nnguna otra recta tendrá, para el msmo conjunto de datos, una RSS tan baja como la obtenda por CM. En este sentdo, el método de mínmos cuadrados brnda la solucón que mejor ajusta a ese conjunto de datos. Advertenca: en general no pueden realzarse predccones fuera del rango de valores observados de la varable ndependente. Que nos dce la ecuacón de la recta ( PRESION ajustada ( ) = 6079.9-39.8935 TEMP) ajustada?: ŷ La estmacón de la varable PRESION, obtenda a partr de la ecuacón de regresón ajustada, es el valor predcho de PRESION. (8)

96 Para cualquer valor de la varable TEMP un aumento en un grado de la temperatura produce una reduccón de 39.8935(bar) en la presón meda ( verdadera ) de transcón de Bsmuto I-II. El método de CM permte estmar una recta a partr de un conjunto de datos. S estos datos son una muestra adecuada de una poblacón, la recta nos permte extender resultados a dcha poblacón. Certas característcas de los datos podrían nvaldar los resultados del método. 5.6 Supuestos Antes de utlzar el análss de regresón y consderar meddas de ncerteza o dspersón, es necesaro conocer los supuestos en los que se basa el método. Veremos prmero cuáles son esos supuestos y luego qué procedmentos pueden utlzarse para valdarlos. 5.6. Descrpcón de los supuestos Supuesto a: Normaldad de los errores. Para cada valor x, de la varable predctora X, la varable respuesta Y debe tener dstrbucón Normal Por ejemplo, s se cumple este supuesto, la presón de transcón (Y) es una varable aleatora Normal con meda µ x que depende de x (temperatura). Supuesto b: Lnealdad La meda de la varable Y varía lnealmente con X. S pasar de a 0 C no fuera lo msmo que pasar 4 a 4 0 C respecto del cambo de la presón de transcón, este supuesto no se cumplría. Supuesto c: Homoscedastcdad La varabldad de Y, que es medda por su varanza (σ ), o por su desvío estándar (σ ), debe ser la msma para cada valor x de la varable X. Este supuesto no se cumplría por ejemplo s a medda que aumenta (o dsmnuye) la temperatura los valores de la presón de transcón de Bsmuto l-ii estuveran comprenddos en un rango más amplo. No sabemos s los supuestos se satsfacen, n conocemos los verdaderos valores de los parámetros α y β. Fgura 7. Supuestos de Normaldad, lnealdad y homoscedastcdad

97 La fgura 7 representa dos varables para las cuales se satsfacen los supuestos de lnealdad ( µ(x) = α + β x, la meda de la varable Y crece lnealmente con x ), normaldad y homoscedastcdad de los errores. Supuesto d: Independenca de los errores Hemos vsto que cuando dos varables son ndependentes su correlacón es cero, en general la recíproca no es certa pero bajo el supuesto de normaldad el supuesto de ndependenca de los errores se reduce a que no estén correlaconados (corr ( ε, ε j ) = 0 j ). Por ejemplo, s las presones de transcón fueron obtendas en un orden secuencal con la temperatura, podría ocurrr que los errores fueran mayores en temperaturas más bajas que en temperaturas más altas nvaldando el supuesto de ndependenca de los errores. 5.6. Valdacón de los Supuestos La valdacón de los supuestos se realza en base a los datos y a los resduos de los msmos respecto de la recta ajustada. El dagrama de dspersón de los datos permte obtener una mpresón sobre el supuesto de lnealdad y homoscedastcdad. El análss posteror de resduos permtrá confrmar la mpresón ncal y valdar los supuestos de Normaldad e ndependenca. Veamos algunas estructuras que suelen verse en los dagramas de dspersón de los resduos.