REGRESION LINEAL SIMPLE

Documentos relacionados
REGRESION LINEAL SIMPLE

CORRELACION Y REGRESION

Tema 6. Estadística descriptiva bivariable con variables numéricas

CURSO INTERNACIONAL: CONSTRUCCIÓN DE ESCENARIOS ECONÓMICOS Y ECONOMETRÍA AVANZADA. Instructor: Horacio Catalán Alonso

Problemas donde intervienen dos o más variables numéricas

Lección 4. Ejercicios complementarios.

DISTRIBUCIONES BIDIMENSIONALES

Medidas de Variabilidad

Inferencia en Regresión Lineal Simple

COLEGIO INGLÉS MEDIDAS DE DISPERSIÓN

Licenciatura en Administración y Dirección de Empresas INTRODUCCIÓN A LA ESTADÍSTICA EMPRESARIAL

Relaciones entre variables

EJERCICIOS: Tema 3. Los ejercicios señalados con.r se consideran de conocimientos previos necesarios para la comprensión del tema 3.

Análisis de Regresión y Correlación

CAPÍTULO 4 MARCO TEÓRICO

ESTADISTÍCA. 1. Población, muestra e individuo. 2. Variables estadísticas. 3. El proceso que se sigue en estadística

REGRESION Y CORRELACION

TEMA III EL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

Estadísticos muéstrales

UNIDAD 12: Distribuciones bidimensionales. Correlación y regresión

EJERCICIO 1 1. VERDADERO 2. VERDADERO (Esta afirmación no es cierta en el caso del modelo general). 3. En el modelo lineal general

ACTIVIDADES ESTADÍSTICA UNIDIMENSIONAL. a) Calcula la temperatura media y la temperatura mediana de la semana.

MEDIDAS DE ASOCIACIÓN: COEFICIENTES DE CORRELACIÓN Y DE REGRESIÓN I.- Introducción En el tema I estudiamos las medidas descriptivas para una

IES Menéndez Tolosa (La Línea) Física y Química - 1º Bach - Gráficas

Medidas de centralización

ESTADÍSTICA BIDIMENSIONAL ÍNDICE GENERAL

TEMA III EL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

EJERCICIOS. Ejercicio 1.- Para el modelo de regresión simple siguiente: Y i = βx i + ε i i =1,..., 100. se tienen las siguientes medias muestrales:

FE DE ERRATAS Y AÑADIDOS AL LIBRO FUNDAMENTOS DE LAS TÉCNICAS MULTIVARIANTES (Ximénez & San Martín, 2004)

Análisis de Resultados con Errores

EXAMEN FINAL DE ECONOMETRIA, 3º CURSO (GRADOS EN ECO y ADE) 20 DE JUNIO DE horas

Regresión Lineal Simple y Correlación

Solución de los Ejercicios de Práctica # 1. Econometría 1 Prof. R. Bernal

Reconciliación de datos experimentales. MI5022 Análisis y simulación de procesos mineralúgicos

MATEMÁTICAS para estudiantes de primer curso de facultades y escuelas técnicas

Probabilidad Grupo 23 Semestre Segundo examen parcial

Correlación y regresión lineal simple

Tema 1.3_A La media y la desviación estándar

MAGNITUD: propiedad o cualidad física susceptible de ser medida y cuantificada. Ejemplos: longitud, superficie, volumen, tiempo, velocidad, etc.

Instrucciones: Leer detenidamente los siete enunciados y resolver seis de los siete problemas propuestos. Frecuencia absoluta (f i )

SEGUNDA PARTE RENTAS FINANCIERAS

SEMANA 5 MEDIDAS DE TENDENCIA CENTRAL Y POSICIÓN

EXAMEN FINAL DE ECONOMETRIA, 3º CURSO (GRADOS EN ECO y ADE) 6 de Junio de :00 horas. Pregunta 19 A B C En Blanco. Pregunta 18 A B C En Blanco

EJERCICIOS RESUELTOS VARIABLE ALEATORIA UNIDIMENSIONAL

EJERCICIOS DE ESTADÍSTICA BIDIMENSIONAL.

Tema 1: Estadística Descriptiva Unidimensional Unidad 2: Medidas de Posición, Dispersión y de Forma

Prueba de Inferencia Estadística y Contraste de Hipótesis. 8 de octubre de 2012 GRUPO A

NOMBRE Apellido Paterno Apellido Materno Nombre(s) Porcentaje de defectos producidos Máquina Porcentaje de producción

8 MECANICA Y FLUIDOS: Calorimetría

Estadística con R. Modelo Probabilístico Lineal

Guía de Electrodinámica

( ) MUESTREO ALEATORIO SIMPLE SIN REEMPLAZO ( mas ) y Y. N n. S y. MUESTREO ALEATORIO SIMPLE SIN REEMPLAZO ( mas )

EXAMEN FINAL DE ECONOMETRIA, 3º CURSO (GRADOS EN ECO y ADE) 19 de Septiembre de :30 horas. Pregunta 19 A B C En Blanco

Tema 3. Estadísticos univariados: tendencia central, variabilidad, asimetría y curtosis

2 Dos tipos de parámetros estadísticos

Regresión y Correlación Métodos numéricos

3 - VARIABLES ALEATORIAS

3. VARIABLES ALEATORIAS.

Variables Aleatorias

CASO PRÁCTICO TEORÍA. 1 i (REGRESIÓN LINEAL CON PESOS ESTADÍSTICOS OBTENIDOS DE RÉPLICAS)

Transcripción:

REGREION LINEAL IMPLE Jorge Galbat Resco e dspone de una mustra de observacones formadas por pares de varables: (x 1, y 1 ) (x, y ).. (x n, y n ) A través de esta muestra, se desea estudar la relacón exstente entre las dos varables X e Y. Es posble representar estas observacones medante un gráfco de dspersón, como el sguente Tambén se puede expresar el grado de asocacón medante algunos ndcadores, que se verán a contnuacón. MEDIDA DE AOCIACION DE VARIABLE Covaranza entre las varables X e Y. Es una medda de la varacón conjunta. e defne como 1 1 cov( X, Y ) = ( x x)( y y) = n n xy 1

Puede tomar valores postvos o negatvos. Postvo, sgnfca que ambas varables tenden a varar de la msma forma, hay una asocacón postva. Negatvo, sgnfca que s una aumenta, la otra tende a dsmnur, y vce versa. Covaranza cercana a cero ndca que no hay asocacón entre las varables. Ejemplo 1 DATO DEL CLUB DE ALUD Datos correspondentes a 0 empleados del club de salud de una empresa X Y pulsasones or mnuto en reposo tempo en correr 1 mlla ( reg) Fuente:. Chatterjee - A. Had: " entvty Analyss n Lnear Regresson" obs X Y 1 67 481 5 9 3 56 357 4 66 396 5 65 345 6 80 469 7 77 45 8 65 393 9 68 346 10 66 401 11 70 67 1 59 368 13 58 95 14 5 391 15 64 487 16 7 481 17 57 374 18 59 367 19 70 469 0 63 5 Promedos: 64,3 38,8

Calcularemos de la covaranza entre estas dos varables. Covaranza Valores centrados y productos: obs X-64,3 Y-38,8 prod 1,7 98, 65,14-1,3-90,8 1116,84 3-8,3-5,8 14,14 4 1,7 13,,44 5 0,7-37,8-6,46 6 15,7 86, 1353,34 7 1,7 4, 535,94 8 0,7 10, 7,14 9 3,7-36,8-136,16 10 1,7 18, 30,94 11 5,7-115,8-660,06 1-5,3-14,8 78,44 13-6,3-87,8 553,14 14-1,3 8, -100,86 15-0,3 104, -31,6 16 7,7 98, 756,14 17-7,3-8,8 64,4 18-5,3-15,8 83,74 19 5,7 86, 491,34 0-1,3-130,8 170,04 Promedo : 39,41 La covaranza entre las varables X e Y es gual a 39,41 Coefcente de correlacón lneal. La covaraza tene el nconvenente de que su valor no es acotado, por lo que, a partr de él es dfcl juzgar s es grande o pequeña. e defne la correlacón, que es una medda de asocacón lneal ndependente de las undades de medda. Es gual a la covaranza dvdda por las desvacones standard: cov( X, Y ) ( x x)( y y) corr ( X, Y ) = = = dsx * dsy ( x x) ( y y) xx xy yy 3

El valor de la correlacón entre cualquer par de varables es un número entre -1 y 1. n valor alto de correlacón no ndca que exste alguna relacón de causa-efecto entre las varables. Ejemplo (contnuacón) Coefcente de Correlacón e deben calcular las desvacones standard. Para ello se deben elevar al cuadrado las observacones centradas y promedar, obtenéndose las varanzas. Las desvacones standard son las raíces cuadradas de éstas. cuadrados de obs X-64,3 Y-38,8 1 7,3 9643, 151,3 844,6 3 68,9 665,6 4,9 174, 5 0,5 148,8 6 46,5 7430,4 7 161,3 1780,8 8 0,5 104,0 9 13,7 1354, 10,9 331, 11 3,5 13409,6 1 8,1 19,0 13 39,7 7708,8 14 151,3 67, 15 0,1 10857,6 16 59,3 9643, 17 53,3 77,4 18 8,1 49,6 19 3,5 7430,4 0 1,7 17108,6 Promedos : 54,11 4896,46 (varanzas) Las desvacones standard son dsx = 7,36 ds Y = 69,97 Para obtener las correlacones se debe dvdr la covaranza por las desvacones standard: corr(x,y) = 39.41 / ( 7.36 * 69.97 ) = 0,465 4

El sguente es un gráfco de dspersón que muestra estos datos. Club de alud Tempo en recorrer 1 mlla 600 500 400 300 00 100 0 0 0 40 60 80 100 Pulsacones por mnuto La nterpretacón del coefcente de correlacón puede lustrarse medante los sguentes gráfcos. 5

REGREION LINEAL IMPLE Ahora asumremos que s hay una relacón de causaldad de la varable X (causa) haca la varable Y (efecto). Además, se sabe que esa relacón es de tpo lneal, dentro del rango de los datos. Estableceremos un modelo para explcar la ca usa (Y) en térmnos del efecto (X), del tpo sguente: Y = a + bx + e para = 1,,..., n en que a y b son dos cantdades fjas (parámetros del modelo) y los e son cantdades aleatoras que representan las dferencas entre lo que postula el modelo a + bx y lo que realmente se observa, y. Por esa razón a los e los llamaremos "errores" o "errores aleatoros". e asume que tenen valor esperado 0 y desvacón standard común σ. Ejemplo Venta de automóvles e pensa que s aumentan el porcentaje de comsón pagada al vendedor de automóvles, aumenta la venta. Estudo sobre 15 concesonaros smlares X Comsones pagadas a vendedores de autos en un mes (%) Y Ganancas netas por ventas, en el msmo mes (Mllones de $) obs X Y 1 3.6 11.8 5. 14.74 3 5.3 18.46 4 7.3 0.01 5 5.0 1.43 6 5. 15.37 7 3.0 9.59 8 3.1 11.6 9 3. 8.05 10 7.5 7.91 11 8.3 4.6 1 6.1 18.80 13 4.9 13.87 14 5.8 1.11 15 7.1 3.68 6

Representacón de los datos en un gráfco de dspersón: Ganancas netas versus comsones Ganancas (MM$) 30.00 5.00 0.00 15.00 10.00 5.00 0.00 0.0.0 4.0 6.0 8.0 10.0 comsón (%) e puede aprecar la relacón lneal exstente entre ambas varables observadas. Nuestro problema es estmar los parámetros a, b y σ para poder dentfcar el modelo. Para estmar a y b se utlza el método de Mínmos cuadrados, que consste en encontrar aquellos valores de a y de b que hagan mínma la suma de los cuadrados de las desvacones de las observacones respecto de la recta que representa el modelo, en el sentdo vertcal. 7

En la fgura, son los cuadrados de los segmentos vertcales cuya suma de cuadrados se debe mnmzar, para determnar a y b. Estos segmentos representan los errores e del modelo. b se llama pendente de la recta que representa los datos y a se llama ntercepto sobre el eje vertcal. La solucón está dada por las sguentes fórmulas: ( x x)( y y) b = = ( x x) a = y b x xy xx Ejemplo (contnuacón) Calculamos los promedos de ambas varables y se las restamos a los valores. Promedo de la X : 5.4 Promedo de la Y : 16.1 8

Desvacones respecto de las medas, sus cuadrados y productos: obs X-5.4 Y-16.1 cuadrados prod. 1-1.8-4.9 3.1 3.7 8.6-0. -1.4 0.0.0 0. 3-0.1.3 0.0 5.3-0. 4 1.9 3.9 3.7 14.9 7.4 5-0.4-3.7 0.1 13.8 1.4 6-0. -0.8 0.0 0.6 0.1 7 -.4-6.6 5.6 4.9 15.6 8 -.3-4.9 5. 3.8 11.1 9 -. -8.1 4.7 65.6 17.6 10.1 11.8 4.5 138.5 5.0 11.9 8.5 8.6 71.8 4.8 1 0.7.7 0.5 7.0 1.9 13-0.5 -.3 0. 5. 1.1 14 0.4-4.0 0. 16.3-1.7 15 1.7 7.5 3.0 56.8 13.0 sumas 0.0 0.0 39.6 488.3 16.1 xx yy xy Entonces utlzando las fórmulas de arrba, b = 3.18 a = -0.96 El modelo, para estos datos, es Y = 0.96 + 3, 18X + e para =1,,.. 15 Representa una recta, cuyo ntercepto con el eje vertcal es -0.96, y su pendente es 3.18, o sea, s el porcentaje de comsón X aumenta en 1%, la gananca neta Y aumenta en 3.18 Mllones de pesos. Ganancas netas versus comsones 30.00 5.00 Ganancas (MM$) 0.00 15.00 10.00 5.00 0.00 0.0-5.00.0 4.0 6.0 8.0 10.0 comsón (%) 9

Valores ajustados al modelo. El modelo de regresón lneal se puede utlzar para obtener valores de Y ajustados al modelo, Los valores puntuales se obtenen medante la fórmula Y = a + bx en que a y b son los valores estmados por el procedmento ndcado anterormente, y X toma los valores de la muestra. Los puntos que representan estos valores en el gráfco de dspersón, yacen sobre la recta. Ejempol (contnuacón) La tabla sguente contene los valores de Y ajustados, para cada valor de X, además de los valores de Y observados, a modo de comparacón. Los ajustados se obtenen por la fórmula Y = 0.96 + 3. 18 X obs X Y Yajust. df 1 3.6 11.8 10.50 0.78 5. 14.74 15.59-0.85 3 5.3 18.46 15.91.54 4 7.3 0.01.8 -.7 5 5.0 1.43 14.96 -.5 6 5. 15.37 15.59-0.3 7 3.0 9.59 8.59 1.00 8 3.1 11.6 8.91.36 9 3. 8.05 9.3-1.18 10 7.5 7.91.9 5.00 11 8.3 4.6 5.46-0.84 1 6.1 18.80 18.46 0.34 13 4.9 13.87 14.64-0.77 14 5.8 1.11 17.50-5.40 15 7.1 3.68 1.64.04 promedo 5.4 16.1 16.1 0.00 10

e puede observar que el promedo de los valores ajustados es gual al promedo de los valores observados, y que el promedo de las dferencas es cero. La raíz cuadrada del promedo de los cuadrados de las dferencas entre los valores observados y ajustados, es una estmacón de la varanza del error, σ. En el ejemplo, la suma de las dferencas al cuadrado es 19.8, luego la estmacón de la desvacón standard del error es gual a 1 σ = 19.8 = 1.3 = 1.15 Mllones de pesos 15 Coefcente de determnacón Es una medda de bondad de ajuste del modelos de regresón lneal a los datos. Es deseable que los valores de Y ajustados al modelo, sean lo más parecdos posble a los valores observados. Una medda de lo parecdo que son, es el coefcente de correlacón. e defne el coefcente de determnacón, R, como el cuadrado del coefcente de correlacón entre los valores de Y observados y los valores de Y ajustados. n embargo se puede demostrar que es gual a la sguente expresón: R [ ( x x)( y y) ] [ ( x x) ][ ( y y) ] xy = = xx yy 11

El rango de R es entre 0, cero ajuste, hasta 1, ajuste perfecto (cuando los puntos aparecen en un línea recta). Ejemplo (contnuacón) Más arrba se calcularos las sumas de cuadrados y de productos, y deron los sguentes valores: xx = 39.6, yy = 488.3, xy = 16.1 Entonces el coefcente de determnacón es R = (16.1) 39.6* 488.3 = 0.8 que señala que el ajuste del modelo a los datos es bueno. Ejemplo 3 Los datos sguentes corresponde al Indce de Produccón Físca de la Industra Manufacturera, por agrupacón, de los meses de mayo de 00 y mayo de 003, entregado por el Insttuto Naconal de Estadístcas. Es un índce cuya base 100 es el promedo de produccón de cada agrupacón, en el año 1989. 1

Agrupacones Mayo 0 Mayo 03 Fabrcac. de productos almentcos 140. 133.5 Industras de bebdas 134.6 133.7 Industra del tabaco 151.1 140.5 Fabrcac. de textles 70.9 70.3 Fabrcac. prendas de vestr, excepto calzado 34.7 30.5 Industra del cuero; produc. de cuero y sucedáneos 59.3 56.7 Fabrcac. de calzado, exc. de caucho o plástco 5.6 45.3 Industra de madera y sus productos exc. muebles 13.3 141.6 Fabrcac. de muebles y accesoros, exc. metálcos 114.0 13.4 Fabrcac. de papel y productos de papel 189.5 05.3 Imprentas, edtorales e ndustras conexas 107.5 108.0 Fabrcac. de sustancas químcas ndustrales 9.4 31.4 Fabrcac. de otros productos químcos 1.4 09.6 Refnerías de petróleo 136.0 165. Fabrcac. prod. dervados de petróleo y carbón 143. 156. Fabrcac. de productos de caucho 141.4 177.4 Fabrcac. de productos plástcos 305.8 399.7 Fabrcac. de objetos de loza y porcelana 68. 61.1 Fabrcac. de vdro y productos de vdro 68.6 66.4 Fabrcac. otros productos mnerales no metálcos 185.6 186.5 Industras báscas de herro y acero 13.1 167.1 Industras báscas de metales no ferrosos 119.8 108.7 Fabrcac. prod. metálcos exc. maqunara y equpo 153.6 153.5 Construccón de maqunara, exc. la eléctrca 8.5 89.7 Construccón máq., aparatos y acces. eléctrcos 87.0 83.0 Construccón de materal de transporte 103.4 73.4 Fabrcac. equpo profesonal y artículos oftálmcos 67.7 64.1 Otras ndustras manufactureras 66.0 67.5 El gráfco de dspersón es el sguente: Prod. Físca Industra Manufacturera 600 Indce mayo 003 400 00 0 0 100 00 300 400 Indce mayo 00 13

Cálculos parcales, en que X es el índce mayo 00, Y el índce mayo 003: n = 8 x = 136.6 y = 144.9 xx yy xy = ( x x) = ( y y) = = 134,913.6 187,813.7 = ( x x)( y y) = 154,350.8 Estmacón de los parámetros del modelo: b = xy xx = 154,350.8 134,913.6 = 1.14 a = y bx = 13.61 Bondad de ajuste: R = xx xy yy = (154,350.8) (134,913.6) *(187,350.8) = 0.940 que ndca un muy buen ajuste. El sguente gráfco muestra de recta de regresón estmada: Prod. Físca Industra Manufacturera 600 Indce mayo 003 400 00 0-00 0 100 00 300 400 Indce mayo 00 14

Predccón por bandas de confanza. e pueden hacer predccones de valores Y para valores X que no están en el conjunto de observacones, dentro o fuera de su rango, utlzando la fórmula de la regresón lneal, con los parámetros a y b estmados. Tamben se pueden hacer predccones por ntervalos de confanza vertcales, que tenen la ventaja de proporconar una cuantfcacón del error de predccón. Los ntervalos tenen la propedad de ser de dferente ancho, según el valor de X, sendo más angostos cuando X es gual al promedo, ensanchándose a medda que nos alejamos del promedo. Cuando se sale del rango de los datos, se ensanchan más fuertemente. Esto sgnfca que mentras más nos alejamos del centro de los valores de la varable X, más mprecsas serán nuestras estmacones del valor de la varable Y, lo que parece razonable. unmos los extremos superores (o los nferores) de todos los ntervalos de confanza, se obtenen dos curvas con forma de hpérbola, como se muestra en la fgura: 15

El gráfco sguente muestra las bandas de confanza de coefcente 95%, para el ejemplo de la produccón físca manufacturera. Mentras mayor es el coefcente de determnacón R, más angostas son las bandas de confanza; lo msmo mentras mayor es la desvacón standard de las X, y lo msmo s el tamaño muestral aumenta. Y a medda que nos alejamos del promedo de las X, se ensanchan las bandas. 16