REGRESION LINEAL SIMPLE

Documentos relacionados
REGRESION LINEAL SIMPLE

CORRELACION Y REGRESION

Tema 6. Estadística descriptiva bivariable con variables numéricas

CURSO INTERNACIONAL: CONSTRUCCIÓN DE ESCENARIOS ECONÓMICOS Y ECONOMETRÍA AVANZADA. Instructor: Horacio Catalán Alonso

Problemas donde intervienen dos o más variables numéricas

Análisis de Regresión y Correlación

DISTRIBUCIONES BIDIMENSIONALES

Inferencia en Regresión Lineal Simple

Relaciones entre variables

Medidas de Variabilidad

REGRESION Y CORRELACION

EJERCICIOS. Ejercicio 1.- Para el modelo de regresión simple siguiente: Y i = βx i + ε i i =1,..., 100. se tienen las siguientes medias muestrales:

ESTADISTÍCA. 1. Población, muestra e individuo. 2. Variables estadísticas. 3. El proceso que se sigue en estadística

EJERCICIO 1 1. VERDADERO 2. VERDADERO (Esta afirmación no es cierta en el caso del modelo general). 3. En el modelo lineal general

Tema 1.3_A La media y la desviación estándar

IES Menéndez Tolosa (La Línea) Física y Química - 1º Bach - Gráficas

Regresión Lineal Simple y Correlación

Correlación y regresión lineal simple

TEMA III EL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

FE DE ERRATAS Y AÑADIDOS AL LIBRO FUNDAMENTOS DE LAS TÉCNICAS MULTIVARIANTES (Ximénez & San Martín, 2004)

SEMANA 5 MEDIDAS DE TENDENCIA CENTRAL Y POSICIÓN

( ) MUESTREO ALEATORIO SIMPLE SIN REEMPLAZO ( mas ) y Y. N n. S y. MUESTREO ALEATORIO SIMPLE SIN REEMPLAZO ( mas )

Medidas de centralización

ESTADÍSTICA BIDIMENSIONAL ÍNDICE GENERAL

NOMBRE Apellido Paterno Apellido Materno Nombre(s) Porcentaje de defectos producidos Máquina Porcentaje de producción

MATEMÁTICAS para estudiantes de primer curso de facultades y escuelas técnicas

TRABAJO 1: Variables Estadísticas Unidimensionales (Tema 1).

Reconciliación de datos experimentales. MI5022 Análisis y simulación de procesos mineralúgicos

EJERCICIOS DE ESTADÍSTICA BIDIMENSIONAL.

Tema 4: Variables aleatorias

2 Dos tipos de parámetros estadísticos

Guía de Electrodinámica

CAPÍTULO 5 REGRESIÓN CON VARIABLES CUALITATIVAS

CARTAS DE CONTROL. Han sido difundidas exitosamente en varios países dentro de una amplia variedad de situaciones para el control del proceso.

Tema 3. Estadísticos univariados: tendencia central, variabilidad, asimetría y curtosis

8 MECANICA Y FLUIDOS: Calorimetría

SEGUNDA PARTE RENTAS FINANCIERAS

Pronósticos. Humberto R. Álvarez A., Ph. D.

3. VARIABLES ALEATORIAS.

GERENCIA DE OPERACIONES Y PRODUCCIÓN DISEÑO DE NUEVOS PRODUCTOS Y SERVICIOS ESTRATEGIAS DE OPERACIONES

Tema 1: Estadística Descriptiva Unidimensional Unidad 2: Medidas de Posición, Dispersión y de Forma

Pista curva, soporte vertical, cinta métrica, esferas metálicas, plomada, dispositivo óptico digital, varilla corta, nuez, computador.

Introducción a la Física. Medidas y Errores

Estadística Unidimensional: SOLUCIONES

Regresión Binomial Negativa

Estadística con R. Modelo Probabilístico Lineal

DATOS AGRUPADOS POR INTERVALOS DE CLASE

Tallerine: Energías Renovables. Fundamento teórico

T. 9 El modelo de regresión lineal

EXPERIMENTACIÓN COMERCIAL(I)

Regresión y Correlación Métodos numéricos

Econometría. Ayudantía # 01, Conceptos Generales, Modelo de Regresión. Profesor: Carlos R. Pitta 1

Especialista en Estadística y Docencia Universitaria REGRESION LINEAL MULTIPLE

Histogramas: Es un diagrama de barras pero los datos son siempre cuantitativos agrupados en clases o intervalos.

Capitalización y descuento simple

Variables Dummy (parte I)

Mª Dolores del Campo Maldonado. Tel: :

2. EL TENSOR DE TENSIONES. Supongamos un cuerpo sometido a fuerzas externas en equilibrio y un punto P en su interior.

MODELOS DE ELECCIÓN BINARIA

Investigación y Técnicas de Mercado. Previsión de Ventas TÉCNICAS CUANTITATIVAS ELEMENTALES DE PREVISIÓN UNIVARIANTE. (IV): Ajustes de Tendencia

Variables Aleatorias. Variables Aleatorias. Variables Aleatorias. Objetivos del tema: Al final del tema el alumno será capaz de:

EXPERIMENTOS ANIDADOS O JERARQUICOS NESTED

METODOLOGÍA MUESTRAL ENCUESTA A LAS PEQUEÑAS Y MEDIANAS EMPRESAS

Estadística Descriptiva y Analisis de Datos con la Hoja de Cálculo Excel. Números Índices

Para construir un diagrama de tallo y hoja seguimos los siguientes pasos:

Regresión y correlación simple 113

Maestría en Administración. Medidas Descriptivas. Formulario e Interpretación. Dr. Francisco Javier Cruz Ariza

Modelos triangular y parabólico

1.Variables ficticias en el modelo de regresión: ejemplos.

Cálculo y EstadísTICa. Primer Semestre.

TÉCNICAS AUXILIARES DE LABORATORIO

12-16 de Noviembre de Francisco Javier Burgos Fernández

Hidrología superficial

INTRODUCCIÓN. Técnicas estadísticas

Transcripción:

REGREION LINEAL IMPLE Jorge Galbat Resco e dspone de una muestra de observacones formadas por pares de varables: (x 1, y 1 ), (x, y ),.., (x n, y n ) A través de esta muestra, se desea estudar la relacón exstente entre las dos varables X e Y. Es posble representar estas observacones medante un gráfco de dspersón, como el sguente Tambén se puede expresar el grado de asocacón medante algunos ndcadores, que se verán a contnuacón. MEDIDA DE AOCIACION DE VARIABLE Covaranza entre las varables X e Y. Es una medda de la varacón conjunta. e defne como 1 1 cov( X, Y ) = ( x x)( y y) = n n Puede tomar valores postvos o negatvos. Postvo, sgnfca que ambas varables tenden a varar de la msma forma, hay una asocacón postva. Negatvo, sgnfca que s una aumenta, la otra tende a dsmnur, y vce versa. Covaranza cercana a cero ndca que no hay asocacón entre las varables. xy 1

Ejemplo 1 DATO DEL CLUB DE ALUD Datos correspondentes a 0 empleados del club de salud de una empresa X Y pulsasones or mnuto en reposo tempo en correr 1 mlla ( reg) Fuente:. Chatterjee - A. Had: " entvty Analyss n Lnear Regresson" obs X Y 1 67 481 5 9 3 56 357 4 66 396 5 65 345 6 80 469 7 77 45 8 65 393 9 68 346 10 66 401 11 70 67 1 59 368 13 58 95 14 5 391 15 64 487 16 7 481 17 57 374 18 59 367 19 70 469 0 63 5 Promedos: 64,3 38,8

Calcularemos de la covaranza entre estas dos varables. Covaranza Valores centrados y productos: obs X-64,3 Y-38,8 prod La covaranza entre las 1,7 98, 65,14-1,3-90,8 1116,84 3-8,3-5,8 14,14 4 1,7 13,,44 5 0,7-37,8-6,46 6 15,7 86, 1353,34 7 1,7 4, 535,94 8 0,7 10, 7,14 9 3,7-36,8-136,16 10 1,7 18, 30,94 11 5,7-115,8-660,06 1-5,3-14,8 78,44 13-6,3-87,8 553,14 14-1,3 8, -100,86 15-0,3 104, -31,6 16 7,7 98, 756,14 17-7,3-8,8 64,4 18-5,3-15,8 83,74 19 5,7 86, 491,34 0-1,3-130,8 170,04 Promedo : 39,41 varables X e Y es gual a 39,41 Coefcente de correlacón lneal. La covaraza tene el nconvenente de que su valor no es acotado, por lo que, a partr de él es dfcl juzgar s es grande o pequeña. e defne la correlacón, que es una medda de asocacón lneal ndependente de las undades de medda. Es gual a la covaranza dvdda por las desvacones estándar: (, cov( X, Y ) ) = = ( x x)( y y) corr X Y = dsx * dsy ( x x) ( y y) xx xy yy 3

El valor de la correlacón entre cualquer par de varables es un número entre -1 y 1. n valor alto de correlacón no ndca que exste alguna relacón de causa-efecto entre las varables. Ejemplo (contnuacón) Coefcente de Correlacón e deben calcular las desvacones standard. Para ello se deben elevar al cuadrado las observacones centradas y promedar, obtenéndose las varanzas. Las desvacones standard son las raíces cuadradas de éstas. cuadrados de obs X-64,3 Y-38,8 1 7,3 9643, 151,3 844,6 3 68,9 665,6 4,9 174, 5 0,5 148,8 6 46,5 7430,4 7 161,3 1780,8 8 0,5 104,0 9 13,7 1354, 10,9 331, 11 3,5 13409,6 1 8,1 19,0 13 39,7 7708,8 14 151,3 67, 15 0,1 10857,6 16 59,3 9643, 17 53,3 77,4 18 8,1 49,6 19 3,5 7430,4 0 1,7 17108,6 Promedos : 54,11 4896,46 (varanzas) Las desvacones standard son dsx = 7,36 ds Y = 69,97 Para obtener las correlacones se debe dvdr la covaranza por las desvacones standard: corr(x,y) = 39.41 / ( 7.36 * 69.97 ) = 0,465 4

El sguente es un gráfco de dspersón que muestra estos datos. Club de alud Tempo en recorrer 1 mlla 600 500 400 300 00 100 0 0 0 40 60 80 100 Pulsacones por mnuto La nterpretacón del coefcente de correlacón puede lustrarse medante los sguentes gráfcos. 5

REGREION LINEAL IMPLE Ahora asumremos que s hay una relacón de causaldad de la varable X (causa) haca la varable Y (efecto). Además, se sabe que esa relacón es de tpo lneal, dentro del rango de los datos. Estableceremos un modelo para explcar la ca usa (Y) en térmnos del efecto (X), del tpo sguente: Y = a + bx + e para = 1,,..., n en que a y b son dos cantdades fjas (parámetros del modelo) y los e son cantdades aleatoras a + bx y lo que realmente se que representan las dferencas entre lo que postula el modelo observa, y. Por esa razón a los e los llamaremos "errores" o "errores aleatoros". e asume que tenen valor esperado 0 y desvacón estándar común σ. Ejemplo Venta de automóvles e pensa que s aumentan el porcentaje de comsón pagada al vendedor de automóvles, aumenta la venta. Estudo sobre 15 concesonaros smlares X Comsones pagadas a vendedores de autos en un mes (%) Y Ganancas netas por ventas, en el msmo mes (Mllones de $) obs X Y 1 3.6 11.8 5. 14.74 3 5.3 18.46 4 7.3 0.01 5 5.0 1.43 6 5. 15.37 7 3.0 9.59 8 3.1 11.6 9 3. 8.05 10 7.5 7.91 11 8.3 4.6 1 6.1 18.80 13 4.9 13.87 14 5.8 1.11 15 7.1 3.68 Representacón de los datos en un gráfco de dspersón: 6

Ganancas netas versus comsones Ganancas (MM$) 30.00 5.00 0.00 15.00 10.00 5.00 0.00 0.0.0 4.0 6.0 8.0 10.0 comsón (%) e puede aprecar la relacón lneal exstente entre ambas varables observadas. Nuestro problema es estmar los parámetros a, b y σ para poder dentfcar el modelo. Para estmar a y b se utlza el método de Mínmos cuadrados, que consste en encontrar aquellos valores de a y de b que hagan mínma la suma de los cuadrados de las desvacones de las observacones respecto de la recta que representa el modelo, en el sentdo vertcal. En la fgura, son los cuadrados de los segmentos vertcales cuya suma de cuadrados se debe mnmzar, para determnar a y b. Estos segmentos representan los errores e del modelo. b se llama pendente de la recta que representa los datos y a se llama ntercepto sobre el eje vertcal. La solucón está dada por las sguentes fórmulas: ( x x)( y y) b = = ( x x) xy xx 7

a = y b x Ejemplo (contnuacón) Calculamos los promedos de ambas varables y se las restamos a los valores. Promedo de la X : 5.4 Promedo de la Y : 16.1 Desvacones respecto de las medas, sus cuadrados y productos: obs X-5.4 Y-16.1 cuadrados prod. 1-1.8-4.9 3.1 3.7 8.6-0. -1.4 0.0.0 0. 3-0.1.3 0.0 5.3-0. 4 1.9 3.9 3.7 14.9 7.4 5-0.4-3.7 0.1 13.8 1.4 6-0. -0.8 0.0 0.6 0.1 7 -.4-6.6 5.6 4.9 15.6 8 -.3-4.9 5. 3.8 11.1 9 -. -8.1 4.7 65.6 17.6 10.1 11.8 4.5 138.5 5.0 11.9 8.5 8.6 71.8 4.8 1 0.7.7 0.5 7.0 1.9 13-0.5 -.3 0. 5. 1.1 14 0.4-4.0 0. 16.3-1.7 15 1.7 7.5 3.0 56.8 13.0 sumas 0.0 0.0 39.6 488.3 16.1 xx yy xy Entonces utlzando las fórmulas de arrba, b = 3.18 a = -0.96 El modelo, para estos datos, es Y = 0.96 + 3, 18X + e para =1,,.. 15 Representa una recta, cuyo ntercepto con el eje vertcal es -0.96, y su pendente es 3.18, o sea, s el porcentaje de comsón X aumenta en 1%, la gananca neta Y aumenta en 3.18 Mllones de pesos. 8

Ganancas netas versus comsones 30.00 5.00 Ganancas (MM$) 0.00 15.00 10.00 5.00 0.00 0.0-5.00.0 4.0 6.0 8.0 10.0 com són (%) VALORE AJUTADO AL MODELO. El modelo de regresón lneal se puede utlzar para obtener valores de Y ajustados al modelo, Los valores puntuales se obtenen medante la fórmula Y = a + bx en que a y b son los valores estmados por el procedmento ndcado anterormente, y X toma los valores de la muestra. Los puntos que representan estos valores en el gráfco de dspersón, yacen sobre la recta. Ejemplo (contnuacón) La tabla sguente contene los valores de Y ajustados, para cada valor de X, además de los valores de Y observados, a modo de comparacón. Los ajustados se obtenen por la fórmula Y = 0.96 + 3. 18 X 9

obs X Y Yajust. df 1 3.6 11.8 10.50 0.78 5. 14.74 15.59-0.85 3 5.3 18.46 15.91.54 4 7.3 0.01.8 -.7 5 5.0 1.43 14.96 -.5 6 5. 15.37 15.59-0.3 7 3.0 9.59 8.59 1.00 8 3.1 11.6 8.91.36 9 3. 8.05 9.3-1.18 10 7.5 7.91.9 5.00 11 8.3 4.6 5.46-0.84 1 6.1 18.80 18.46 0.34 13 4.9 13.87 14.64-0.77 14 5.8 1.11 17.50-5.40 15 7.1 3.68 1.64.04 promedo 5.4 16.1 16.1 0.00 e puede observar que el promedo de los valores ajustados es gual al promedo de los valores observados, y que el promedo de las dferencas es cero. La raíz cuadrada del promedo de los cuadrados de las dferencas entre los valores observados y ajustados, es una estmacón de la varanza del error, σ. En el ejemplo, la suma de las dferencas al cuadrado es 19.8, luego la estmacón de la desvacón estándar del error es gual a σ = 1 19.8 15 = 1.3 = 1.15 Mllones de pesos Coefcente de determnacón. Es una medda de bondad de ajuste del modelos de regresón lneal a los datos. Es deseable que los valores de Y ajustados al modelo, sean lo más parecdos posble a los valores observados. Una medda de lo parecdo que son, es el coefcente de correlacón. e defne el coefcente de determnacón, R, como el cuadrado del coefcente de correlacón entre los valores de Y observados y los valores de Y ajustados. n embargo se puede demostrar que es gual a la sguente expresón: R [ ( x x)( y y) ] [ ( x x) ][ ( y y) ] xy = = xx yy El rango de R es entre 0, cero ajuste, hasta 1, ajuste perfecto (cuando los puntos aparecen en un línea recta). 10

Ejemplo (contnuacón) Más arrba se calcularos las sumas de cuadrados y de productos, y deron los sguentes valores: xx = 39.6, yy = 488.3, xy = 16.1 Entonces el coefcente de determnacón es R = (16.1) 39.6* 488.3 que señala que el ajuste del modelo a los datos es bueno. = 0.8 Ejemplo 3 Los datos sguentes corresponde al Indce de Produccón Físca de la Industra Manufacturera, por agrupacón, de los meses de mayo de 00 y mayo de 003, entregado por el Insttuto Naconal de Estadístcas. Es un índce cuya base 100 es el promedo de produccón de cada agrupacón, en el año 1989. Agrupacones Mayo 0 Mayo 03 Fabrcac. de productos almentcos 140. 133.5 Industras de bebdas 134.6 133.7 Industra del tabaco 151.1 140.5 Fabrcac. de textles 70.9 70.3 Fabrcac. prendas de vestr, excepto calzado 34.7 30.5 Industra del cuero; produc. de cuero y sucedáneos 59.3 56.7 Fabrcac. de calzado, exc. de caucho o plástco 5.6 45.3 Industra de madera y sus productos exc. muebles 13.3 141.6 Fabrcac. de muebles y accesoros, exc. metálcos 114.0 13.4 Fabrcac. de papel y productos de papel 189.5 05.3 Imprentas, edtorales e ndustras conexas 107.5 108.0 Fabrcac. de sustancas químcas ndustrales 9.4 31.4 Fabrcac. de otros productos químcos 1.4 09.6 Refnerías de petróleo 136.0 165. Fabrcac. prod. dervados de petróleo y carbón 143. 156. Fabrcac. de productos de caucho 141.4 177.4 Fabrcac. de productos plástcos 305.8 399.7 Fabrcac. de objetos de loza y porcelana 68. 61.1 Fabrcac. de vdro y productos de vdro 68.6 66.4 Fabrcac. otros productos mnerales no metálcos 185.6 186.5 Industras báscas de herro y acero 13.1 167.1 Industras báscas de metales no ferrosos 119.8 108.7 Fabrcac. prod. metálcos exc. maqunara y equpo 153.6 153.5 Construccón de maqunara, exc. la eléctrca 8.5 89.7 Construccón máq., aparatos y acces. eléctrcos 87.0 83.0 Construccón de materal de transporte 103.4 73.4 Fabrcac. equpo profesonal y artículos oftálmcos 67.7 64.1 Otras ndustras manufactureras 66.0 67.5 11

El gráfco de dspersón es el sguente: Prod. Físca Industra Manufacturera 600 Indce mayo 003 400 00 0 0 100 00 300 400 Indce mayo 00 Cálculos parcales, en que X es el índce mayo 00, Y el índce mayo 003: n = 8 x = 136.6 y = 144.9 xx yy xy = ( x x) = ( y y) = = 134,913.6 187,813.7 = ( x x)( y y) = 154,350.8 Estmacón de los parámetros del modelo: b = xy xx 154,350.8 = = 1.14 134,913.6 a = y bx = 13.61 Bondad de ajuste: R = xx xy yy = (154,350.8) (134,913.6) *(187,350.8) = 0.940 que ndca un muy buen ajuste. El sguente gráfco muestra de recta de regresón estmada: 1

Prod. Físca Industra Manufacturera 600 Indce mayo 003 400 00 0-00 0 100 00 300 400 Indce mayo 00 Predccón por bandas de confanza. e pueden hacer predccones de valores Y para valores X que no están en el conjunto de observacones, dentro o fuera de su rango, utlzando la fórmula de la regresón lneal, con los parámetros a y b estmados. Tambén se pueden hacer predccones por ntervalos de confanza vertcales, que tenen la ventaja de proporconar una cuantfcacón del error de predccón. Los ntervalos tenen la propedad de ser de dferente ancho, según el valor de X, sendo más angostos cuando X es gual al promedo, ensanchándose a medda que nos alejamos del promedo. Cuando se sale del rango de los datos, se ensanchan más fuertemente. Esto sgnfca que mentras más nos alejamos del centro de los valores de la varable X, más mprecsas serán nuestras estmacones del valor de la varable Y, lo que parece razonable. unmos los extremos superores (o los nferores) de todos los ntervalos de confanza, se obtenen dos curvas con forma de hpérbola, como se muestra en la fgura: 13

El gráfco sguente muestra las bandas de confanza de coefcente 95%, para el ejemplo de la produccón físca manufacturera. Mentras mayor es el coefcente de determnacón R, más angostas son las bandas de confanza; lo msmo mentras mayor es la desvacón estándar de las X, y lo msmo s el tamaño muestral aumenta. Y a medda que nos alejamos del promedo de las X, se ensanchan las bandas. 14

PREGUNTA 1. e mden dos varables, x e y. e calcula su coefcente de correlacón. Qué mde este coefcente?. e tenen dos varables, relaconadas con las publcacones en revstas de profesores unverstaros: X = Número de publcacones. Y = Número de veces que ha sdo ctado. Utlzando regresón lneal, se estmó, en base a una muestra, que estas varables están relaconadas medante el sguente modelo lneal: Y = 0.3+.6 X Cómo se nterpretan los dos parámetros de este modelo? 3. Qué mde el coefcente de correlacón lneal de dos varables. 4. e tene un conjunto de pares de datos (x,y), a los que se les estma una recta de regresón. La varable ndependente es x, su rango es entre 150 y 30. e hacen dos estmacones de y por ntervalos de confanza de coefcente 95%, una para x=190 y otra para x=50. Cuál es más precsa? 5. e tenen dos varables, observadas en una muestra de estudantes egresados de la enseñanza meda: X = promedo de notas de los cuatro años de enseñanza meda. Y = puntos PU hstora. Utlzando regresón lneal, se estmó, en base a una muestra, que estas varables están relaconadas medante el sguente modelo lneal: Y = 60 + 100 X Cómo se nterpretan los dos parámetros de este modelo? 6. La relacón entre el tempo, en días, dedcado a elaborar un proyecto y el costo del proyecto se modeló medante una regresón lneal, estmándose la sguente expresón: costo = 3 + 0.5 * tempo Cómo nterpreta el número 3? Cómo nterpreta el número 0.5? 7. Qué mde el coefcente de determnacón, en un modelo de regresón lneal? 15

8. e tenen dos varables, observadas en trabajadores de la salud: X = años de servco. Y = asgnacones salarales actuales (mles de pesos). Utlzando regresón lneal, se estmó, en base a una muestra, que estas varables están relaconadas medante el sguente modelo lneal: Y = 00+ 15 X Cómo se nterpretan los dos parámetros de este modelo? 9. Cómo se nterpreta el coefcente de determnacón, en una regresón lneal? 10. Una nsttucón ha encargado una sere de proyectos. Con los datos hstórcos, se quso relaconar los montos de los proyectos con los tempos de ejecucón, obtenéndose los sguentes resultados: Monto (M$) = 160+ 476 x Tempo (días) con un coefcente de determnacón R = 0.86 Explque qué mde el coefcente R. Un valor de 0.6 sería mejor o peor, y por qué? 16