Relaciones entre variables



Documentos relacionados
Análisis de Regresión y Correlación

EXPERIMENTACIÓN COMERCIAL(I)

Covarianza y coeficiente de correlación

Tema 3. Estadísticos univariados: tendencia central, variabilidad, asimetría y curtosis

Tema 1: Estadística Descriptiva Unidimensional Unidad 2: Medidas de Posición, Dispersión y de Forma

Licenciatura en Administración y Dirección de Empresas INTRODUCCIÓN A LA ESTADÍSTICA EMPRESARIAL

Correlación y regresión lineal simple

Capitalización y descuento simple

Problemas donde intervienen dos o más variables numéricas

CURSO INTERNACIONAL: CONSTRUCCIÓN DE ESCENARIOS ECONÓMICOS Y ECONOMETRÍA AVANZADA. Instructor: Horacio Catalán Alonso

TÉCNICAS AUXILIARES DE LABORATORIO

Histogramas: Es un diagrama de barras pero los datos son siempre cuantitativos agrupados en clases o intervalos.

DEFINICIÓN DE INDICADORES

Lección 4. Ejercicios complementarios.

Econometría. Ayudantía # 01, Conceptos Generales, Modelo de Regresión. Profesor: Carlos R. Pitta 1

REGRESION Y CORRELACION

DISTRIBUCIONES BIDIMENSIONALES

De factores fijos. Mixto. Con interacción Sin interacción. No equilibrado. Jerarquizado

Trabajo y Energía Cinética

Tema 6. Estadística descriptiva bivariable con variables numéricas

CAPITULO 3.- ANÁLISIS CONJUNTO DE DOS VARIABLES. 3.1 Presentación de los datos. Tablas de doble entrada.

CÁLCULO VECTORIAL 1.- MAGNITUDES ESCALARES Y VECTORIALES. 2.- VECTORES. pág. 1

CÁLCULO DE INCERTIDUMBRE EN MEDIDAS FÍSICAS: MEDIDA DE UNA MASA

Investigación y Técnicas de Mercado. Previsión de Ventas TÉCNICAS CUANTITATIVAS ELEMENTALES DE PREVISIÓN UNIVARIANTE. (IV): Ajustes de Tendencia

ACTIVIDADES INICIALES

Análisis de error y tratamiento de datos obtenidos en el laboratorio

TEMA 4 Variables aleatorias discretas Esperanza y varianza

Medidas de centralización

Regresión y Correlación Métodos numéricos

COLEGIO INGLÉS MEDIDAS DE DISPERSIÓN

CAPÍTULO 5 REGRESIÓN CON VARIABLES CUALITATIVAS

GUIAS DE ACTIVIDADES Y TRABAJO PRACTICO Nº 22

Regresión Lineal Simple y Correlación

Inferencia en Regresión Lineal Simple

REGRESION LINEAL SIMPLE

Introducción a la Física. Medidas y Errores

Comparación entre distintos Criterios de decisión (VAN, TIR y PRI) Por: Pablo Lledó

Medidas de Variabilidad

Clase 25. Macroeconomía, Sexta Parte

TEMA III EL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

1.1 Ejercicios Resueltos Tema 1

TERMODINÁMICA AVANZADA

Guía de ejercicios #1

REGRESION LINEAL SIMPLE

MODELOS DE ELECCIÓN BINARIA

Disipación de energía mecánica

OPERACIONES ARMONIZACION DE CRITERIOS EN CALCULO DE PRECIOS Y RENDIMIENTOS

Física I. TRABAJO y ENERGÍA MECÁNICA. Apuntes complementarios al libro de texto. Autor : Dr. Jorge O. Ratto

Análisis de Resultados con Errores

CANTIDADES VECTORIALES: VECTORES

CAPÍTULO 4 MARCO TEÓRICO

2.2 TASA INTERNA DE RETORNO (TIR). Flujo de Caja Netos en el Tiempo

ESTADÍSTICA BIDIMENSIONAL ÍNDICE GENERAL

EXAMEN FINAL DE ECONOMETRIA, 3º CURSO (GRADOS EN ECO y ADE) 6 de Junio de :00 horas. Pregunta 19 A B C En Blanco. Pregunta 18 A B C En Blanco

12-16 de Noviembre de Francisco Javier Burgos Fernández

FE DE ERRATAS Y AÑADIDOS AL LIBRO FUNDAMENTOS DE LAS TÉCNICAS MULTIVARIANTES (Ximénez & San Martín, 2004)

TEMA III EL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

MEDIDAS DE ASOCIACIÓN: COEFICIENTES DE CORRELACIÓN Y DE REGRESIÓN I.- Introducción En el tema I estudiamos las medidas descriptivas para una

Pruebas Estadísticas de Números Pseudoaleatorios

Respuesta A.C. del FET 1/14

TEMA 8: PRÉSTAMOS ÍNDICE

1.- Una empresa se plantea una inversión cuyas características financieras son:

Gráficos de flujo de señal

UNIDAD 12: Distribuciones bidimensionales. Correlación y regresión

UNIVERSIDAD DE GUADALAJARA, CUCEI DEPARTAMENTO DE ELECTRÓNICA LABORATORIO DE ELECTRÓNICA II

FUNDAMENTOS DE DIRECCIÓN FINANCIERA TEMA 2- Parte III CONCEPTO DE INVERSIÓN Y CRITERIOS PARA SU VALORACIÓN

CASO PRÁCTICO TEORÍA. 1 i (REGRESIÓN LINEAL CON PESOS ESTADÍSTICOS OBTENIDOS DE RÉPLICAS)

RESISTENCIAS EN SERIE Y LEY DE LAS MALLAS V 1 V 2 V 3 A B C

Métodos cuantitativos de análisis gráfico

EXAMEN FINAL DE ECONOMETRIA, 3º CURSO (GRADOS EN ECO y ADE) 17 de Mayo de :00 horas

Leyes de tensión y de corriente

PRÁCTICA 1. IDENTIFICACIÓN Y MANEJO DE MATERIAL DE LABORATORIO: PREPARACIÓN DE DISOLUCIONES Y MEDIDA DE DENSIDADES

Media es la suma de todas las observaciones dividida por el tamaño de la muestra.

GEOMETRÍA ANALÍTICA 2º Curso de Bachillerato 22 de mayo de 2008

Tema 7: Variables Ficticias

Tallerine: Energías Renovables. Fundamento teórico

EJERCICIOS. Ejercicio 1.- Para el modelo de regresión simple siguiente: Y i = βx i + ε i i =1,..., 100. se tienen las siguientes medias muestrales:

SEGUNDA PARTE RENTAS FINANCIERAS

Transcripción:

Relacones entre varables Las técncas de regresón permten hacer predccones sobre los valores de certa varable Y (dependente), a partr de los de otra (ndependente), entre las que se ntuye que exste una relacón. Para lustrarlo retomemos los ejemplos menconados al prncpo del tema anteror. S sobre un grupo de personas observamos los valores que toman las varables Altura medda en cm Y Altura medda en metros es trval observar que la relacón que hay entre ambas es: Y =. 100 Obtener esta relacón es menos evdente cuando lo que medmos sobre el msmo grupo de personas es, por ejemplo, Altura medda en cm Y Peso en klos La razón es que no es certo que conocda la altura x de un ndvduo, podamos determnar de modo exacto su peso y (dos personas que mden 1,70 m pueden tener pesos de 60 y 65 klos). Sn embargo, alguna relacón entre ellas debe exstr, pues parece mucho más probable que un ndvduo de 2m pese más que otro que mda 1.20m. Esmás, nos puede parecer más o menos aproxmado una relacón entre ambas varables como la sguente Y = 110 ± (error). A la deduccón, a partr de una sere de datos, de este tpo de relacones entre varables, es lo que denomnamos regresón. 1

Medante las técncas de regresón de una varable Y sobre una varable, buscamos una funcón que sea una buena aproxmacón de una nube de puntos (x,y ),medante una curva. Para ello hemos de asegurarnos de que la dferenca entre los valores y e ŷ sea tan pequeña como sea posble. El térmno que hemos denomnado error debe ser tan pequeño como sea posble (ver fgura). El objetvo será buscar la funcón (tambén denomnada modelo de regresón) Ŷ = f () que mnmce dcho error. 2

Bondad de un ajuste Consderemos un conjunto de observacones sobre n ndvduos de una poblacón, en los que se mden certas varables e Y, x 1,x 2,...,x n Y y 1,y 2,...,y n Estamos nteresamos en hacer una regresón para determnar, de modo aproxmado, los valores de Y conocdos los de. Así,debemosdefnr certa varable Ŷ = f (), que debe tomar los valores ŷ 1 = f (x 1 ), ŷ 2 = f (x 2 ), ŷ n = f (x n ), 3

de modo que: y 1 ŷ 1 0, y 2 ŷ 2 0, y n ŷ n 0, Ello se puede expresar defnendo una nueva varable E = Y Ŷ que mda las dferencas entre los auténtcos valores de Y y los teórcos sumnstrados por la regresón, e 1 = y 1 ŷ 1, e 2 = y 2 ŷ 2, e n = y n ŷ n. ycalculandoŷ de modo que E tome valores cercanos a 0. Dcho de otro modo, E debe ser una varable cuya meda debe ser 0 y cuya varanza SE 2 debe ser pequeña (en comparacón con la de Y ). Por ello, se defne el coefcente de determnacón de la regresón de Y sobre, R 2, como R 2 = S2 Y S 2 E S 2 Y =1 S2 E. SY 2 S el ajuste de Y medante la curva de regresón Ŷ = f () es bueno, cabe esperar que la cantdad R 2 tome un valor próxmo a 1. Análogamente, s nos nteresa encontrar una curva de regresón para como funcón de Y,defnríamos ˆ = f (Y ) y se procedería del msmo modo en las defncones. El valor de R 2 srve, entonces, para medr de qué modo las dferencas entre los verdaderos valores de una varable y los de su aproxmacón medante una curva de regresón son pequeñas en relacón con los de la varabldad de la varable que ntentamos aproxmar. Por esta razón estas cantdades mden el grado de bondad del ajuste. Regresón lneal Laformadelafuncónf en prncpo, podría ser arbtrara, y tal vez se tenga que la relacón más exacta entre las varables peso y altura, defndas anterormente, sea algo de forma muy complcada. 4

Por el momento no pretendemos encontrar relacones complcadas entre varables, pues nos vamos a lmtar al caso de la regresón lneal. Con este tpo de regresones nos conformamos con encontrar relacones funconales de tpo lneal, es decr, buscamos cantdades a y b tales que se pueda escrbr Ŷ = a + b con el menor error posble entre Ŷ e Y. Observacón Obsérvese que la relacón anteror explca cosas como que s varía en 1 undad, Y varíalacantdadb. Portanto: 1. S b>0, las dos varables aumentan o dsmnuyen a la vez; 2. S b<0, cuando una varable aumenta, la otra dsmnuye. Por tanto, en el caso de las varables peso y altura lo lógco será encontrar que b>0. El problema que se plantea es, entonces, el de cómo calcular las cantdades a y b a partr de un conjunto de n observacones (x 1,y 1 ), (x 2,y 2 ),...,(x n,y n ), de forma que se mnmce el error. Las etapas en que se dvde el proceso son de forma esquemátca, las que sguen: 1. Dadas dos varables, Y, sobre las que defnmos Ŷ = a+b medmos el error que se comete al aproxmar Y medante Ŷ calculando la suma de las dferencas entre los valores reales y los aproxmados al cuadrado (para que sean postvas y no se compensen los errores): (y ŷ ) 2 = =1 =1 2. Una aproxmacón Ŷ = a + b de Y,sedefne a partr de dos cantdades a y b. Vamos a calcular aquellas que mnmzan la funcón e 2 Error (a, b) = (y ŷ ) 2 = =1 (y a bx ) 2 =1 3. Posterormente encontraremos fórmulas para el cálculo drecto de a y b que srvan para cualquer problema. 5

RegresóndeYsobre Para calcular la recta de regresón de Y sobre nos basamos en la sguente fgura Una vez que tenemos defndo el error de aproxmacón, los valores a y b que lo mnmzan se calculan dervando con respecto a ambas e gualando a cero (procedmento de los mínmos cuadrados): Mn (y a bx ) 2 = a,b y 2 + a 2 + b 2 x 2 2ay 2bx y +2abx = Mn a,b à Mn y 2 + na 2 + b 2 a,b Se derva e guala a 0: x 2 2a y 2b x y +2ab a = 2na 2 y +2b x =0 b = 2b x 2 2 x y +2a x =0 Despejando los valores de a y b, se obtenen las relacones buscadas: a = ȳ b x b = S Y S 2 La cantdad b se denomna coefcente de regresón de Y sobre. 6 x!.

Las msmas conclusones se sacan cuando ntentamos hacer la regresón de sobre Y, pero,paracalcularlarectaderegresón de sobre Y es totalmente ncorrecto despejar de Ŷ = a + b. La regresón de sobre Y se hace aproxmando por ˆ del modo ˆ = a+by donde a = x bȳ b = S Y S 2 Y pues de este modo se mnmza, en el sentdo de los mínmos cuadrados, los errores entre las cantdades x ylasˆx Ejemplo En una muestra de 1.500 ndvduos se recogen datos sobre dos meddas antropométrcas e Y. Los resultados se muestran resumdos en los sguentes estadístcos: x =14 S =2 S Y =45 ȳ =100 S Y =25 Obtener el modelo de regresón lneal que mejor aproxma Y en funcón de. Utlzando este modelo, calcular de modo aproxmado la cantdad Y esperada cuando =15. Solucón: Lo que se busca es la recta, Ŷ = a + b, que mejor aproxma los valores de Y (según el crtero de los mínmos cuadrados) en la nube de puntos que resulta de representar en un plano (, Y ) las 1.500 observacones. Los coefcentes de esta recta son: b = S Y S 2 Así, el modelo lneal consste en: = 45 4 =11,25 a = ȳ b x =100 11,25 14 = 57,5 Ŷ = 57,5+11,25 Por tanto, s x =15, el modelo lneal predce un valor de Y de: ŷ = 57,5+11,25 x = 57,5+11,25 15 = 111,25 En este punto, hay que preguntarse s realmente esta predccón puede consderarse fable. Para dar una respuesta, es necesaro estudar propedades de la regresón lneal que están a contnuacón. 7

Propedades de la regresón lneal Una vez que ya tenemos perfectamente defnda Ŷ nos preguntamos las relacones que hay entre la meda y la varanza de ésta y la de Y. La respuesta nos la ofrece la sguente proposcón: Proposcón En los ajustes lneales se conserva la meda, es decr ŷ =ȳ En cuanto a la varanza, no necesaramente es la msma para los verdaderos valores de Y y su aproxmacón Ŷ, pues sólo se mantenen en un factor de r 2,esdecr, Demostracón: Seteneque S 2 Ŷ = r2 S 2 Y ŷ = a + b x =(ȳ b x + b x) =ȳ S 2 = b 2 S 2 Ŷ = S2 Y S 2 S2 S 2 = = S 2 Y S 2 S2 Y S 2 Y = µ SY S S Y 2 S 2 Y = r 2 S 2 Y donde se ha utlzado la magntud que denomnamos coefcente de correlacón, r, yque ya defnmos anterormente como r 2 = Observacón µ 2 SY S S Y Como consecuenca de este resultado, podemos decr que la proporcón de varanza explcada por la regresón lneal es del r 2 100 %. Nos gustaría obtener que r =1, pues en ese caso ambas varables tendrían la msma varanza, pero esto no es certo en general. Todo lo que se puede afrmar, como sabemos, es que 1 r 2 1, yportanto, 0 S 2 Ŷ S2 Y 8

Lacantdadquelefaltaalavaranzadelaregresón,S 2, para llegar hasta la varanza Ŷ total de Y, SY 2, es lo que se denomna varanza resdual, que no es más que la varanza de E = Y Ŷ,ya que SY 2 = 1 (y ȳ) 2 = 1 2 ŷ ŷ + e = n n =1 =1 = 1 ŷ ŷ 2 1 + e 2 + 1 ŷ ŷ e = n n n =1 =1 =1 = S 2 + Ŷ S2 E + 1 ŷ ŷ e = S 2 n + Ŷ S2 E ya que el tercer sumando se anula según las ecuacones normales: Por ello, ŷ ŷ e = =1 = b = b =1 e (a + bx [a + b x]) = =1 e (x x) =b =1 e x =0 =1 S 2 E = S 2 Y S 2 Ŷ Obsérvese que entonces la bondad del ajuste es e x b x =1 e = =1 R 2 = S2 Y S2 E S 2 Y =1 S2 E S 2 Y =1 S2 Y S 2 Ŷ S 2 Y = = 1 S2 Y r 2 S 2 Y S 2 Y loqueresummosenlasguenteproposcón: Proposcón =1 1 r 2 = r 2 Para los ajustes de tpo lneal se tene que el coefcente de determnacón es gual a r 2, y por tanto representa la proporcón de varanza explcada por la regresón lneal: R 2 = r 2. Por ello: S r 1 el ajuste es bueno, es decr, Y se puede calcular de modo bastante aproxmado a partr de y vceversa. 9

Ejemplo S r 0 las varables e Y no están relaconadas (lnealmente al menos), por tanto no tene sentdo hacer un ajuste lneal. Sn embargo no es seguro que las dos varables no posean nnguna relacón en el caso r =0, ya que s ben el ajuste lneal puede no ser procedente, tal vez otro tpo de ajuste de tpo cuadrátco sí lo sea. De una muestra de ocho observacones conjuntas de valores de dos varables e Y, se obtene la sguente nformacón: x =24 x y =64 y =40 Calcular: S 2 Y =12 S 2 =6 1. La recta de regresón de Y sobre. Explcar el sgnfcado de los parámetros. 2. El coefcente de determnacón. Comentar el resultado e ndque el tanto por cento de la varacón de Y que no está explcada por el modelo lneal de regresón. 3. S el modelo es adecuado, cuál es la predccón ŷ para x =4? Solucón: 1. En prmer lugar calculamos las medas y las covaranza entre ambas varables: P x = x = 24 n 8 =3 P ȳ = y = 40 n 8 =5 P S Y = x y x ȳ = 64 n 8 3 5= 7 Con estas cantdades podemos determnar los parámetros a y b de la recta. La pendente de la msma es b, y mde la varacón de Y cuando aumenta en una undad: b = S Y = 7 S 2 6 = 1,167 Al ser esta cantdad negatva, tenemos que la pendente de la recta es negatva, es decr,ameddaque aumenta, la tendenca es a la dsmnucón de Y.Encuantoalvalor de la ordenada en el orgen, a, tenemos a =ȳ b x =5 10 µ 7 3=8,5 6

Así, la recta de regresón de Y como funcón de es Ŷ =8,5 1,167 2. El grado de bondad del ajuste lo obtenemos a partr del coefcente de determnacón: R 2 = r 2 = µ SY S S Y 2 = 7 =0,68 = 68 % 6 12 Es decr, el modelo de regresón lneal explca el 68 % de la varabldad de Y en funcón de la de. Por tanto, queda un 32 % de varabldad no explcada. 3. La predccón que realza el modelo lneal de regresón para x =4es: ŷ =8,5 1,167 x =8,5 1,167 4=3,83 que hay que consderar con certas reservas pues, como hemos vsto en el apartado anteror, hay una razonable cantdad de varabldad que no es explcada por el modelo. Ejemplo En un grupo de 8 pacentes se mden las cantdades antropométrcas peso y edad, obtenéndose los sguentes resultados: Resultado de las medcones edad 12 8 10 11 7 7 10 14 Y peso 58 42 51 54 40 39 49 56 Exste una relacón lneal mportante entre ambas varables? Calcular la recta de regresón de la edad en funcón del peso y la del peso en funcón de la edad. Calcular la bondad del ajuste En qué medda, por térmno medo, varía el peso cada año? En cuánto aumenta la edad por cada klo de peso? Solucón: Para saber s exste una relacón lneal entre ambas varables se calcula el coefcente de correlacón lneal, que vale: r = S Y S S Y = 15,20 2,32 6,96 =0,94 11

ya que x = 79 = x = 79 8 =9,88 y = 389 = ȳ = 389 8 =48,63 x 2 = 823 = S 2 = 823 8 9,882 =5,36 = S =2,32 y 2 = 19,30 = SY 2 = 19,30 48,63 2 =48,48 = S Y =6,96 8 P x y = 3,96 = S Y = x y x ȳ = 3,96 9,88 48,63 = 15,20 n 8 Por tanto el ajuste lneal es muy bueno. Se puede decr que el ángulo entre el vector formado por las desvacones del peso con respecto a su valor medo y el de la edad con respecto a su valor medo, θ, es r =cosθ = θ =arccos(r) 19 grados es decr, entre esos vectores hay un buen grado de paralelsmo (sólo unos 19 grados de desvacón). La recta de regresón del peso en funcón de la edad es es Ŷ = a 1 + b 1 =20,61 + 2,84 a 1 = ȳ b 1 x =20,61 b 1 = S Y =2,84 S 2 La recta de regresón de la edad como funcón del peso ˆ = a 2 + b 2 Y = 5,37 + 0,31 Y a 2 = x b 2 ȳ = 5,37 b 2 = S Y =0,31 SY 2 que, como se puede comprobar, no resulta de despejar en la recta de regresón de Y sobre. La bondad del ajuste es R 2 = r 2 =0,889, portantopodemosdecrqueel88,9%de la varabldad del peso en funcón de la edad es explcada medante la recta de regresón correspondente. Lo msmo podemos decr en cuanto a la varabldad de la edad en funcón 12

del peso. Del msmo modo, puede decrse que hay un 100 88, 94 = 11, 06 % de varanza que no es explcada por las rectas de regresón. Por tanto, la varanza resdual de la regresón del peso en funcón de la edad es SE 2 = 1 r 2 SY 2 =0,11 48,48 = 5,33 yladelaedadenfuncóndelpeso: SE 2 = 1 r 2 S 2 =0,11 5,36 = 0,59 Por últmo, la cantdad en que varía el peso de un pacente cada año es, según la recta de regresón del peso en funcón de la edad, la pendente de esta recta es b 1 =2,84 Kg/año. Cuando dos personas dferen en peso, en promedo la dferenca de edad entre ambassergeporlacantdadb 2 =0, 3136 años/kg de dferenca. 13