CORRELACIÓN LINEAL Y ANÁLISIS DE REGRESIÓN

Documentos relacionados
TEMA 2 MODELO LINEAL SIMPLE (MLS) Gujarati, Econometria (2004)

CINEMÁTICA: MOVIMIENTO RECTILÍNEO, CONCEPTOS BÁSICOS Y GRÁFICAS

PROCESOS ESTOCÁSTICOS PROCESOS ESTOCÁSTICOS INTEGRAL ESTOCÁSTICA ECUACIONES DIFERENCIALES ESTOCASTICAS: LEMA DE ITO

ACTIVIDADES UNIDAD 7: Funciones elementales

MATEMATICAS I FUNCIONES ELEMENTALES. PROBLEMAS

Métodos de Previsión de la Demanda Datos

Aplicaciones de la Probabilidad en la Industria

Test. Cada pregunta correcta está valorada con 0.5 puntos y cada incorrecta resta 0.25 puntos

Examen Parcial de Econometría II. Nombre: RESOLUCION DEL EXAMEN PARCIAL Paralelo:

Y t = Y t Y t-1. Y t plantea problemas a la hora de efectuar comparaciones entre series de valores de distintas variables.

1.- ALGORITMOS RÁPIDOS PARA LA EJECUCIÓN DE FILTROS DE PILA

Funciones exponenciales y logarítmicas

Técnicas cualitativas para las Ecuaciones diferenciales de primer orden: Campos de pendientes y líneas de fase

UNA MODELIZACIÓN PARA LOS ACCIDENTES DE TRABAJO EN ESPAÑA Y ANDALUCÍA

3 Aplicaciones de primer orden

RE01 DIFERENCIA DEL LOGRO PROMEDIO EN COMPRENSIÓN LECTORA Y MATEMÁTICAS PARA 6 DE PRIMARIA Y 3 DE SECUNDARIA ENTRE 2000 Y 2005

MACROECONOMIA II. Grado Economía

Modelo de regresión lineal simple

Las derivadas de los instrumentos de renta fija

Práctica 20. CARGA Y DESCARGA DE UN CONDENSADOR ELÉCTRICO

TEMA: FUNCIONES: Cuadrantes 3 er cuadrante, x 0, 4º cuadrante, x 0,

PROBLEMAS RESUELTOS 1 (continuidad, derivabilidad y diferenciabilidad de funciones de varias variables)

UD: 3. ENERGÍA Y POTENCIA ELÉCTRICA.

DEPARTAMENTO DE QUÍMICA ANALÍTICA Y TECNOLOGÍA DE ALIMENTOS

J.1. Análisis de la rentabilidad del proyecto... 3

TEMA 1 INTRODUCCIÓN A LA ELECTRÓNICA DIGITAL. 1. Sistemas analógicos y digitales.

Mtro. Horacio Catalán Alonso

Guía de Ejercicios Econometría II Ayudantía Nº 3

Ecuaciones diferenciales, conceptos básicos y aplicaciones

Master en Economía Macroeconomía II. 1 Problema de Ahorro-Consumo en Horizonte Finito

Master en Economía Macroeconomía II. 1 Learning by Doing (versión en tiempo discreto)

Capítulo 5 Sistemas lineales de segundo orden

CINEMÁTICA: MOVIMIENTO RECTILÍNEO, OTROS DATOS.

PRÁCTICA 3: Sistemas de Orden Superior:

Capítulo 4 Sistemas lineales de primer orden

TEMA I: FUNCIONES ELEMENTALES

UNA APROXIMACION A LA SOSTENIBILIDAD FISCAL EN REPUBLICA DOMINICANA Juan Temístocles Montás

TEMA 9: LA TASA NATURAL DE DESEMPLEO Y LA CURVA DE PHILLIPS

= Δx 2. Escogiendo un sistema de referencia común para ambos móviles x A

3. Matrices y álgebra matricial

Tema 5: Diferenciabilidad: Aplicaciones

La transformada de Laplace

PRÁCTICA 4 TEMA 6: SERIES TEMPORALES

Solución: El sistema de referencia, la posición del cuerpo en cada instante respecto a dicha referencia, el tiempo empleado y la trayectoria seguida.

Representación gráfica de curvas en forma paramétrica x a(t sent) 1.- Representar la curva dada por

Matemáticas 1 1 EJERCICIOS RESUELTOS: Funciones de varias variables. Elena Álvarez Sáiz. Dpto. Matemática Aplicada y C.

El comportamiento del precio de las acciones

01 Ejercicios de Selectividad Matrices y Sistemas de Ecuaciones

Investigación y Técnicas de Mercado. Previsión de Ventas TÉCNICAS CUANTITATIVAS ELEMENTALES DE PREVISIÓN UNIVARIANTE.

Tema 5 El Transistor MOS

Análisis de Regresión y Correlación con MINITAB

Metodología de cálculo del diferencial base

Dispositivos semiconductores

INSTITUTO NACIONAL DE PESCA

Construcción de señales usando escalones y rampas

FUNCIONES VECTORIALES CON DERIVE.

METODOLOGÍA PARA EL AJUSTE DE LAS TASAS DE ESCOLARIZACIÓN A PARTIR DE LA INFORMACIÓN DEL CENSO NACIONAL DE POBLACIÓN, HOGARES Y VIVIENDA DE 2001

8.1. Introducción Dependencia/independencia estadística Representación gráfica: diagrama de dispersión Regresión...

Cobertura de una cartera de bonos con forwards en tiempo continuo

4.7. Integración de Word y Excel

1 Introducción Tiempo de vida Función de fiabilidad Vida media Tasa de fallo Relación entre conceptos...

RESOLUCIÓN SOBRE COMISIONES DE LAS ADMINISTRADORAS DE FONDOS DE PENSIONES

Nota Técnica Índice de Tipo de Cambio Efectivo Real Multilateral con ponderadores móviles

Foundations of Financial Management Page 1

MEDICIÓ N DEL VALOR ECONÓ MICO AGREGADO: INVERSIÓ N RECUPERADA Y VALOR AGREGADO IRVA

LA VELOCIDAD DE CIRCULACION DE DINERO EN EL ECUADOR

Solución y criterios de corrección. Examen de mayores de 25 años Matemáticas aplicadas a las ciencias sociales.

Covarianza y coeficiente de correlación

Indicadores demográficos METODOLOGÍA

2 El movimiento y su descripción

SERIES TEMPORALES. Cecilia Esparza Catalán

DERECHOS BÁSICOS DE APRENDIZAJE matemáticas - grado 9

{ 3} Nota. La raíz no impone condiciones al dominio por ser de índice impar.

Análisis de inversiones y proyectos de inversión

Tema 3. El modelo neoclásico de crecimiento: el modelo de Solow-Swan

Práctica 2: Análisis en el tiempo de circuitos RL y RC

LÍNEAS DE FASES. Fig. 1. dx (1) dt se llama Ecuación Diferencial Ordinaria (E.D.O.) de Primer Orden definida en Ω.

Control de un péndulo invertido usando métodos de diseño no lineales

Medición del tiempo de alza y de estabilización.

Física 2º Bach. Tema: Ondas 27/11/09

6 METODOLOGÍA PROPUESTA PARA VALORAR USOS IN SITU DEL AGUA

Modelos de Ajuste Nominal Incompleto. Por Agustín Casas, UdeSa. Diego Hofman, Princeton. Analía Olgiati, BID. Javier DiFiori, Morgan Stanley

domótico Extras 2.1 Unidad de control 2.2 Dispositivos de entrada 2.4 Electrodomésticos domóticos 2.5 Medios de comunicación en redes domésticas

Macroeconomía II (2009) Universitat Autònoma de Barcelona Prof. Stefano Trento

Sistemade indicadores compuestos coincidentey adelantado julio,2010

UNIDAD IX. Técnicas de Suavización

PROBLEMAS RESUELTOS DIRECCIÓN DE OPERACIONES. Federico Garriga Garzón

Ciclos Económicos y Riesgo de Crédito: Un modelo umbral de proyección de la morosidad bancaria de Perú

CAPÍTULO 5 VALIDACIÓN DEL MODELO DE REGRESIÓN: CONTRASTES DE ESPEFICIACIÓN INCORRECTA Y CONTRASTES DE ESPECIFICACIÓN

Tema 1: La autofinanciación

UNIDAD 4: MEDIDAS DE TENDENCIA CENTRAL

PATRON = TENDENCIA, CICLO Y ESTACIONALIDAD

Consorcio de Investigación Económica y Social (CIES) Concurso de Investigación CIES - IDRC - Fundación M.J. Bustamante Informe Técnico Final

1. Se tiene la siguiente tabla de transacciones inter industriales en el período t (a) Total C(a) FBK Export (a)

Observatorio * EL AUMENTO DEL IVA EN ESPAÑA: UNA CUANTIFICACIÓN ANTICIPADA DE SUS EFECTOS **

Uso de Análisis Factorial Dinámico para Proyecciones Macroeconómicas

Introducción a la Estadística Empresarial. Capítulo 4.- Series temporales Jesús Sánchez Fernández

REGRESION simple. Correlación Lineal:

La Conducción de la Política Monetaria del Banco de México a través del Régimen de Saldos Diarios

FIABILIDAD (I): CONCEPTOS BÁSICOS

Transcripción:

CORRELACIÓN LINEAL Y ANÁLISIS DE REGRESIÓN Auores: Alicia Vila (avilag@uoc.edu), Máximo Sedano (msedanoh@uoc.edu), Ana López (alopezra@uoc.edu), Ángel A. Juan (ajuanp@uoc.edu), MAPA CONCEPTUAL Definición Ejemplo con la definición Con fórmula Correlación lineal Deección gráfica Definición Regresión lineal (reca de mínimos cuadrados) Represenación gráfica Por la definición Con fórmula Supuesos del modelo de regresión Coeficiene de Deerminación Inferencia en el modelo de regresión Definición Por la definición Con fórmula Cálculo con Miniab Proyeco e-mah

INTRODUCCIÓN El objeivo de ese mah-block es analizar el grado de la relación exisene enre variables uilizando modelos maemáicos y represenaciones gráficas. Así pues, para represenar la relación enre dos o más variables desarrollaremos una ecuación que permiirá esimar una variable en función de la ora. Por ejemplo, en qué medida, un aumeno de los gasos en publicidad hace aumenar las venas de un deerminado produco?, cómo represenamos que la bajada de emperauras implica un aumeno del consumo de la calefacción?,... A coninuación, esudiaremos dicho grado de relación enre dos variables en lo que llamaremos análisis de correlación. Para represenar esa relación uilizaremos una represenación gráfica llamada diagrama de dispersión y, finalmene, esudiaremos un modelo maemáico para esimar el valor de una variable basándonos en el valor de ora, en lo que llamaremos análisis de regresión. OBJETIVOS Aprender a calcular la correlación enre dos variables Saber dibujar un diagrama de dispersión Represenar la reca que define la relación lineal enre dos variables Saber esimar la reca de regresión por el méodo de mínimos cuadrados e inerprear su ajuse. Realizar inferencia sobre los parámeros de la reca de regresión Consruir e inerprear inervalos de confianza e inervalos de predicción para la variable dependiene Realizar una prueba de hipóesis para deerminar si el coeficiene de correlación es disino de cero CONOCIMIENTOS PREVIOS Es recomendable haber leído, previamene, los mah-blocks Esimación punual e inervalos de confianza y Conrase de hipóesis para dos poblaciones, así como los ejercicios asociados resuelos con Miniab. Proyeco e-mah

CONCEPTOS FUNDAMENTALES Definición de Correlación Lineal En ocasiones nos puede ineresar esudiar si exise o no algún ipo de relación enre dos variables aleaorias. Así, por ejemplo, podemos pregunarnos si hay alguna relación enre las noas de la asignaura Esadísica I y las de Maemáicas I. Una primera aproximación al problema consisiría en dibujar en el plano R un puno por cada alumno: la primera coordenada de cada puno sería su noa en esadísica, mienras que la segunda sería su noa en maemáicas. Así, obendríamos una nube de punos la cual podría indicarnos visualmene la exisencia o no de algún ipo de relación (lineal, parabólica, exponencial, ec.) enre ambas noas. Oro ejemplo, consisiría en analizar la facuración de una empresa en un periodo de iempo dado y de cómo influyen los gasos de promoción y publicidad en dicha facuración. Si consideramos un periodo de iempo de 0 años, una posible represenación sería siuar un puno por cada año de forma que la primera coordenada de cada puno sería la canidad en euros inveridos en publicidad, mienras que la segunda sería la canidad en euros obenidos de su facuración. De esa manera, obendríamos una nube de punos que nos indicaría el ipo de relación exisene enre ambas variables. En paricular, nos ineresa cuanificar la inensidad de la relación lineal enre dos variables. El parámero que nos da al cuanificación es el coeficiene de correlación lineal de Pearson r, cuyo valor oscila enre y + : Cov( X, Y ) r = s s X Y = n = n = ( X ( X X ) X ) ( Y * n = Y ) ( Y Y ) + VARIABLES NO CORRELACIONADAS ( r = 0 ) CORRELACIÓN LINEAL NEGATIVA ( r = - ) 9 9 8 8 7 7 6 6 Y 5 Y 5 4 4 3 3 3 4 5 6 7 8 X 3 4 X 5 6 7 8 CORRELACIÓN NO LINEAL ( r = 0 ) CORRELACIÓN LINEAL POSITIVA ( r = + ) 9 9 8 8 7 7 6 6 Y 5 Y 5 4 4 3 3 3 4 X 5 6 7 8 3 4 5 6 7 8 X Proyeco e-mah 3

Como se observa en los diagramas aneriores, el valor de r se aproxima a + cuando la correlación iende a ser lineal direca (mayores valores de X significan mayores valores de Y), y se aproxima a cuando la correlación iende a ser lineal inversa. Es imporane noar que la exisencia de correlación enre variables no implica causalidad. Aención!: si no hay correlación de ningún ipo enre dos v.a., enonces ampoco habrá correlación lineal, por lo que r = 0. Sin embargo, el que ocurra r = 0 sólo nos dice que no hay correlación lineal, pero puede que la haya de oro ipo. El siguiene diagrama resume el análisis del coeficiene de correlación enre dos variables: Correlación negaiva perfeca Correlación Correlación Correlación negaiva negaiva negaiva fuere moderada débil Ninguna correlación Correlación Correlación Correlación posiiva posiiva posiiva débil moderada fuere Correlación posiva perfeca -.00-0.50 0 0.50.00 Definición y caracerísicas del concepo de Regresión Lineal En aquellos casos en que el coeficiene de regresión lineal sea cercano a + o a, iene senido considerar la ecuación de la reca que mejor se ajuse a la nube de punos (reca de mínimos cuadrados). Uno de los principales usos de dicha reca será el de predecir o esimar los valores de Y que obendríamos para disinos valores de X. Esos concepos quedarán represenados en lo que llamamos diagrama de dispersión: Nube de punos y reca de mínimos cuadrados 8 7 6 5 Y 4 3 3 4 5 6 7 8 9 X La ecuación de la reca de mínimos cuadrados (en forma puno-pendiene) es la siguiene: Cov( X, Y ) y y = ( x s x x ) Proyeco e-mah 4

Veamos con dealle esos concepos mediane un ejemplo: Si queremos esudiar la relación exisene enre ambas variables, siguiendo con el ejemplo anerior referene a la relación enre las venas de una empresa V ) y sus gasos en publicidad GP ), lo que podemos hacer es represenar gráficamene el modelo maemáico ( lineal que podemos considerar para analizar dicha relación. ( V β + GP + u = β Supongamos que disponemos de los siguienes daos: Año Venas en millones de euros. Gasos en publicidad en millones de euros. 998 00 30 999 400 50 000 800 50 00.00 60 00 900 60 A parir de ese modelo maemáico lineal, vamos a analizar la relación enre ambas variables, la variable venas ( V ) que es la variable dependiene del modelo y la variable que vamos a analizar y los gasos en publicidad ( GP ) que es la variable independiene o la variable explicaiva que vamos a uilizar para esudiar las venas. En ese modelo queremos comprobar qué influencia ienen los gasos de publicidad sobre el volumen de facuración o las venas de la empresa. Para poder cuanificar dicha relación, debemos ambién represenar la reca de regresión que subyace en el modelo maemáico que relaciona ambas variables. Para cuanificar la relación enre ambas variables y ener un aproximación de la magniud de la influencia de los gasos en publicidad sobre las venas de la empresa debemos esimar el modelo por mínimos cuadrados ordinarios (M.C.O.) donde se minimiza la suma de los cuadrados de los residuos. La reca en rojo (que aparece a coninuación en el gráfico), es la que mejor se ajusa a la nube de punos que enemos. Dicho de ora forma, es la reca que hace que el error de esimación, definido como la disancia enre el valor observado y el valor esimado de la variable endógena (en el gráfico, es la disancia verical señalada por la flecha en rojo), sea la mínima para cada una de las observaciones (reca de mínimos cuadrados), esa reca será la que uilizaremos para predecir o esimar los valores de Y que obendremos para disinos valores de X. Proyeco e-mah 5

La diferencia enre un valor observado y el valor esimado lo denominaremos residuo. Residuo = Y Yˆ Nuesro problema consise en minimizar la suma de los cuadrados de los residuos de los n cuadrados de los residuos, uˆ. De ese problema de opimización se deduce la expresión = de mínimos cuadrados ordinarios del MRLM: Crierio MCO: n u = Min ˆ Como ya hemos ciado aneriormene, la ecuación de la reca de mínimos cuadrados (en forma puno-pendiene) es la siguiene: Y Y n ( X X ) ( Y Y ) Cov( X, Y ) = = ( X X ) = ( X X ) n sx ( X X ) = β 00 ( GP GP)( V V ) 7.000 = 00 600 ( GP GP) = 998 = = = 998 de la reca por mínimos cuadrados. 8,3, ésa sería la esimación de la pendiene Por oro lado, β = V β GP = 700 8,333 50 = 76, 6, y ésa sería la esimación de la ordenada de la reca de regresión ó el puno de core de la reca con los ejes. Por ano, Y = 76, 6 + 8, 3X La represenación gráfica de los daos aneriores es la que sigue: Proyeco e-mah 6

Regression Plo Y = -76,667 + 8,3333X R-Sq = 75,3 % Análisis de regresión y correlación lineal. 00 000 VENTAS 800 600 400 error de esimación (u) 00 0 30 40 50 60 Publicidad Del diagrama anerior, cabe observar que no odos los punos esán en la línea de regresión. Si odos lo esuvieran y, además, si el número de observaciones fuera suficienemene grande, no habría ningún error de esimación. En ese caso, no habría ninguna diferencia enre el valor observado y el valor de predicción. Como imaginamos, en los casos reales, las predicciones perfecas son prácicamene imposibles y lo que necesiamos es una medida que describa cómo de precisa es la predicción de Y en función de X o, inversamene, qué inexaca puede ser la esimación. A esa medida se le llama error esándar de esimación y se denoa S yx. El error esándar de esimación, es el mismo concepo que la desviación esándar, aunque ésa mide la dispersión alrededor de la media y el error esándar mide la dispersión alrededor de la línea de regresión. Inerpreación de los coeficienes esimados Según la reca de mínimos cuadrados, al incremenarse en un millón de euros los gasos en publicidad, la canidad de facuración obenida se incremenará en 8,3 millones de euros. Y cuando no se haga ningún esfuerzo publiciario, las venas según la reca serán negaivas. Eso se puede enender como que no se vende nada o que si no se hace ningún esfuerzo publiciario se obienen unas venas negaivas, en el senido de que hay oros gasos a la hora de vender que provocan que al final haya venas negaivas. La correlación enre ambas variables es muy ala, ya que el coeficiene de correlación r = 0.87 esá muy próximo a. Cov( X, Y ) r = s s X Y = 00 = 998 00 = 998 ( GP ( GP GP) ( V GP) * 00 = 998 V ) ( V V ) = 0,868 Proyeco e-mah 7

Para profundizar más en los concepos visos hasa el momeno o para enender gráficamene como funcionan, a coninuación ciamos algunos enlaces web ineresanes: En el enlace: hp://www.sa.wvu.edu/srs/modules/apples/regression/regression.hml enconraremos un apple en el que modificando los daos de la variable X e Y podemos consruir la reca de regresión. El gráfico resulane será similar al siguiene: Un apple de similares caracerísicas lo enconraremos en: hp://www.kuleuven.ac.be/ucs/java/version.0/apple00.hml Proyeco e-mah 8

Los concepos de regresión lineal y correlación enre variables se aplican a innumerables aspecos de la vida real, ano en el ámbio social, como cienífico,... En el siguiene enlace: hp://www.fiserra.com/maerial/invesiga/regre_lineal_simple/regre_lineal_simple.hm# enconramos un claro ejemplo de cómo uilizar esos concepos para ver la relación enre la Tensión arerial sisólica y la edad, a parir de una muesra de 69 pacienes. Supuesos del modelo de regresión lineal En el caso en que nuesras observaciones sean una muesra aleaoria proveniene de una población, esaremos ineresados en realizar inferencias sobre la misma. A fin de que esas inferencias sean esadísicamene razonables, se han de cumplir las siguienes condiciones:. En la población, la relación enre las variables X e Y debe ser aproximadamene lineal, i.e.: y = β + β x + ε, siendo ε la v.a. que represena los residuos (diferencias enre el valor esimado por el modelo y el verdadero valor de Y ).. Los residuos se disribuyen según una Normal de media 0, i.e., ε N(0, σ ). 3. Los residuos son independienes unos de oros. 4. Los residuos ienen varianza σ consane. Aforunadamene, el modelo de regresión lineal es basane robuso, lo que significa que no es necesario que las condiciones aneriores se cumplan con exaciud (en paricular las res úlimas). Proyeco e-mah 9

Definición del Coeficiene de Deerminación Denominamos coeficiene de deerminación R como el coeficiene que nos indica el porcenaje del ajuse que se ha conseguido con el modelo lineal, es decir el porcenaje de la variación de Y(venas) que se explica a ravés del modelo lineal que se ha esimado, es decir a ravés del comporamieno de X (publicidad). A mayor porcenaje mejor es nuesro modelo para predecir el comporamieno de la variable Y También se puede enender ese coeficiene de deerminación como el porcenaje de varianza explicada por la reca de regresión y su valor siempre esará enre 0 y y siempre es igual al cuadrado del coeficiene de correlación (r). R = r Es una medida de la proximidad o de ajuse de la reca de regresión a la nube de punos. También se le denomina bondad del ajuse. R regresión, es como si fuera la varianza inexplicada que es la varianza de los residuos. nos indica qué porcenaje de las variaciones no se explica a ravés del modelo de En nuesro ejemplo, el coeficiene de deerminación nos da bajo, el 75,3%, por lo que sólo conseguimos explicar el 75,3 % de las variaciones de las venas a ravés del ajuse por medio de los gasos en publicidad. Inferencia en el modelo de regresión Una vez que hemos calculado la reca de regresión y el ajuse que hemos conseguido con el modelo de regresión lineal, el siguiene paso consise en analizar si la regresión en efeco es válida y la podemos uilizar para predecir. Para ello debemos conrasar si la correlación enre ambas variables es disina de cero o si el modelo de regresión es válido en el senido de conrasar si el análisis de nuesra variable endógena (Y). es válido a ravés de la influencia de la variable explicaiva (X). Supongamos por un lado que el coeficiene de correlación lineal r, esá próximo a + o a, y por ano parece indicar la exisencia de una correlación lineal enre los valores de la muesra. Pero ese valor del coeficiene de correlación lineal muesral enre ambas variables no garaniza que ambién esén correlacionadas en la población. Para poder conrasar esa suposición, una vez que hemos esimado la reca de regresión y hemos obenido las esimaciones de los parámeros del modelo; V = β + β GP + u como Vˆ ˆ β + ˆ β GP. = Ahora lo que debemos es comprobar si esa esimación de ese modelo es válida en el senido de si es significaiva de forma que la variable Publicidad (X) es relevane para explicar (Y) que son las venas. Enonces debemos conrasar si la pendiene de la reca de regresión poblacional β es significaivamene disina de cero, de ahí endríamos que, en efeco, exise una correlación lineal enre ambas variables poblacionales. Proyeco e-mah 0

Los dos conrases siguienes son equivalenes porque si el coeficiene de correlación, r, es SY cero ambién lo será la esimación de la pendiene, ˆβ pueso que: ˆβ = r S X H 0 : ρ = 0 H 0 : β = 0 () y ( ) H : ρ 0 H : β 0 donde ρ es el coeficiene de correlación enre ambas variables. El esadísico (-Suden) que se uiliza para realizar el es ( ) es el siguiene: (, ) ˆ β β = n α, donde S ˆ β S ˆ β = Y ˆ β ( n ) X Y ˆ β ( X ) n XY donde (n-,α/) es el valor asociado a una -Suden con n- grados de liberad que deja a su derecha un área de α/ (o, equivalenemene, deje a su izquierda un área de - α/). OJO!: si en vez de realizar el conrase bilaeral ( ) deseamos hacer un conrase unilaeral (en el cual la hipóesis alernaiva sería H : β > 0 ó H : β < 0 ), deberemos susiuir en la fórmula anerior α/ por α (ya que ahora rabajaremos con una única cola de la disribución). Finalmene, ambién podemos obener el inervalo de confianza para α a nivel de confianza (-α) uilizando la expresión: ˆ β ( n, α ) s ˆ β ± * Siguiendo con el ejemplo anerior, el esadísico de conrase nos queda: ˆ β β = S ˆ β ) 8,3 0 = = 3,0 9,38 Si calculamos el p-valor de = 3,0 con res grados de liberad, vamos a la abla -suden y debemos calcular el área que hay por encima de = 3,0 y el área por debajo de = -3,0, si miramos en la abla, el valor de más cercano es = 3,84 que le corresponde un área de 0,05, por lo que a >=3,0 le corresponderá un área menor, por lo que el p-valor será algo menor del 0,05=*0,05. Por lo que, si el nivel de significación es del 5%, como el p-valor es menor que 0,05, rechazaremos la hipóesis nula a un nivel de significación del 5%,. Eso indica que exisen evidencias esadísicas de que la variable gasos en publicidad es una variable relevane o que influye sobre las venas. Es ineresane noar que odo lo que hemos realizado sobre el coeficiene β es ambién aplicable al coeficiene β. Proyeco e-mah

CASOS PRÁCTICOS CON SOFTWARE. En la siguiene abla, se muesran los daos regisrados de las venas en millones de euros y de los gasos incurridos en publicidad, ambién en millones de euros, por una empresa indusrial que fabrica sillas abaibles para oficina: Gos de publicidad (millones euros) (X) Volumen de venas (millones euros) (Y) 4,6 95,065 3,9336 97,8 5,5040 03,59 6,305 07,607 7,4936 3,860 9,8906,53,4803 9,0 0,4046 3,340,4776 38,663,68 4,856 0,97 43,0 3,3538 47,98 6,040 55,955 9,0 64,946 7,48 63,9 3,0096 63,46 7,66 7,485 3, 80,59 36,788 90,509 37,567 96,497 33,5069 96,04 36,6088 00,83 3,554 96,769 3,775 05,34 4,886 0,30 39,975 8,703 39,6866 36,500 40,99 44,560 40,9538 54,77 4,933 63,683 39,8393 68,304 a) Calcular el coeficiene de correlación lineal enre las variables venas y gasos de publicidad. Seleccionamos Sa > Basic Saisics > Correlaion : Proyeco e-mah

Correlaions (Pearson) Correlaion of Publicidad y venas = 0.973, P-Value = 0.000 El valor obenido para el coeficiene de correlación es de 0,973, lo cual hace suponer que, en principio, la correlación enre ambas variables es muy ala por lo que se puede prever que en la regresión obendremos un buen ajuse. b) Represenar la nube de punos (gráfico x-y) venas vs. publicidad, juno con la reca de regresión asociada. Piensas que el modelo obenido sirve para explicar las venas obenidas por esa empresa en los úlimos reina años en función de lo que se ha gasado en publicidad? Seleccionamos Sa > Regression > Fied Line Plo : Proyeco e-mah 3

Regression Plo Y =,667 + 5,3358X R-Sq = 93,7 % Análisis de regresión y correlación lineal. 50 Venas 00 50 00 0 30 40 Publicidad Regression The regression equaion is y =, + 5,34 x Predicor Coef SDev T P Consan,67 7,687,75 0,00 x 5,3358 0,568 0,78 0,000 S =,94 R-Sq = 93,7% R-Sq(adj) = 93,5% Como se aprecia en el gráfico, el modelo lineal simple ajusa con mínimos errores la evolución de las venas en función de los gasos en publicidad. De hecho, si nos fijamos en el valor del coeficiene de deerminación R-sq, veremos que ese modelo explica casi el 94% del comporamieno de las venas a ravés de la evolución, por lo que es un buen ajuse y por ano, los residuos son mínimos. c) Presena la muesra suficiene evidencia, a un nivel de significación de 0,05, como para rechazar la hipóesis nula sobre la pendiene (H 0 : pendiene de la reca es cero)? En el oupu anerior podemos ver que el p-valor asociado al conrase de hipóesis anerior es casi cero. Como ese valor es menor que α = 0,05, debemos rechazar la hipóesis nula, i.e., concluiremos que la pendiene de la reca es disina de cero o, lo que es lo mismo, que el coeficiene de correlación poblacional es no nulo (es decir, que ambas variables esán correlacionadas y que, por ano, el modelo iene senido). Proyeco e-mah 4

. La información esadísica obenida de una muesra de amaño sobre la relación exisene enre la inversión hecha y el rendimieno obenido en miles de euros para exploaciones agropecuarias se muesra la abla siguiene: Inv 4 6 5 6 8 0 3 4 0 9 Rend. 3 5 6 5 3 7 0 6 0 5 6 a) Calcula el coeficiene de correlación lineal, así como la reca de regresión. Calcula además, la previsión de inversión que se obendrá con un rendimieno de 8000 Seleccionamos Sa > Basic Saisics > Correlaion y obenemos: Correlaions (Pearson) Correlaion of Rend. and Inv. = 0.68, P-Value = 0.03 Como el coeficiene de correlación lineal es 0.68 no podemos deducir que exisa una relación fuere ni débil, endríamos que realizar un conrase de hipóesis para saberlo con claridad. Calculemos ahora la reca de regresión. Para ello, seleccionaremos Sa > Regression > Fied Line Plo: Proyeco e-mah 5

A parir de ese gráfico, observamos que no exise ninguna correlación enre las dos variables. Para conocer más dealles, seleccionamos Sa > Regression > Regression: Regression Analysis The regression equaion is Inv. = -.68 + 0.45 Rend. Predicor Coef SDev T P Consan -.68 3.05-0.56 0.589 Rend. 0.45 0.89.49 0.03 S =.060 R-Sq = 38.% R-Sq(adj) = 3.0% Analysis of Variance Source DF SS MS F P Regression 6.30 6.30 6.8 0.03 Residual Error 0 4.437 4.44 Toal 68.667 Así pues, la reca de regresión será: Inv=-.68 + 0.45*Rend Por ano, para obener un rendimieno de 8000, endríamos que hacer una inversión de... Inv = -.68 + 0.45*8000 = 364.3 b) Presena la muesra suficiene evidencia, a un nivel de significación de 0,05, como para rechazar la hipóesis nula sobre la pendiene (H 0 : pendiene de la reca es cero)? En el oupu anerior podemos ver que el p-valor asociado al conrase de hipóesis anerior es 0,03. Como ese valor es menor que α = 0,05, debemos rechazar la hipóesis nula, i.e., concluiremos que la pendiene de la reca es disina de cero o, lo que es lo mismo, que el coeficiene de correlación poblacional es no nulo (es decir, que ambas variables esán correlacionadas y que, por ano, el modelo iene senido). Proyeco e-mah 6

3. La enidad bancaria Ciy Banking esá esudiando el número de veces por día que se usa el cajero auomáico localizado en un barrio de una deermina ciudad española del sur. Los siguienes daos son las veces por día que fue usado el cajero en los úlimos 30 días: 83 64 84 76 84 54 75 59 70 6 63 80 84 73 68 5 65 90 5 77 95 36 78 6 59 84 95 47 87 60 a) Realiza un doplo de los valores aneriores y comena los resulados. Para dibujar el doplo, seleccionamos Graph > Doplo: Del gráfico anerior podríamos concluir que el valor que más se repie es 84 y, además, podemos apreciar que los daos no parecen seguir una disribución normal. Proyeco e-mah 7

b) Dibujar un diagrama de cajas (boxplo) asociado a los daos aneriores, así como ambién los esadísicos descripivos correspondienes. Para realizar el diagrama de cajas, seleccionamos Graph > Boxplo, y en el eje de las Y, inseramos cada una de las columnas: Del anerior gráfico se desprende que el valor máximo es 95 y el mínimo 36. Así mismo, el valor de la mediana esará aproximadamene enre 70 y 75. Los cuariles primero y ercero serán 60 y 85 aproximadamene. Verifiquemos esos resulados aneriores calculando los esadísicos descripivos. Seleccionamos Sa > Basic Saisics > Display Basic Saisics: Descripive Saisics Variable N Mean Median TrMean SDev SE Mean C 30 70.53 7.50 70.88 4.8.7 Variable Minimum Maximum Q Q3 C 36.00 95.00 59.75 84.00 Por ano, como vemos en ese resulado, los valores correspondienes a la media, mediana, máximo, mínimo y cuariles coinciden con los comenados a parir del diagrama de cajas. b) Además, se quiere ambién esudiar cuál es la relación enre la canidad gasada semanalmene en comida (en euros) y el número de miembros de una familia. Para ello, cogemos una muesra de 0 familias del barrio obeniendo los siguienes resulados: Miembros familia Canidad gasada 3 6 5 6 3 4 4 5 3 6 99 04 5 9 4 74 9 9 9 4 Deermina el coeficiene de correlación enre las dos variables. Calcula y represena ambién la reca de regresión. Qué canidad gasada en comida cabría esperar si el número de miembros de una familia aumena a 8? Proyeco e-mah 8

Para calcular el coeficiene de correlación, seleccionamos Sa > Basic Saisics > Correlaion: Correlaions (Pearson) Correlaion of miembros f and canidad g = 0.589, P-Value = 0.073 Como vemos, el coeficiene de correlación es de 0.589, lo cual indica que exise ciera correlación enre el número de miembros de una familia y la canidad gasada semanalmene. Para represenar la reca de regresión, uilizamos la opción Sa > Regresión > Fied Line Plo : Proyeco e-mah 9

A parir de ese gráfico observamos que sorprendenemene, parece no exisir apenas correlación enre el número de miembros de una familia y la canidad gasada en alimenos semanalmene. The regression equaion is y = 60.4 +.3 x Predicor Coef SDev T P Consan 60.36 5.47.37 0.045 x.76 5.467.06 0.073 S = 0.8 R-Sq = 34.7% R-Sq(adj) = 6.6% Analysis of Variance Source DF SS MS F P Regression 843.6 843.6 4.5 0.073 Residual Error 8 3467.3 433.4 Toal 9 530.9 Por ano, la reca de regresión es: canidad_g = 60.4 +.3(miembros_f) Así pues, la canidad que esperamos gasar en una familia de 8 miembros será: Canidad_g = 60.4 +.3 * 8 = 50.8 Proyeco e-mah 0

BIBLIOGRAFÍA [] D.A. Lind, R.D. Mason, W.G. Marchal (00): Esadísica para Adminisración y Economía. Ed. Irwin McGraw-Hill.F. [] Kvanli, A. Inroducion o Business Saisics Souh-Wesern [3] R. Johnson (996): Elemenary Saisics. Ed. Duxbury [4] Richard I. Levin & David S. Rubin (996): Esadísica para Adminisradores. Ed. Prenice Hall. [5] E. Farber (995): A Guide o Miniab. Ed. McGraw-Hill. ENLACES hp://www.unalmed.edu.co/~esadis/regression/regresion.hm : Caracerísicas y apple de Regresión lineal. hp://kichen.sa.v.edu/~sundar/java/apples/ : Apples de Java de Esadísica hp://huizen.dds.nl/~berrie/ : Colección de enlaces a apples de Java de Esadísica hp://e-sadisica.bio.ucm.es/mod_regresion/regresion_apple.hml : Caracerísicas y apples de regresión lineal simple hp://www.sa.wvu.edu/srs/modules/apples/regression/regression.hml : Apple de Java para calcular la reca de regresión hp://www.egr.uh.edu/%7eemw30693/apple.hm : Apple de Java para calcular la reca de regresión hp://www.ruf.rice.edu/%7elane/sa_sim/reg_by_eye/index.hml : Ejemplo de reca de regresión y correlación lineal hp://www.kuleuven.ac.be/ucs/java/version.0/apple00.hml : Apple para calcular la reca de regresión hp://www.kuleuven.ac.be/ucs/java/index.hm : Colección de apples para mosrar concepos de esadísica. hp://ima.udg.es/docencia/0-03/3050005/dossier_rev.pdf : Ejercicios resuelos con Miniab de la Universia de Girona. Proyeco e-mah