Se ha visto anteriormente que la correlación entre dos variables puede ser alta a pesar de que la relación entre las dos sea fuertemente no lineal.



Documentos relacionados
Covarianza y coeficiente de correlación

Semana de dieta (X) Peso en Kg (Y)

UNIDAD 1. LOS NÚMEROS ENTEROS.

Divisibilidad y números primos

CORRELACIÓN Y PREDICIÓN

MATEMÁTICAS para estudiantes de primer curso de facultades y escuelas técnicas

FISICA I Escuela Politécnica de Ingeniería de Minas y Energía AJUSTE POR MÍNIMOS CUADRADOS

PARA QUÉ NÚMEROS REALES... 2 SUCESIONES... 3 NÚMEROS COMPLEJOS... 5 CÓNICAS... 6 FUNCIÓN INVERSA... 7 FUNCIONES CUADRÁTICAS... 8

8.1. Introducción Dependencia/independencia estadística Representación gráfica: diagrama de dispersión Regresión...

QUÉ ES LA RENTABILIDAD Y CÓMO MEDIRLA. La rentabilidad mide la eficiencia con la cual una empresa utiliza sus recursos financieros.

GEOMETRÍA ANALÍTICA 2º Curso de Bachillerato 22 de mayo de 2008

Funciones lineales. Objetivos. Antes de empezar. 1.Función de proporcionalidad directa pág. 170 Definición Representación gráfica

Profr. Efraín Soto Apolinar. La función lineal. y = a 0 + a 1 x. y = m x + b

PROGRAMACIÓN LINEAL Introducción Inecuaciones lineales con 2 variables

PROBLEMAS RESUELTOS SELECTIVIDAD ANDALUCÍA 2012 MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES TEMA 5: PROBABILIDAD

Aula Banca Privada. La importancia de la diversificación

REPASO CONCEPTOS BÁSICOS DE ESTADÍSTICA. DISTRIBUCIÓN NORMAL.

Problemas + PÁGINA 37

Sistemas de ecuaciones lineales

3º Grado Educación Infantil Bilingüe Números. Método Singapur y F. Bravo E R

15 ESTADÍSTICA BIDIMENSIONAL

SOLUCIONES A LOS EJERCICIOS DE LA UNIDAD

Ecuaciones de primer grado con dos incógnitas

Análisis de medidas conjuntas (conjoint analysis)

TEMA 5 ESTUDIOS CORRELACIONALES.

REGRESION simple. Correlación Lineal:

-Género: no nos ha quedado claro cómo influye este parámetro en el gasto en ocio, si positiva o negativamente.

ECUACION DE DEMANDA. El siguiente ejemplo ilustra como se puede estimar la ecuación de demanda cuando se supone que es lineal.

Problemas de Física 1 o Bachillerato

Colegio Las Tablas Tarea de verano Matemáticas 3º ESO

x y 8000 x + y a) La región factible asociada a las restricciones anteriores es la siguiente: Pedro Castro Ortega lasmatematicas.

ANALISIS MULTIVARIANTE

TEMA 5 Variables ficticias

VENTAJAS Y DESVENTAJAS DE LAS TECNOLOGIAS

1. Ecuaciones no lineales

BREVE MANUAL DE SOLVER

En la siguiente gráfica se muestra una función lineal y lo que representa m y b.

3ª Parte: Funciones y sus gráficas

Aproximación local. Plano tangente. Derivadas parciales.

4º ESO 1. ECUAC. 2º GRADO Y UNA INCÓGNITA

UNIDAD 6. POLINOMIOS CON COEFICIENTES ENTEROS

a) x 1 = 2 b) x + x 6 = 2 + = + = c) x 9x + 20 = 2 d) x 6x 7 = a) x = 1 y x = 1 b) x = 3 y x = 2 c) x = 4 y x = 5 d) x = 1 y x = 7

Muestreo estadístico. Relación 2 Curso

Lección 1-Introducción a los Polinomios y Suma y Resta de Polinomios. Dra. Noemí L. Ruiz Limardo 2009

Base de datos en Excel

LABORATORIO Nº 2 GUÍA PARA REALIZAR FORMULAS EN EXCEL

2. Aritmética modular Ejercicios resueltos

Pronósticos. Pronósticos y gráficos Diapositiva 1

E 1 E 2 E 2 E 3 E 4 E 5 2E 4

Práctica 3. Explorando datos con Statistix

Otras medidas descriptivas usuales

TEMA 4: Variables binarias

TEMA 9 DISTRIBUCIONES BIDIMENSIONALES

Tarea 7 Soluciones. Sol. Sea x el porcentaje que no conocemos, entonces tenemos la siguiente. (3500)x = 420. x = = 3 25

Modelos estadísticos aplicados en administración de negocios que generan ventajas competitivas

Datos del autor. Nombres y apellido: Germán Andrés Paz. Lugar de nacimiento: Rosario (Código Postal 2000), Santa Fe, Argentina

CUESTIONARIO CMC.2 (ESO y Bachillerato).

OPERACIONES ELEMENTALES CON VECTORES

1. Dominio, simetría, puntos de corte y periodicidad

UNIDAD 4: MEDIDAS DE TENDENCIA CENTRAL

Teoría de muestras. En cada una de las siguientes situaciones, explica la necesidad, o coveniencia, de recurrir a una muestra:

EJERCICIOS DE SISTEMAS DE ECUACIONES

DOMINIO Y RANGO página 89. Cuando se grafica una función existen las siguientes posibilidades:

Análisis de propuestas de evaluación en las aulas de América Latina

UNIDAD 4: PLANO CARTESIANO, RELACIONES Y FUNCIONES. OBJETIVO DE APRENDIZAJE: Representar gráficamente relaciones y funciones en el plano cartesiano.

1. MEDIDAS DE TENDENCIA CENTRAL

UCLM - Pruebas de Acceso a Enseñanzas Universitarias Oficiales de Grado (PAEG)

Aplicaciones lineales

6. VECTORES Y COORDENADAS

Health Coaches. Recursos para. Como crear un programa de coaching

Representamos la división de fracciones

ANÁLISIS ENCUESTAS DE SATISFACCIÓN DEL CLIENTE EN EL SERVICIO DE SAIC 2011

Introducción a la Estadística y a la Probabilidad Tercer examen. Capítulo 5 y 6. Viernes 5 de febrero del 2010.

Pruebas de Acceso a las Universidades de Castilla y León

Cada uno de los sonidos que las forman reciben el nombre de GRADOS y se numeran del I al VIII con números romanos. Ejemplo:

DIOS ES NUESTRO PADRE BUENO (A.3.1.1)

El conocimiento de otras culturas

Matrices Invertibles y Elementos de Álgebra Matricial

DESCUBRA LOS SECRETOS DEL ORO. Todo lo que necesita saber para tener éxito operando con oro en los mercados financieros

Selectividad Septiembre 2009 SEPTIEMBRE Opción A

Soluciones de los ejercicios de Selectividad sobre Probabilidad de Matemáticas Aplicadas a las Ciencias Sociales II

Matemáticas I: Hoja 3 Espacios vectoriales y subespacios vectoriales

UNIVERSIDADES DE ANDALUCÍA PRUEBA DE ACCESO A LA UNIVERSIDAD OPCIÓN A

DINÁMICAS DE TRABAJO Sesiones de presentación de la Campaña Sumérgete en el mágico mundo de los cuentos

Funciones de varias variables

La área en A o B es igual a la suma de las dos áreas. Entonces, interpretando probabilidad como área, concluimos que P (A o B) =P (A)+P (B).

Selectividad Junio 2008 JUNIO 2008 PRUEBA A

Soluciones de los ejercicios de Selectividad sobre Probabilidad de Matemáticas Aplicadas a las Ciencias Sociales II

DIEZ HOMBRES SON SANADOS (A )

Análisis de Regresión Múltiple con Información Cualitativa: Variables Binarias o Ficticias

Medias Móviles: Señales para invertir en la Bolsa

Funciones polinomiales de grados 3 y 4

INTRODUCCIÓN: Una Visión Global del Proceso de Creación de Empresas

Bienvenido a la prelicencia!

6Soluciones a los ejercicios y problemas PÁGINA 133

Las 5 S herramientas básicas de mejora de la calidad de vida

PARTE 3 ECUACIONES DE EQUIVALENCIA FINANCIERA T E M A S

RIESGO Y RENTABILIDAD DE LA EMPRESA (Riesgo y Rendimiento) Qué es lo que determina el rendimiento requerido de una inversión?

CPE (SEGUNDO CURSO) = P [T 1 ]P [T 2 ]... P [T 525,600 ] = ( ) 525,600 =

Transcripción:

Análisis de los residuos Se ha visto anteriormente que la correlación entre dos variables puede ser alta a pesar de que la relación entre las dos sea fuertemente no lineal. Se pueden utilizar los residuos para ver si el modelo de regresión lineal es adecuado. Casi siempre es útil hacer gráficos de los residuos (frente x, y oŷ) para ver si los supuestos del modelo lineal de regresión son justificados o no. Ejemplo 83 La recta de regresión para los cinco siguientes conjuntos de datos es la misma: y =18,43 + 0,28 x Bassett, E. et al (1986). Statistics: Problems and Solutions. London: Edward Arnold 169

24 23 23 22 22 21 y 21 y 20 20 19 19 18 18 4 6 8 10 12 14 17 4 6 8 10 12 14 x x 27 24 25 23 22 y 23 y 21 21 20 19 4 6 8 10 12 14 19 4 6 8 10 12 14 x x 24 23 22 y 21 20 19 18 8 10 12 14 16 18 20 x 170

El primer caso parece una regresión normal. En el segundo caso, hay una relación no lineal. En el tercer gráfico, se ve la influencia de un dato atípico. En el cuarto gráfico parece que la recta está más cerca a los datos cuando x es más pequeño. En el último caso, se ve el efecto de un punto influyente. Ahora hacemos gráficos de los residuos frente a las predicciones. 171

Gráfico de predicciones frente a residuos Gráfico de predicciones frente a residuos 2 2 residuos 1 0 residuos 1 0-1 -1-2 19 20 21 22 23-2 19 20 21 22 23 yhat yhat Gráfico de predicciones frente a residuos Gráfico de predicciones frente a residuos 4,7 2,5 residuos 2,7 0,7 residuos 1,5 0,5-0,5-1,3-1,5-3,3 19 20 21 22 23-2,5 19 20 21 22 23 yhat yhat Gráfico de predicciones frente a residuos 2 residuos 1 0-1 -2 20 21 22 23 24 yhat 172

En el primer caso, los residuos parecen aleatorios. Es una buena indicación que el modelo de regresión se ajusta bien. En el segundo caso, se ve una relación entre ŷ y los residuos. El modelo lineal no se ajusta bien. Cuando haya un dato atípico, se ve un residuo muy alto. Los residuos son más pequeños cuando ŷ es pequeño. Se ve el efecto del dato influyente. 173

Dos rectas de regresión Hasta ahora, hemos pensado en un modelo y = α + βx + ɛ y dada la muestra, hemos usado mínimos cuadrados para ajustar la rectas con b = s xy s 2 x y = a + bx y a =ȳ b x. Podríamos escribir el modelo de otra manera: x = γ + δy + ν donde δ = 1 β, γ = α β y ν = ɛ β. No obstante, si usamos mínimos cuadrados para ajustar la recta x = c + dy a los datos muestrales tendrémos d = s xy s 2 y c = x dȳ. y Observamos que d 1 b. Las rectas no son iguales! 174

Ejemplo 84 Volvemos al Ejemplo 72 sobre extensión (y) relativa a la fuerza (x) aplicada al muelle. Antes hemos visto que ajustando la recta y = a + bx por mínimos cuadrados, se tiene y =2,9 + 117x. Ahora supongamos que queremos predecir la fuerza x que causaría una extensión de y. Ajustando la recta por mínimos cuadrados, tenemos x =,0139 +,0075y. El ajuste de ambas rectas aparece en el siguiente gráfico. 175

70 60 50 y 40 30 20 y=a+bx x=c+dy datos 10 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 x Para hacer regresión es importante saber cuales son las variables dependientes y independientes. 176

Correlación espuria Si el coeficiente de correlación entre dos variables es alta, indica que están relacionadas entre si. No obstante, no permite concluir una relación causal. Ejemplo 85 Se ha descubierto que por más coches de bomberos que van al fuego, más es el daño causado. Pero el trabajo de los bomberos es extinguir los fuegos y reducir el daño y entonces el resultado es sorprendente.?cómo podemos explicar el resultado? Si el fuego es más intenso, entonces van más coches de bomberos y también el fuego causa más daño. La alta correlación entre número de coches y daño es espuria, o sea debida al efecto de otra variable (intensidad del fuego) que influye a ambas. 177

Ejemplo 86 De Los Simpsons c. Homer: No veo ningún oso. La patrulla de búsqueda de osos debe estar funcionando de maravilla. Lisa: Papa eres idiota. Homer: Gracias Lisa Lisa: Siguiendo tu lógica, esta roca impede la presencia de tigres. Homer:?Cómo funciona? Lisa: No funciona. Homer: Uh-huh. Lisa: Sólo es una estupida roca pero no veo ningún tigre.?y tu? Homer: Lisa, quiero comprar tu roca. 178

La paradoja de Simpson El siguiente ejemplo ilustra la paradoja. Ejemplo 87 La enfermedad de Grot es muy peligroso y puede llegar a ser fatal. De momento, no existe ningún tratamiento reconocido pero a muchas personas, les gusta usar la panacea de Blogg, un remedio natural. Se hace un estudio de un grupo de sufridores de la enfermedad con los siguientes resultados. Nada Blogg Sobrevive 108 153 Muere 123 120 Parece que el tratamiento funciona, ya que 153 153+120 =56%de los pacientes tomando la panacea han sobrevivido mientras sólo 47 % de las pacientes sin tratamiento se han recuperado. 108 108+123 = Ejemplo tomado de: http://www.cawtech.freeserve.co.uk/simpsons.2.html 179

Entonces, parece ser buena idea recetar la panacea a los pacientes. No obstante, cuando se informa el colectivo de mujeres Grot sobre la decisión a recetar la panacea, ellas no están nada contentas porque ellas han visto los resultados sólo para las mujeres en la muestra. 32 Nada Blogg Sobrevive 57 32 Muere 100 57 Sólo un 32+57 =36,0% de las mujeres tomando Blogg han sobrevivido mientras un 36,3% de las que no toman Blogg han sobrevivido. Parece perjudicar (un poquito) a las mujeres tomar Blogg.?El Blogg debe ser un tratamiento machista que favorece la salud de los hombres? 180

Sacamos la tabla con respeto a los hombres. 121 121+63 Nada Blogg Sobrevive 51 121 Muere 23 63 Un =65,7% de los hombres bajo tratamiento han sobrevivido mientras un 51 51+23 = 68,9% de los hombres sin tratamiento han sobrevivido. Parece que el tratamiento perjudica a los hombres también. El resultado es paradojico. El tratamiento parece favorecer la población entera de pacientes pero no favorece ni a las mujeres ni a los hombres. La paradoja de Simpson demuestra que si mezclamos datos de dos subpoblaciones bastante distíntos, podemos llegar a conclusiones opuestas a las obtenidas tratando los grupos por separados. 181

Pregunta de examen sobre el tema 3 Ejemplo 88 (Examen de junio 2004) Una heladería quiere hacer un estudio sobre la cantidad de helados que vende. Para ello se han tomado al azar 10 semanas del año y se ha observado la temperatura media correspondiente a cada una de ellas, así comolacantidad de helados vendidos en cada uno de estos periodos, obteniendo los siguientes resultados: temp o C 10 28 12 31 30 19 24 5 9 15 # helados vendidos 21 65 19 72 75 39 67 11 12 24 a) Hallar la ecuación de regresión. Interpretar sus coeficientes, es decir la pendiente y la ordenada en el origen. (1 punto) 182

b) Supongamos que perdemos los datos de la variable dependiente y que tenemos todos los residuos menos el correspondiente a la primera semana. Cuál sera su valor? Hallar la desviación típica residual. residuos r 1 1,91 4,34 3,08 2,64 3,40 10,98 6,71 3,17 7,51 (1 punto) Cuál será la cantidad de helados vendidos en una semana cuya temperatura sea de 23 grados? (0,5 puntos) 183