Escaños Estadística Aplicada a las Ciencias Políticas 3.2: Medidas numéricas 80 60 40 20 0 0 2E+06 4E+06 6E+06 8E+06 1E+07 Población Hemos visto que había una relación aproximadamente lineal entre población y escaños. Buscamos una medida de la fuerza de la relación
La covarianza La covarianza mide la fuerza de la relación lineal entre dos variables La covarianza muestral puede calcularse mediante: Una alta covarianza no implica efecto causal
Una fórmula alternativa para la covarianza Si tenemos que calcular la covarianza a mano, esta fórmula es más fácil.
Interpretación de la covarianza La covarianza entre dos variables: Cov(x,y) > 0: Cov(x,y) < 0: Cov(x,y) = 0: X e Y tienden a moverse en la misma dirección X e Y tienden a moverse en direcciones opuestas. X e Y no están relacionadas linealmente.
Inconveniente de la covarianza En nuestro ejemplo, la covarianza es aproximadamente 36043027,5. Indica una relación fuerte o no? Cuáles son las unidades de la covarianza? Cómo podemos corregir el problema?
La correlación -1<= r <= 1 r = 1: hay una relación positiva perfecta r = -1: hay una relación lineal negativa perfecta r = 0: no existe relación lineal, datos incorreladas En el ejemplo, r=0,967: una relación fuerte y positiva
Y Y Y X X r = -1 r = -.6 r = 0 Y Y X r = +1 X r = +.3 X r = 0 X
Cálculo de la covarianza y correlación mediante la tabla de frecuencias conjuntas Los siguientes datos son resultados de una encuesta de alumnos de políticas sobre la asignatura de estadística. Satisfacción con el profesor Cantidad de trabajo hecho 1 2 3 4 5 Total 1 2 2 0 1 2 7 2 5 3 1 2 3 14 3 2 2 8 1 3 16 4 1 2 4 6 2 15 5 0 1 4 7 8 20 Total 10 10 17 17 18 72
Correlación y relaciones no lineales En ambos gráficos se ha usado la relación y=x 2. Una fuerte relación no lineal!
Correlación y causalidad I
Correlación y causalidad II Homero: No hay siquiera un oso a la vista. La "patrulla anti-osos" funciona de maravilla! Lisa: Eso es un razonamiento falaz, Papá. Homero [sin comprender]: Gracias, hija. Lisa: Usando tu lógica, yo puedo afirmar que esta roca aleja a los tigres. Homero: Hmmm, y cómo funciona? Lisa: No funciona. (pausa) Es sólo una roca estúpida! Homero: Ajá. Lisa: Pero no veo ningún tigre alrededor, y tú? Homero: (... pausa... ) Lisa, quiero comprar tu roca.
La recta de regresión (x 1, y 1 ), (x 2, y 2 ),...,(x N, y N ) : N pares de puntos observados Hemos de encontrar una recta: y = α + β x que se ajuste lo mejor posible a nuestros puntos:
Queremos predecir la variable y en función de la variable x. Si usamos una recta y = + x, entonces los residuos o errores de predicción son r i = y i - - x i para i = 1,,N. Intentamos minimizar el error. Cómo ajustar la recta? Usamos el criterio de mínimos cuadrados: elegimos la recta que minimiza r i 2 La recta de mínimos cuadrados es y = a + bx donde b es la pendiente de la recta y a es el intercepto:
Demostración
Escaños Estadística Aplicada a las Ciencias Políticas Escaños y población: La recta de regresión ajustada 80 60 40 20 0 0 2000000 4000000 6000000 8000000 10000000 Población
Output de Excel Coeficientes Intercepción 2,692069443 Variable X 1 6,68437E-06 La recta ajustada es y = 2,69+0,0000069x Estadísticas de la regresión Coeficiente de correlación múltiple 0,96372808 Coeficiente de determinación R^2 0,928771813 R^2 ajustado 0,92458192 Error típico 4,544275594 Observaciones 19 Cómo predecimos el número de escaños en una comunidad de 1000000 de personas? Y en una comunidad sin gente? Tiene sentido la predicción?
Análisis de los residuos I: la media y varianza residual Se puede demostrar que la media de los residuos es 0.
y se puede calcular la varianza residual Cómo interpretamos esta expresión?
Y Estadística Aplicada a las Ciencias Políticas Curva de regresión ajustada 70 60 50 40 30 Y Pronóstico para Y 20 10 0 0 2E+06 4E+06 6E+06 8E+06 1E+07 X y
Residuos Estadística Aplicada a las Ciencias Políticas Análisis de los residuos II: gráficos Si la recta de regresión se ajusta bien, los residuos deben aparecer como ruido aleatorio sin relación ninguna con x o y. Gráfico de los residuos frente a x 15 10 Parece bien el ajuste? 5 0-5 -10 0 2000000 4000000 6000000 8000000 10000000 X
Salario anual (en miles) Estadística Aplicada a las Ciencias Políticas Ejercicio (Test 2: 2008-2009) Se ha realizado una encuesta a 474 empleados de una compañía multinacional. Entre los datos recogidos consta el salario anual (en miles) y los años de educación. Al realizar el diagrama de dispersión asumiendo que el salario depende de los años de educación se observa la siguiente nube de puntos: Señala cual de las siguientes opciones es la correcta: a) La covarianza debe ser positiva y la correlación negativa. b) La covarianza debe ser positiva y la correlación positiva. c) La covarianza debe ser negativa y la correlación negativa. d) La covarianza debe ser negativa y la correlación positiva. 160.000 140.000 120.000 100.000 80.000 60.000 40.000 20.000 0.000 Diagrama de dispersión 0 5 10 15 20 25 Años de educación
Ejercicio (Test 2: 2008-2009) Se ha realizado una encuesta a 474 empleados de una compañía multinacional. Entre los datos recogidos consta el salario anual (en miles) y los años de educación. Suponiendo Y=Salario, X=Años de educación Varianza X = 8,305 Varianza Y = 290,963 Covarianza = 32,471 Señala cual es el valor correcto de la correlación: a) -0,53 b) 0,066 c) -0,662 d) 0,662
Ejercicio (Test 2: 2008-2009) En una oficina se desea conocer el grado de satisfacción de los empleados. Para ello se realiza un cuestionario de satisfacción a 10 de ellos y se les pide que valoren, en una escala continúa de 0 a 10, el ambiente en su puesto de trabajo. El valor 0 identifica un pésimo ambiente de trabajo y el 10 identifica un inmejorable ambiente de trabajo. Además se recoge la edad de los empleados. Asumiendo que la valoración depende de la edad se ha estimado la recta de regresión obteniéndose: Ahora se desearía conocer cual es la valoración media para un nuevo trabajador cuya edad es 43 años. Di cual de las siguientes opciones es la correcta: a) 2.19 puntos b) 2.39 puntos c) 4.69 puntos d) -2.05 puntos ŷi 6.13 0.087 x i
Ejercicio (Test 2: 2010-2011) Los siguientes gráficos muestran los niveles de satisfacción con el líder de la oposición (lado izquierdo) y el primer ministro (lado derecho) como función del voto preferido. Cuál de las siguientes frases es la correcta? a) En ambos casos, la correlación entre satisfacción y voto preferido es negativa. b) La correlación con el voto preferido es más alta para el líder de la oposición. c) La correlación es más alta en el caso del primer ministro. d) El pendiente es igual para ambas rectas de regresión.
Ejercicio (Test 2: 2010-2011) El diagrama muestra el nivel de la deuda Americana como función del precio de oro. La fórmula para la recta de regresión es: PRECIO DE ORO (nominal) = -522,86 + (0,1334 * deuda en $ billones) Si la deuda Americana es de $19000 billones, calcular la predicción para el precio de oro. a) 2011,74 b) 3057,46 c) 2933,14 d) -520,3254
Ejercicio (Examen: 2010) El siguiente gráfico muestra la relación ente el riesgo argentino (LPRI) y el PBI (LPBI). Señala cuál de los siguientes es lo correcto? a) La línea de regresión es LPRA = 3,15+2,5 LPBI. b) La correlación entre LPRA y LPBI es igual a cero. c) La correlación entre LPRA y LPBI es negativa. d) Ninguno de los anteriores.
Ejercicio (Examen: 2009) El gráfico siguiente muestra los niveles de conocimiento de Griego y de Latín para 10 jueces. Llamamos Y al nivel de conocimiento de Griego y X al nivel de conocimiento de Latín. Si utilizamos la nota de Latín para determinar la nota en Griego mediante una recta de regresión, observando el diagrama de dispersión, cuál de las opciones mostradas abajo podría ser la recta correcta? a) Y=1.97+0.64X b) Y=1.97-0.64X c) Y=-1.97+0.64X d) Y=-1.97-0.64X