TEMA 3: ESTADÍSTICA BIDIMENSIONAL INTRODUCCIÓN: En curo anteriore e ha etudiado como manejar e interpretar dato que proporcionaba una variable. Ahora vamo a ver cómo lo hacemo i hacemo a cada encuetado, por ejemplo, do pregunta, etarán relacionada la repueta? TABLAS DE DOBLE ENTRADA La forma má habitual de preentar lo dato e mediante una tabla donde lo dato aparecen emparejado. Aí, en el ejemplo que vimo en clae la tabla ería: Hora TV 14 1 1 0 4 0 1 1 Hora Deporte 4 6 6 4 6 Aunque para er má operativo e recomendable ordenar lo dato con repecto a una de la variable, obviamente, la otra no quedará ordenada. Si por ejemplo ordenamo con repecto a la hora de TV no quedaría aí (tabla 1): No damo cuenta también que alguno dato e repiten (lo do dato en rojo en la tabla), podemo entonce ecribirla con una columna de frecuencia de la forma iguiente (tabla ): Tabla 1 Tabla TV DEPORTE TV DEPORTE f 1 6 1 6 1 14 4 1 0 0 6 1 1 1 6 1 1 14 4 1 1 1 0 1 0 6 1 4 4 1 4 4
Pero qué ocurre i en lugar de dato obtuviéramo 0 o incluo 00? Pue e ua lo que e llama tabla de doble entrada: El ejemplo iguiente recoge lo dato de lo hijo de la familia encuetada donde X repreenta el número de hijo varone e Y el número de hija. X/Y 0 1 0 1 1 4 3 0 1 3 1 0 Aí el número 4 marcado en rojo ignifica que hay 4 familia que tienen 1 varón y ninguna niña. Y el cero ombreado en verde que no hay familia que tengan 1 niño y do niña Aunque también e puede traformar en una tabla como la encilla, aunque un poco má grande en la forma iguiente: X Y f 0 0 0 1 1 0 1 0 4 1 1 3 1 0 0 1 1 3 0 1 3 1 3 0 (Obviamente podemo uprimir la fila que tienen frecuencia 0) /
NUBES DE PUNTOS Una de la razone má intereante de la variable bidimenionale (X,Y) puede er la relación que exite, i e que exite, entre amba. Para poder deducir la relación, lo má encillo e repreentar gráficamente la ditribución en uno eje coordenado, como i fueran punto; e por lo que la gráfica e llama nube de punto o diagrama de diperión. Por ejemplo en el cao de la hora de TV y de la hora de deporte quedará aí: 14 1 6 4-4 6 1 14 16 1 0 4 6 x El punto (1,6) etá repreentado má grueo porque tiene mayor frecuencia que lo demá El punto ( X, Y) e llama centro de maa (repreentado en rojo en el gráfico) Parece que hay una tendencia a cuando má tiempo le dedicamo a ver la televiión (x) meno tiempo le dedicamo a hacer deporte. Eta relación no e funcional (exacta) e una relación etadítica, que recibe el nombre de correlación. Vamo a ver má ejemplo 3/
Ejemplo : La relación entre la altura en centímetro y el peo en kilogramo de perona e la iguiente: X Y 14 46 147 49 15 51 157 54 16 5 167 6 17 65 177 69 74 7 70 6 66 64 6 60 5 56 54 5 50 4 46 135 145 150 155 160 165 170 175 15 190 1 4 Ejemplo 3: La relación entre el número de obrero que hay en la obra (X) y el tiempo que e tarda en levantar la planta de un edificio (Y) viene dada por la tabla iguiente y X Y 1 1 3 5 9 9 7 5 11 4 1 3 14 13 1 11 9 7 6 5 4 3 1 1 3 4 5 6 7 9 11 1 13 14 En el ejemplo vemo claramente una correlación que llamaremo poitiva porque cuanto má alto on lo alumno u peo también e mayor, mientra que en la egunda la correlación e negativa porque cuanto má obrero, meno tiempo e tarda en terminar la obra. Ademá, e parecen batante a una recta, e por lo que la correlación la llamaremo fuerte. Fijémono que 4/
eta relacione on má parecida a una recta que la que teníamo en el ejemplo 1, on por lo tanto má fuerte o dicho de otra forma, la correlación en el ejemplo 1 e débil. ÍNDICE DE CORRELACIÓN DE PEARSON Con el objeto de poder cuantificar la fortaleza de la relación entre do variable etadítica cuantitativa, urgen nuevo parámetro etadítico. Entre ello etá la covarianza que e calcula de la iguiente forma: xyf xy = x y n Para verlo mejor, volvamo con la tabla del ejemplo 1 y aumentamo la columna teniendo en cuenta que hemo de calcular tanto la covarianza como la media de x e y TV (X) DEP (y) f xf yf xyf 1 64 1 0 1 6 4 1 144 1 1 1 14 4 1 14 4 64 1 1 1 144 0 1 0 40 0 6 1 0 6 4 4 1 4 4 96 14 64 7 (Nota: la columna marcada en verde no on necearia i toda la frecuencia valen 1) Entonce podemo calcular: 14 x = = 14. 64 y = = 6.4 xy 7 = 14. 6.4 = 7.5 El igno negativo no indica que la relación e invera, e decir algo que habíamo vito en la nube de punto, a medida que crece X, la variable Y va diminuyendo. 5/
Lo que no no indica e el grado de fortaleza, para ello neceitamo otro parámetro llamado coeficiente de correlación lineal o coeficiente de Pearon y e calcula de la iguiente forma: xy r = x Neceitamo entonce determinar la deviacione típica tanto de la variable x como de la variable y, tenemo entonce que ampliar má la tabla anterior de la iguiente forma: y TV (X) DEP (y) f xf yf xyf x f y f 1 64 64 64 1 0 64 0 1 6 4 1 144 7 1 1 1 144 0 14 4 1 14 4 64 196 16 1 1 1 144 34 64 0 1 0 40 400 4 0 6 1 0 6 400 36 4 4 1 4 4 96 576 16 14 64 7 456 475 Al igual que paaba ante, la tabla queda tan grande porque alguno valore tienen frecuencia que no e uno, i no fuera aí, quedaría má implificada Podemo calcular entonce lo valore que no faltan x y = = 456 14. 475 6.4 = 5.15 =.56 El coeficiente de correlación e de -0.57. 7.5 r = = 0.57 5.15.56 6/
El coeficiente de correlación lineal iempre e mueve entre -1 y 1. El valor podemo interpretarlo de la iguiente forma: Si r = 1 ó -1, la dependencia entre la variable e funcional, e decir, la relación e perfecta pue obedece a una función. Si 0,5<r<1, correlación poitiva y muy fuerte. Si 0,7<r<0,5 correlación poitiva y fuerte Si 0,5<r<0,7 correlación poitiva media Si 0,3<r<0,5 correlación poitiva débil Si -1<r<-0,5 correlación negativa y muy fuerte Si -0,5<r<-0,7 correlación negativa y fuerte Si -0,7<r< -0,5 correlación negativa media Si -0,5<r<-0,3 correlación negativa débil Si 0<r<0,3, correlación poitiva muy débil Si -0,3<r<0 correlación negativa muy débil Si r = 0, no exite correlación lineal. En ete cao decimo que la variable etán incorrelada. Una vez que tenemo que exite una correlación entre la variable no preguntamo i podemo predecir el valor de una de ella conocido el valor de la otra. Evidentemente, no erá exacto (alvo que el coeficiente de correlación ea 1 o -1) pero cuanto má fuerte ea la correlación, má fiable erá nuetra etimación. 7/
HACIENDO PREDICCIONES Hemo etado hablando continuamente de correlación lineal, de i lo dato o la variable podrían ajutare a función lineal (o mejor dicho, a una función cuya gráfica ea una recta.) La recta a la que mejor e ajutan lo dato e llama recta de regreión, y cumple que mientra má próximo etén lo dato a ea recta, mayor e el coeficiente de correlación y por tanto, mayor e la relación entre la variable. Siempre hay do recta de regreión, la de Y obre X y la X obre Y. La fórmula on la que iguen: Recta de Regreión de Y obre X (Ecribimo y/x)) y y = Recta de Regreión de X obre (Ecribimo (x/y)) x x = xy x xy y Según lo que no interee, calcularemo una u otra. ( x x) ( y y) Ejemplo: Se etá haciendo un etudio de control de población de conejo y zorro en una zona de boque. Se cree que el número de amba epecie etá íntimamente relacionado. Durante lo último año e ha hecho un ceno de ambo animale, obteniéndoe la cifra que e muetran a continuación: N.º zorro 0 30 15 0 6 30 15 14 N.º conejo 30 500 70 3 400 450 00 50 Cuánto zorro deberá haber i en el último año e han contado 350 conejo? Y i un año llegaran a contare zorro, cuánto conejo debería haber para que el ecoitema fuera otenible? Y i fueran 00 conejo? Son fiable la prediccione? /
Llamemo x: número de zorro, y: número de conejo. Lo reultado e pueden reumir en la tabla iguiente: (Como la frecuencia iempre e 1, no hace falta poner la columna de la frecuencia y e mucho má fácil todo lo cálculo) X Y X Y XY 0 30 400 400 6400 30 500 900 50000 15000 15 70 5 7900 4050 0 3 400 960 600 6 400 676 160000 400 30 450 900 0500 13500 15 00 5 40000 3000 14 50 196 6500 3500 = 170 = 700 = 39 = 96400 = 6050 Para la variable X 170 951 x = = 1.5 x = 1.5 = 6. Para la variable Y 700 96400 y = = 337.5 y = 337.5 = 96. 9 Lo parámetro que uan la do variable 6050 54.375 xy = 1.5 337.5 = 54.375 r = = 0.9693 0. 97 6. 96.9 Recta de regreión 54.375 Y/X: y 337.5 = ( x 1.5) X/Y: x 1.5 = ( y 337.5) 6. 54.375 96.9 9/
Si hay 350 conejo (entonce y = 350) y elegimo X/Y (conocemo Y queremo calcular X) 54.375 x = 1.5 + (350 337.5) x =. 03. E decir uno zorro 96.9 Si hay zorro (entonce x = ) elegimo Y/X (conocemo X, queremo calcular Y) 54.375 y = 337.5 + ( 1.5) y = 439. 45. E decir entre 439 y 440 conejo. 6. Lo dato on muy fiable porque la correlación e muy fuerte. En cambio, cuando la pregunta e qué paará cuando hay 00 conejo, no podemo aplicar la recta de regreión ya que el valor 00 etá muy alejado de lo valore que tenemo para la variable y (número de conejo) /