ESTADÍSTICA BIDIMENSIONAL 0. REPASO DE ESTADÍSTICA La estadística es la parte de las Matemática que estudia los fenómenos que se prestan a cuantificación, que generan conjunto de datos. La misión del estadístico es la de simplificar la información disponible con el fin de que pueda ser clara útil, para ello crea gráficos, tablas calcula unos parámetros que intentan resumir la información Una tabla estadística es una ordenación de los datos de tal modo que se hace más fácil interpretar los datos, así como obtener los parámetros. Esta dividida por filas columnas, en las filas se escriben los caracteres estudiados por columnas las frecuencias correspondientes u otros valores necesarios para obtener la media la desviación típica Ejemplo: Supongamos que nos interesa saber el número de hijos que ha en las familias del Colegio Claret. Para ello pasamos una encuesta preguntando a cada familia cuántos hijos tiene los datos son los siguientes: 3 1 3 4 3 1 3 4 1 3 3 3 1 Así es mu complicado hacernos una idea de cómo son las familias, los ordenamos de la siguiente forma: Llamamos X: nº de hijos f a la cantidad de familias que tienen dichos hijos (se denomina frecuencia absoluta) h, la frecuencia relativa (suele venir como porcentaje, por eso se añade la otra columna) i f i h i % 1 4 4/0 0% 7 7/0 3% 3 7 7/0 3% 4 /0 10% 0 Eso nos proporciona una idea algo más clara de la composición de las familias. Por ejemplo ha el mismo número de familias que tienen hijos que las que tienen 3. El 70% de las familias tienes o 3 hijos,... Ha dos números (parámetros estadísticos (especialmente importantes) que son la media la desviación típica MEDIA ( ) : Es el valor esperado, si todos los acontecimientos fueran homogéneos, es decir, si repartiéramos todos los hijos entre las familias, cuántos tendría cada una DESVIACIÓN TÍPICA s : Es una especie de media del error cometido al tener en consideración el valor de la media. Es decir, en este caso, las familias no son homogéneas, unas tienen más hijos que otras, al considerar que todas son iguales cometemos un error. Además este error no es igual en todas las familias, en unas nos equivocamos más en otras menos. Entonces la desviación típica viene a ser parecido a una media de todos los errores cometidos En nuestro ejemplo, para hallar estos valores, tenemos que aumentar la tabla con dos columnas más
i f i h i % f f 1 4 4/0 0% 4 4 7 7/0 3% 14 8 3 7 7/0 3% 1 63 4 /0 10% 8 3 0 47 17 Los números de la última fila representan la suma de toda la columna suele representarse con la letra griega Es decir el número 47 es la suma de toda la columna f, eso se epresa f 47 Asimismo f 17 La media se calcula con la fórmula f 47, en nuestro caso. 3 0 147 0 Y la desviación típica s, en nuestro caso s.3 1. 3 Para poder realizar con éito este tema necesitamos saber construir la tabla (las cuatro columnas sombreadas) también el cálculo de la media la desviación típica EJERCICIO: Al lanzar un dado 40 veces se han obtenido los siguientes resultados 6 3 1 4 3 6 3 3 6 3 3 4 1 1 1 6 6 4 1 3 4 1 4 Crear la tabla estadística determinar la media la desviación típica f f f s
1 DISTRIBUCIÓN BIDIMENSIONAL Cuando intervienen dos conjuntos de datos variando ambos a la vez, las distribuciones estadísticas se llaman bidimensionales. Si el número de datos es pequeño, lo vamos a epresar mediante una tabla similar a la del apartado anterior, pero si los datos son grandes se suele usar una tabla de doble entrada. Para el ejercicio que tenemos que realizar (puenting con barbies) vamos a considerar pocos datos trabajaremos con tablas simples. Ejemplo, las alturas los pesos de los jugadores de un equipo de baloncesto son las siguientes: Llamamos a la estatura e al peso f 00 1 198 9 1 0 1 18 1 19 1 La columna de f no nos sirve de mucho porque siempre vale 1, es por lo que, de aquí en adelante no se va a poner nunca. Estas son variables (altura peso) queremos ver si están relacionadas, para ello las representaremos gráficamente, el gráfico resultante se denomina nube de puntos o diagrama de dispersión. En este caso quedaría así: Donde se ve claramente que no es una relación perfecta, algún dato se sale de la recta esperada, pero más o menos se ve que ha una relación. En general, atendiendo a la forma que tiene la nube de puntos vamos a decidir si las variables están relacionadas o no (diremos correladas en lugar de relacionadas) 11 10 9 8 7 16 18 19 0 1 6 Directa Indirecta Nula Fuerte Débil
Para cuantificar dicha relación vamos a establecer un criterio o parámetro nuevo que se llama COVARIANZA (también llamada varianza conjunta) Para ello, a nuestra tabla, le vamos a añadir una columna más quedaría de la siguiente forma: 00 40000 1 000 198 9 34 18810 0 40 00 000 18 34 6400 140 19 3 8 170 983 47 193479 46 936 983 196.6 193479 s 196.6 6.6 47 9 46 s 9 10 (NOTA: como no hemos puesto la columna de la f, es mucho más sencilla, solo ha que tener en cuenta cuántos valores tenesmo, en nuestro ejemplo, ) La covarianza, que representamos con el símbolo S, se va a calcular de forma parecida a la desviación típica, pero teniendo en cuenta las dos variables. Es decir: f S 936 En nuestro ejemplo será: S 196.6 9 Es número, en realidad, solo importa el signo a que si es positivo, la relación es directa si es negativo, la relación inversa. No es mu útil, a que depende mucho de las unidades de medida, es decir, si medimos en centímetros o en metros, cambia bastante. Necesitamos otro valor que no le ocurra esto. Pearson, ideó el siguiente valor que depende de la escala se conoce como coeficiente de correlación de Pearson. Su símbolo es r En nuestro caso: r 0.87 6.6 (10) S r s s PROPIEDADES DEL COEFICIENTE DE PEARSON 1) Está comprendido entre -1 1 ) Cuánto más cerca de -1 o 1 más fuerte será la correlación 3) Si es próimo a cero, la correlación es débil 4) El signo me indica si es directa o inversa ) Si fuera eactamente 1 o -1, la relación es funcional los valores están sobre una recta En nuestro ejemplo, la relación es directa fuerte.
. REGRESIÓN A ojo, nosotros podemos trazar una línea que se ajuste a la nube de puntos calculada. Sería más o menos así: 11 10 9 8 No se trata de que pase por el maor número de puntos sino de que la distancia de los puntos a la recta sea la menor posible. Esta línea se suele llamar línea de ajuste. Evidentemente, cada uno tendrá una idea de cuál es el mejor ajuste tenemos que intentar matematizar el proceso. 7 16 18 19 0 1 6 En la práctica ha dos de estas rectas, que se conocen con el nombre de rectas de regresión. Se utilizan para poder estimar situaciones. Por ejemplo; cuánto se espera que pese un jugador que mide 189 cm. Qué altura tendría un jugador que pesa 107kg? Según quisiéramos contestar a una u otra pregunta vamos a utilizar rectas diferentes La recta de regresión de sobre (representamos r / la usaremos cuando conocemos la variable tenemos que calcular S r / : En nuestro caso: 9 196.6 s Si hacemos las operaciones 9 0. 196.6 Entonces 9 0. 108.13 0. 13.13 (189) 0. 189 13.13 81.4kg La recta de regresión de sobre (representamos r / la usaremos cuando conocemos la variable tenemos que calcular S r / : En nuestro caso: 196.6 9 s 44. Si hacemos las operaciones 196.6 1.4 9 196.6 1.4 117.8 1.4 78.8 Entonces (107) 1.4 107 78.8 11. 48 cm 11 / 10 9 8 7 16 18 19 0 1 6 / En la gráfica de la izquierda vemos representada tanto la nube de puntos como las dos rectas de regresión. Ha dos características importantes: Ambas pasan por los valores medios (es decir, el punto de corte coincide con la media tanto de como de ) Cuánto más parecidas son más fuerte es la correlación viceversa, si la correlación en mu fuerte, las rectas son más parecidas, incluso si la correlación en nula, las rectas serían perpendiculares