Análisis de datos y gestión n veterinaria Tema 1 Estadística descriptiva Prof. Dr. José Manuel Perea Muñoz Departamento de Producción Animal Facultad de Veterinaria Universidad de Córdoba Córdoba, de Septiembre de 011 Estadística descriptiva Sistematización, recogida y presentación de los datos referentes a un fenómeno que presenta variabilidad, con el objetivo de Probabilidad deducir las leyes que rigen ese fenómeno Inferencia y poder extraer conclusiones y predecir el comportamiento del fenómeno 1
y esto para qué sirve? los clientes del barrio Ciudad Jardín gastan más en la clínica Plantear la hipótesis sobre una población Los clientes de Ciudad Jardín gastan más en la clínica veterinaria Decidir qué datos recoger (diseño de experimentos) Qué individuos pertenecerán al estudio (muestra) todos los clientes de la clínica Qué datos recoger de los mismos (variables) barrio, número de visitas, gasto en cada visita Recoger los datos (muestreo) Describir los datos obtenidos Gasto medio anual, visitas anuales, gasto por consulta, etc. Analizar los datos obtenidos (contraste de hipótesis) es diferente el gasto medio anual? puedo confiar en los datos? Extraer conclusiones (inferencia) Los clientes de Ciudad Jardín gastan 100 más al año (30% más) Los clientes de Ciudad Jardín visitan,5 veces más la clínica Tomar decisiones (inferencia) Potenciar nuevos clientes de Ciudad Jardín
Población y muestra Población. Conjunto completo de individuos sobre el que estamos interesados en obtener conclusiones. Variable Variable. Característica observable que varía entre los individuos de una población. Medir. Proceso de asociación de números o símbolos a determinadas características de los objetos según reglas preestablecidas. Producción lechera 3
Población y muestra 9.31 kg 8.543 kg 9.318 kg 11.438 kg 10.31 kg Normalmente, la población suele ser es demasiado Población y muestra grande para abarcarla completamente 10.341 kg Muestra. Subconjunto de los valores poblacionales observados. 1.3 kg 8.764 kg 11.543 kg 9.31 kg 4
Población y muestra Población Muestra Conjunto completo de individuos sobre el que se está interesado en extraer conclusiones. Normalmente es demasiado grande para abarcarla completamente. Subconjunto de la población al que se tiene acceso y sobre el que realmente se hacen las observaciones (mediciones). Debe ser representativa. Confiamos en que los valores de la muestra sean similares a los de la población. Tipos y medición de variables Producción lechera Variable. Característica observable que varía entre los individuos de una población. 5
Tipos y medición de variables Producción lechera kg/año l/día 0 a 15.000 kg 0 a 40 l Escala. Conjunto de valores (o modalidades) que puede tomar la variable. Tipos y medición de variables Producción lechera kg/año 0 a 15.000 kg Superficie ha 0 a miles Gasto en alimentación /animal 0 a miles 6
Tipos y medición de variables Definir y medir bien las variables es fundamental para el éxito de la investigación. Capacitación de la mano de obra adecuada / inadecuada 0 a 5 (0 peor, 5 mejor) Visibilidad del negocio si / no muy visible / visible / poco visible / nula Tipos y medición de variables Los posibles valores que puede tomar la variables se denomina modalidades. Producción lechera kg/año 0 a 15.000 kg Las modalidades pueden agruparse en clases (intervalos). pequeña 0 a 3.000 kg Producción lechera mediana 3.001 a 7.000 kg grande más de 7.001 kg 7
Tipos y medición de variables Las modalidades/clases deben formar un sistema exhaustivo y excluyente Exhaustivo: No se puede olvidar ningún valor posible de la variable Color de ojos marrón / azul marrón / azul / verde Tipos y medición de variables Las modalidades/clases deben formar un sistema exhaustivo y excluyente Excluyente: Ningún individuo puede presentar dos valores simultáneos para la misma variable Número de hijos Ninguno / más de / más de 4 Ninguno / de 1 a / más de 8
Tipos y medición de variables Estado civil soltero / casado / divorciado / separado / viudo soltero / casado / divorciado / viudo Enfermedad sano / enfermo sano / enfermo / enfermo asintomático Tipos y medición de variables No métricas Métricas - Cualitativas - Los valores son categorías - Los números son etiquetas - Cuantitativas - Los valores son números - Los números no son etiquetas Nominal Ordinal Intervalo Razón 9
Tipos y medición de variables Métricas - Cuantitativas - Los valores son números - Los números no son etiquetas Producción lechera kg/año 0 a 15.000 kg Intervalo Razón Tipos y medición de variables No métricas - Cualitativas - Los valores son categorías - Los números son etiquetas Presencia de cuernos Nominal Ordinal Si / No 10
Tipos y medición de variables Los valores son categorías diferentes por una cualidad, no por una cantidad. Todos los casos deben clasificarse en categorías mutuamente excluyentes y exhaustivas. Se suelen usar etiquetas numéricas: Presencia de cuernos Nominal Si = 1 No = Si / No Tipos y medición de variables Orientación productiva 1 3 11
Tipos y medición de variables Orientación productiva < < Nivel de estudios Primaria 1 Secundaria Grado 3 < < < Doctorado 4 Tipos y medición de variables No métricas - Cualitativas - Los valores son categorías - Los números son etiquetas Nominal Ordinal Nivel de estudios Primaria / Secundaria / Grado / Doctorado 1
Tipos y medición de variables Los valores son categorías ordenadas diferentes por una cualidad, no por una cantidad. Todos los casos deben clasificarse en categorías mutuamente excluyentes y exhaustivas. Se suelen usar etiquetas numéricas. Se pueden establecer jerarquías. Ordinal Tipos y medición de variables Los valores son categorías ordenadas diferentes por una cualidad, no por una cantidad, por lo que las diferencias no tienen sentido Nivel de estudios Primaria 1 Secundaria Grado 3 < < < Doctorado 4 Doctorado es mejor que Primaria, pero no es cuatro veces mejor que primaria 13
Tipos y medición de variables Métricas - Cuantitativas - Los valores son números - Los números no son etiquetas Producción lechera kg/año 0 a 15.000 kg Intervalo Razón Tipos y medición de variables La escala es absoluta. Los valores son números cuyas diferencias y razones tienen sentido. 10.000 kg 5.000 kg 10.000 5.000 = 5.000 kg produce más la vaca roja 10.000 / 5.000 = la vaca roja produce el doble que la vaca azul Razón 14
Tipos y medición de variables Métricas - Cuantitativas - Los valores son números - Los números no son etiquetas Producción lechera kg/año 0 a 15.000 kg Intervalo Razón Tipos y medición de variables La escala no es absoluta, sino arbitraria. Los valores son números cuyas diferencias tienen sentido, pero las razones no. A 40 ºC B 10 ºC 40 10 = 30 ºC A está 30 ºC más caliente que B Intervalo 15
Tipos y medición de variables A 40 ºC B 10 ºC 40 ºC 10 ºC 0 ºC Tipos y medición de variables 40 10 = 30 ºC Temperatura A está 30 ºC ºC más caliente que B Temperatura ºC 40 / 10 = 4 A está A 4 veces más B 40 ºC 10 ºC caliente que B 313 83 = 30 ºK Temperatura A está 30 ºC ºK más caliente que B Temperatura ºK 313 / 83 = 1,1 A está A 1,1 veces más 313 ºK caliente que B 16
Tipos y medición de variables No métricas - Cualitativas - Los valores son categorías - Los números son etiquetas Métricas - Cuantitativas - Los valores son números - Los números no son etiquetas Nominal Ordinal Intervalo Razón No se pueden Se pueden Escala arbitraria Escala absoluta establecer establecer Diferencias Diferencias jerarquías jerarquías No razones Razones Tipos y medición de variables Intervalo. Número de valores que puede tomar la variable entre dos valores cualquiera. Intervalo infinito: Variable continua. Intervalo finito: Variable discreta. Producción lechera kg/año 0 a muchos Número de vacas 0 a muchas 17
Tipos y medición de variables No métricas - Cualitativas - Los valores son categorías - Los números son etiquetas Métricas Discretas Continuas - Cuantitativas - Los valores son números - Los números no son etiquetas Nominal Ordinal Intervalo Razón No se pueden Se pueden Escala arbitraria Escala absoluta establecer establecer Diferencias Diferencias jerarquías jerarquías No razones Razones Tablas de frecuencias Respuestas: 7 5 6 8 6 5 9 5 8 6 5 7 5 5 4 5 8 5 4 6 6 4 6 4 8 4 3 4 3 3 1 4 5 6 5 8 5 4 7 4 3 5 3 4 9 4 6 3 4 4 1 3 6 3 1 4 4 6 4 7 4 4 6 4 4 6 7 5 8 5 7 6 5 6 5 7 5 6 4 5 4 1 6 5 6 5 5 5 4 6 5 5 6 5 4 4 3 5 5 9 4 3 6 5 7 3 4 4 7 4 1 8 7 4 5 5 7 5 5 1 5 8 5 6 7 6 6 7 7 5 5 6 5 8 5 3 6 5 5 Para conocer la actitud de los ganaderos bovinos sobre el recorte de las ayudas PAC se plantea una encuesta de N ganaderos opinión sobre el recorte de ayudas escala ordinal 1 a 9 (1, total acuerdo, 9 total desacuerdo) 18
Tablas de frecuencias Respuestas: 7 5 6 8 6 5 9 5 8 6 5 7 5 5 4 5 8 5 4 6 6 4 6 4 8 4 3 4 3 3 1 4 5 6 5 8 5 4 7 4 3 5 3 4 9 4 6 3 4 4 1 3 6 3 1 4 4 6 4 7 4 4 6 4 4 6 7 5 8 5 7 6 5 6 5 7 5 6 4 5 4 1 6 5 6 5 5 5 4 6 5 5 6 5 4 4 3 5 5 9 4 3 6 5 7 3 4 4 7 4 1 8 7 4 5 5 7 5 5 1 5 8 5 6 7 6 6 7 7 5 5 6 5 8 5 3 6 5 5 Respuestas: 1 1 1 1 1 1 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 7 7 7 7 7 7 7 7 7 7 7 7 7 7 8 8 8 8 8 8 8 8 8 9 9 9 Respuestas: 1 (6), (11), 3 (1), 4 (30), 5 (40), 6 (5), 7 (14), 8 (9), 9 (3) Tablas de frecuencias Primer paso. Organizar los datos en clases y frecuencias. X f i 1 6 11 3 1 4 30 5 40 6 5 7 14 8 9 9 3 Frecuencia absoluta (fi). Número de observaciones en cada clase. Cuántos ganaderos no quieren que se recorten las ayudas? Cuántos Cuál fue ganaderos la respuesta fueron más preguntados? frecuente? 19
Tablas de frecuencias X f i F i 1 6 6 11 17 3 1 9 4 30 59 5 40 99 6 5 14 7 14 138 8 9 147 9 3 150 Frecuencia absoluta acumulada (Fi). Número de observaciones iguales o menores a la clase. Cuál fue la respuesta más frecuente? Cuántos ganaderos fueron preguntados? Tablas de frecuencias Ha cambiado la importancia relativa de la frecuencia (f=40 frente a N=150 es diferente a f=40 frente a N=1140) X f ii F i 1 00 6 6 170 11 17 3 10 9 4 60 30 59 5 40 99 6 60 5 14 7 10 14 138 8 170 9 147 9 00 3 150 X f i F i 1 6 6 11 17 3 1 9 4 30 59 5 40 99 6 5 14 7 14 138 8 9 147 9 3 150 Cuál fue la respuesta más frecuente? 0
Tablas de frecuencias Frecuencia relativa (fi/n). Proporción de observaciones en cada clase. X f i F i f i /N 1 6 6 0,04 11 17 0,07 3 1 9 0,08 4 30 59 0,0 5 40 99 0,7 6 5 14 0,17 7 14 138 0,09 8 9 147 0,06 9 3 150 0,0 Tablas de frecuencias Frecuencia relativa (fi/n). Proporción de observaciones en cada clase. X f i F i f i /N 1 6 6 0,04 11 17 0,07 3 1 9 0,08 4 30 59 0,0 5 40 99 0,7 6 5 14 0,17 7 14 138 0,09 8 9 147 0,06 9 3 150 0,0 f i F i f i /N 00 00 0,18 170 370 0,15 10 490 0,11 60 550 0,05 40 590 0,04 60 650 0,05 10 770 0,11 170 940 0,15 00 1140 0,18 1
Tablas de frecuencias opinión sobre el recorte de ayudas escala ordinal 1 a 9 (1, total acuerdo, 9 total desacuerdo) De acuerdo Indiferente En desacuerdo X f i F i f i /N F i /N 1 6 6 0,04 0,04 11 17 0,07 0,11 3 1 9 0,08 0,19 4 30 59 0,0 0,39 5 40 99 0,7 0,66 6 5 14 0,17 0,83 7 14 138 0,09 0,9 8 9 147 0,06 0,98 9 3 150 0,0 1,00 Tablas de frecuencias Deben tener amplitud uniforme No más de 0 clases Se suele elegir N Clases X f i F i f i /N F i /N 1 a 3 9 9 0,19 0,19 4 a 6 5 95 14 0,63 0,83 7 a 9 8 6 150 0,17 1,00 Marca de clase (X): valor central del intervalo [Li, Lj]
Tablas de frecuencias Frecuencia absoluta (fi). Número de observaciones en cada clase. Frecuencia absoluta acumulada (Fi). Número de observaciones iguales o menores a la clase. Frecuencia relativa (fi/n). Proporción de observaciones en cada clase. Frecuencia relativa acumulada (Fi/N). Proporción de observaciones iguales o menores a la clase. Marca de clase (X): valor central del intervalo [Li, Lj] Gráficos Diagrama de barras - para variables discretas - altura proporcional a la frecuencia (absoluta o relativa) Frecuencia absoluta relativa 0,30 45 40 0,5 35 0,0 30 5 0,15 0 0,10 15 10 0,05 5 0,00 0 11 33 4 5 6 7 8 9 Opinión cese ayudas 3
Gráficos Histogramas - para variables continuas - área proporcional a la frecuencia (absoluta, relativa, acumulada) Frec. Frecuencia abs. acumulada absoluta relativa 15 50 8 1 40 6 30 9 4 0 6 10 3 0 7900 800 8500 8800 9100 9400 9700 Producción lechera (kg/año) Parámetros y estadísticos Parámetro. - Cantidad numérica calculada sobre una población. - Resumen la información poblacional en unos pocos números. - Por ejemplo, el peso medio de los individuos de un país. Estadístico. - Cantidad numérica calculada sobre una muestra. - Resumen la información muestral en unos pocos números. - Por ejemplo, el peso medio de los individuos de este aula. Los estadísticos se utilizan para estimar parámetros y confiamos en que sean próximos. 4
Centralización Indican valores entorno a los que los datos parecen agruparse media, mediana, moda centro Centralización x n x x x x n n i i 1 1... n Media aritmética 5
Centralización x i i 1 1... Ingresos anuales de 8 veterinarios: Media 10.000 aritmética, 10.000, 0.000, 0.000, 0.000, 0.000, 30.000, 30.000 Ingreso medio = 0.000 anuales n x x x x n n n Frecuencia relativa 50 40 30 0 10 0 0 1 3 4 Ingresos anuales (miles de euros) Centralización x n x x x x n n i i 1 1... n 50 40 30 0 10 0 6
Centralización x n x x x x n n i i 1 1... n Ingresos anuales de 8 veterinarios: 10.000, 10.000, 0.000, 0.000, 0.000, 0.000, 30.000, 30.000 Ingreso anual medio = 0.000 Ingresos anuales de 8 veterinarios: 10.000, 10.000, 0.000, 0.000, 0.000, 0.000. 30.000 y 1.000.000 Ingreso anual medio = 141.50 Muy sensible a valores extremos Centralización x n x x x x n n i i 1 1... n Media de goles en las últimas 5 ligas Jugador A: 30 goles Jugador B: 30 goles Frecuencia 3,5 1,5 1 0,5 0 4 6 8 30 3 34 36 Jugador A Frecuencia 3,5 1,5 1 0,5 0 0 0 40 60 80 100 Jugador B 7
Media aritmética. Centralización - Conveniente cuando los datos se concentran simétricamente respecto a ese valor. - Muy sensible a valores extremos. Mediana. - Valor central de la distribución. - No es sensible a valores extremos. x - Conveniente cuando los datos son muy asimétricos. n x x x x n n i i 1 1... x me n n 1 n Centralización x me n n 1 Ingresos anuales de 8 veterinarios: 10.000, 10.000, 0.000, 0.000, 0.000, 0.000, 30.000, 30.000 Ingreso medio = 0.000 anuales Frecuencia relativa 50 40 30 0 10 0 0 1 3 4 Ingresos anuales (miles de euros) 8
Centralización x me n n 1 Media y mediana Ingresos anuales tienden 8 veterinarios: a coincidir con la 10.000, 10.000, 0.000 simetría, 0.000, 0.000, 0.000, 30.000, 30.000 Ingreso medio = 0.000 anuales Mediana = 0.000 anuales Frecuencia relativa 50 40 30 0 10 0 0 1 3 4 Ingresos anuales (miles de euros) Centralización x me n n 1 Ingresos anuales de 8 veterinarios: 10.000, 10.000, 0.000, 0.000, 0.000, 0.000, 30.000, 30.000 Ingreso anual medio = 0.000 Mediana = 0.000 anuales Ingresos anuales de 8 veterinarios: 10.000, 10.000, 0.000, 0.000, 0.000, 0.000. 30.000 y 1.000.000 Ingreso anual medio = 141.50 Mediana = 0.000 anuales 9
Centralización x me n n 1 Media de goles en las últimas 5 ligas Jugador A: 30 goles Jugador B: 30 goles Mediana de goles en las últimas 5 ligas Jugador A: 30 goles Jugador B: 5 goles Frecuencia 3,5 1,5 1 0,5 0 4 6 8 30 3 34 36 Jugador A Frecuencia 3,5 1,5 1 0,5 0 0 0 40 60 80 100 Jugador B Media aritmética. Centralización x n x x x x n n i i 1 1... - Conveniente cuando los datos se concentran simétricamente respecto a ese valor. - Muy sensible a valores extremos. Mediana. Moda. - Valor central de la distribución. - No es sensible a valores extremos. n n 1 - Conveniente cuando los datos son muy asimétricos. - Valor o valores donde la distribución de frecuencias alcanza un máximo. x me n 30
Posición Dividen la distribución en grupos con la misma cantidad de datos. cuantiles, cuartiles, percentiles, etc. centro Posición Dividen la distribución en grupos con la misma cantidad de datos. Cuartiles. Dividen cuantiles, la cuartiles, distribución percentiles, en etc. 4 grupos que contienen el 5% de los datos cada uno (Q1, Q, Q3) 50 % 5 % 75 % 31
Posición Cuartil. - Divide la distribución en 4 grupos que contienen el 5% de los datos cada uno. - Q1, Q (o mediana), Q3 Percentil. - Divide la distribución en 100 grupos. - P5 = Q1; P50 = Q = mediana Cuantil. - Cuantil de orden α. Es un valor de la variable por debajo del cual queda una frecuencia acumulada de α. Gráfico de caja y bigotes Ingresos anuales de 8 veterinarios: 10.000, 10.000, 0.000, 0.000, 0.000, 0.000, 30.000, 30.000 Frecuencia relativa 50 40 30 0 10 0 0 1 3 4 Ingresos anuales (miles de euros) 3
Gráfico de caja y bigotes Ingresos anuales de 8 veterinarios: 10.000, 10.000, 0.000, 0.000, 0.000, 0.000, 30.000, 30.000 1 1,5,5 3 (X 10000) Ingresos anuales ( ) Frecuencia relativa 50 40 30 0 10 0 0 1 3 4 Ingresos anuales (miles de euros) Dispersión Indican la concentración de los datos entorno a las medidas de centralización centro dispersión 33
Dispersión dispersión Dispersión No referidas a promedios Absolutas (unidades de la variable) recorrido, recorrido intercuartílico Relativas (sin unidades) coeficiente de apertura, recorrido relativo Referidas a promedios Absolutas varianza, desviación típica Relativas coeficiente de variación 34
Dispersión Recorrido. Valor máximo valor mínimo Ingresos anuales de 8 veterinarios: 10.000, 10.000, 0.000, 0.000, 0.000, 0.000, 30.000, 30.000 Recorrido = 30.000-10.000 = 0.000 Frecuencia absoluta 4 3 1 0 9 13 17 1 5 9 33 (X 1000) Ingresos anuales ( ) Dispersión Recorrido. Valor máximo valor mínimo Ingresos anuales de 8 veterinarios: 10.000, 10.000, 0.000, 0.000, 0.000, 0.000. 30.000 y 1.000.000 Recorrido = 1.000.000-10.000 = 990.000 Frecuencia absoluta 8 6 4 0 0 4 6 8 10 1 (X 100000) Ingresos anuales ( ) 35
Dispersión Recorrido intercuartílico. Q3 Q1 Ingresos anuales de 8 veterinarios: 10.000, 10.000, 0.000, 0.000, 0.000, 0.000, 30.000, 30.000 Q1 = 15.000 Q3 = 5.000 Recorrido intercuartílico = 10.000 1 1,5,5 3 (X 10000) Ingresos anuales ( ) Dispersión Recorrido intercuartílico. Q3 Q1 Ingresos anuales de 8 veterinarios: 10.000, 10.000, 0.000, 0.000, 0.000, 0.000, 30.000, 1.000.000 Q1 = 15.000 Q3 = 5.000 Recorrido intercuartílico = 10.000 0 4 6 8 10 (X 100000) Ingresos anuales ( ) 36
Dispersión No referidas a promedios. Absolutas (mismas unidades que la variable) Recorrido: Valor máximo Valor mínimo Muy sensible a valores extremos Recorrido intercuartílico: Q3 Q1 Menos sensible a valores extremos Dispersión No referidas a promedios Absolutas (unidades de la variable) recorrido, recorrido intercuartílico Relativas (sin unidades) coeficiente de apertura, recorrido relativo 37
Dispersión Coeficiente de apertura. Valor máximo / valor mínimo Ingresos anuales de 8 veterinarios: 10.000, 10.000, 0.000, 0.000, 0.000, 0.000, 30.000, 30.000 Coeficiente de apertura = 3 Frecuencia absoluta 4 3 1 0 9 13 17 1 5 9 33 (X 1000) Ingresos anuales ( ) Dispersión Coeficiente de apertura. Valor máximo / valor mínimo Ingresos anuales de 8 veterinarios: 10.000, 10.000, 0.000, 0.000, 0.000, 0.000, 30.000, 1.000.000 Coeficiente de apertura = 100.000 Frecuencia absoluta 8 6 4 0 0 4 6 8 10 1 (X 100000) Ingresos anuales ( ) 38
Dispersión Recorrido relativo: Recorrido / media Ingresos anuales de 8 veterinarios: 10.000, 10.000, 0.000, 0.000, 0.000, 0.000, 30.000, 30.000 Recorrido relativo = 0.000 / 0.000 = 1 Ingresos anuales de 8 veterinarios: 10.000, 10.000, 0.000, 0.000, 0.000, 0.000, 30.000, 1.000.000 Recorrido relativo = 990.000 / 141.50 = 7 Dispersión No referidas a promedios Absolutas (unidades de la variable) recorrido, recorrido intercuartílico Relativas (sin unidades) coeficiente de apertura, recorrido relativo Referidas a promedios Absolutas varianza, desviación típica Relativas coeficiente de variación 39
Dispersión S n i1 ( x x) i n 1 Varianza. Mide el promedio de las desviaciones (al cuadrado) de las observaciones respecto a la media Ingresos anuales de 8 veterinarios: 10.000, 10.000, 0.000, 0.000, 0.000, 0.000, 30.000, 30.000 x 0000 S 5714900 Dispersión S n i1 ( x x) i n 1 Varianza. Ingresos anuales de 8 veterinarios: 10.000, 10.000, 0.000, 0.000, 0.000, 0.000, 30.000, 30.000 x 0000 S 5714900 Ingresos anuales de 8 veterinarios: 10.000, 10.000, 0.000, 0.000, 0.000, 0.000, 30.000, 1.000.000 x 14150 S 1044107148 40
Dispersión S n i1 ( x x) i n 1 Varianza. Media de goles en las últimas 5 ligas Jugador A: 30 goles Jugador B: 30 goles Mediana de goles en las últimas 5 ligas Jugador A: 30 goles Jugador B: 5 goles Varianza de goles en las últimas 5 ligas Jugador A: 13 goles al cuadrado Jugador B: 1.50 goles al cuadrado Dispersión S S Desviación típica. Tiene las mismas unidades que la variable. Media de goles en las últimas 5 ligas Jugador A: 30 goles Jugador B: 30 goles Mediana Jugador A: 30 goles Jugador B: 5 goles Varianza Jugador A: 13 goles al cuadrado Jugador B: 1.50 goles al cuadrado Desviación típica Jugador A: 30 + 3,6 goles Jugador A: 3,6 goles Jugador B: 30 + 35,4 goles Jugador B: 35,4 goles x S 41
Dispersión S S Desviación típica. 68,5 % x S Dispersión S S Desviación típica. 95 % x S 4
Dispersión CV S x Coeficiente de variación. Mide el tamaño de la desviación típica respecto a la media. Sin unidades, variabilidad relativa. Útil para comparar variables. CV * 100 = Coeficiente de variación en p. 100 No utilizar si la variable tiene números negativos. No utilizar en variables de intervalo. Dispersión CV S x Coeficiente de variación. Variable peso: 83,0 + 10,6 Variable altura: 176,0 + 9,6 CV peso: 1,75% CV altura: 5,46% Variable peso (kg): 83,0 + 10,6 CV peso (kg): 1,75% Variable peso (g): 83000 + 10583 CV peso (g): 1,75% 43
Dispersión No referidas a promedios Absolutas (unidades de la variable) recorrido, recorrido intercuartílico Relativas (sin unidades) coeficiente de apertura, recorrido relativo Referidas a promedios Absolutas varianza, desviación típica Relativas coeficiente de variación Forma Asimetría Curtosis 44
Forma Asimetría Curtosis Forma Asimetría Curtosis 45
Forma Asimetría. Una distribución es simétrica si su mitad izquierda es una imagen especular de su mitad derecha. Las discrepancias entre las medidas de centralización indican asimetría. Asimetría negativa Asimetría positiva Asimetría. Coeficiente de Fisher. Coeficiente de asimetría de Fisher 1 k 3 g1 ( ) 3 xi x fi S i1 Forma Coeficiente de asimetría de Fisher < 0 asimetría negativa = 0 simétrica > 0 asimetría positiva 3 1 3 Asimetría negativa Asimetría positiva 46
Coeficiente de Forma curtosis de Fisher 4 4 Curtosis. Indica el aplanamiento. 1 k 4 g ( ) 4 xi x fi S i1 < 0 platicúrtica (aplanada) = 0 mesocúrtica > 0 leptocúrtica (apuntada) Parámetros y estadísticos Centralización. media, mediana, moda Posición. cuantil, cuartil, percentil valores entorno a los que los datos parecen agruparse dividen la distribución en grupos con la misma cantidad de datos Dispersión. Indican la concentración de los datos entorno a valores centrales relativas, absolutas, referidas o no a promedios Forma. asimetría, curtosis 47