Estadística I Tema 2: Análisis de datos univariantes

Documentos relacionados
Tema 1: Análisis de datos univariantes

Tema 3: Estadística Descriptiva

FLORIDA Secundaria. 1º BACH MATEMÁTICAS CCSS -1- BLOQUE ESTADÍSTICA: ESTADÍSTICA VARIABLE UNIDIMENSIONAL. Estadística variable unidimensional

Estadística ESTADÍSTICA

Medidas de Tendencia central Medidas de Dispersión Medidas de Asimetría

Conceptos de Estadística

Apuntes de Estadística

ÁREAS DE LA ESTADÍSTICA

Estadística Descriptiva en SPSS

Estadística aplicada a la comunicación

1. Estadística. 2. Seleccionar el número de clases k, para agrupar los datos. Como sugerencia para elegir el k

PREGUNTAS TIPO EXAMEN- ESTADÍSTICA DESCRIPTIVA 2

ESTADÍSTICA APLICADA. TEMA 1. ESTADÍSTICA DESCRIPTIVA

ESTADÍSTICA. Rincón del Maestro:

OARI CLASE 19/05/2015. DESCRIPCIÓN CUANTITATIVA DE LOS DATOS. MEDIDAS RESUMEN

Módulo de Estadística

Estadística. Análisis de datos.

ESTADÍSTICA UNIDIMENSIONAL

TEMA 14 ESTADÍSTICA. Cuantitativa: si puede medirse y expresarse con números (es una variable), por ejemplo la talla de calzado.

U.D.1: Análisis estadístico de una variable Consideraciones iniciales: Propuesta: 1.1 Distribución de frecuencias. Variables Cualitativas: Ejemplo

Estadística Descriptiva

Curso de Estadística Aplicada a las Ciencias Sociales

Probabilidad y Estadística, EIC 311

x i = n = 35 5 =7 MEDIDAS DE CENTRALIZACIÓN Media aritmética: variables cuantitativas , x 2 Datos no agrupados: x 1 ,...,x n x= x 1 +x

Métodos Matemá-cos en la Ingeniería Tema 5. Estadís-ca descrip-va

Julio Deride Silva. 18 de agosto de 2010

ESTADÍSTICA DESCRIPTIVA

Un estudio estadístico consta de las siguientes fases: Recogida de datos. Organización y representación de datos. Análisis de datos.

Estadística I. Profesor de teoría: Profesores de práctica: Andrés M. Alonso

Tabla de frecuencias agrupando los datos Cuando hay muchos valores distintos, los agruparemos en intervalos (llamados clases) de la misma amplitud.

COLEGIO CALASANCIO. MADRID. ESTADÍSTICA UNIDIMENSIONAL. 4º E.S.O.

Bioestadística: Estadística Descriptiva

IMADIL /10/2014

Tema 2: Estadísticos. Bioestadística. U. Málaga. Tema 2: Estadísticos 1

Estadística Descriptiva 2da parte

El Método Científico. Metodología de Investigación. Te sifón Parrón

Estadística Inferencial. Estadística Descriptiva

Fundamentos de Estadística y Simulación Básica

Se quiere medir la dispersión de una muestra a través de su localización. En primer lugar, definimos una medida relacionada con la media.

Exploración de datos

UNIVERSIDAD AUTÓNOMA DEL ESTADO DE MÉXICO

Y accedemos al cuadro de diálogo Descriptivos

MEDIDAS DE TENDENCIA CENTRAL

EJERCICIOS TEMA 1. Clasifica los siguientes caracteres estadísticos según sean cualitativos, variables discretas o variables continuas:

ESTADÍSTICA. A su vez, las variables pueden ser :

1 POBLACIÓN Y MUESTRA

Tema 1: Estadística descriptiva. Probabilidad y Estadística (Ing. Informática). Tema 1: Estadística descriptiva 1

+ f 2. + f 3. p i. =h i 100. F i. = f i. H i. = h i. P i. = p i

Estadística. 1. Conceptos de Estadística. 2. Variable estadística. 3. Tablas de estadística. 4. Diagrama de barras y polígonos de frecuencias.

Dr. Richard Mercado Rivera 18 de agosto de 2012 Matemática Elemental

2º ESO UNIDAD 14 ESTADÍSTICA Y PROBABILIDAD

Dr. Abner A. Fonseca Livias

INTRODUCCIÓN AL ANÁLISIS DE DATOS ORIENTACIONES (TEMA 2)

Tema 2 Estadística Descriptiva

Estadística descriptiva y métodos diagnósticos

INGENIERO EN COMPUTACION TEMA 1.2: PRESENTACIÓN GRÁFICA DE DATOS

9.1. Nociones básicas.

Análisis de datos y gestión n veterinaria. Tema 1 Estadística descriptiva. Prof. Dr. José Manuel Perea Muñoz

Estadística Aplicada a la Educación

DESCRIPCIÓN DE DATOS. Medidas Numéricas

1 Resolución de algunos ejemplos y ejercicios del tema 1.

3 ANALISIS DESCRIPTIVO DE LOS DATOS

RELACIÒN ENTRE LOS PROMEDIOS

Clase 2. Tema 2. Medidas de posición

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua

TEMA IV PERCENTIL Y ESTADIGRAFOS DE POSICION

Tema 4. Herramientas de representación gráfica

2. DESCRIPCIÓN ESTADÍSTICA DE UNA VARIABLE. EJEMPLOS Y EJERCICIOS *.

Estadística Inga Patricia Juárez, 2017 MEDIDAS DE TENDENCIA CENTRAL

PROBABILIDAD. Unidad I Ordenamiento de la Información

Medidas descriptivas I. Medidas de tendencia central A. La moda

2.- Tablas de frecuencias

La estadística es una ciencia que demuestra que si mi vecino tiene

Una vez que tenga la información de la muestra ordenada, se pueden emitir conclusiones finales.

Apuntes y ejercicios de Estadística para 2º E.S.O

ESTADISTICA Y PROBABILIDAD ESTADÍSTICA

Análisis descriptivo y exploratorio de datos

COLEGIO INTERNACIONAL SEK ALBORÁN. Middle Years Programme [PROGRAMA DE AÑOS INTERMEDIOS] CURSO ACADÉMICO

2 Descripción estadística de una variable. Ejemplos y ejercicios.

II. ORGANIZACIÓN N Y PRESENTACIÓN N DE DATOS

Estadística para el análisis de los Mercados S2_A1.1_LECV1

Recopilación: Camerina Laura Ramírez G. ESTADÍSTICA. Recopilación: Camerina Laura Ramírez G.

Medidas de Tendencia Central.

ANÁLISIS DE DATOS UNIDIMENSIONALES

ESTADÍSTICA CON EXCEL

Estadística Descriptiva

Dispone de 1 hora para resolver las siguientes cuestiones planteadas.

CURSO VIRTUAL. Acceso a fuentes de información y manejo de redes sociales. Módulo 2

ESTADÍSTICA DESCRIPTIVA

Construcción de Gráficas en forma manual y con programados

La amplitud del intervalo ( ) se determina considerando un número dado de intervalos ( ) y el rango obtenido, esto es:

TEMA 1: ESTADISTICA DESCRIPTIVA

Ejemplos y ejercicios de. Estadística Descriptiva. yanálisis de Datos. 2 Descripción estadística de una variable. Ejemplos y ejercicios.

ESTADÍSTICA DESCRIPTIVA

GLOSARIO ESTADÍSTICO. Fuente: Murray R. Spiegel, Estadística, McGraw Hill.

Programa de Maestría en Investigación y Evaluación Educativa (INEVA) Departamento de Estudios Graduados Facultad de Educación

REPASO DE ESTADÍSTICA DESCRIPTIVA

ESTADÍSTICA EN RRLL - CURSO 2010 TURNO NOCTURNO

El ejemplo: Una encuesta de opinión

Fase 2. Estudio de mercado: ESTADÍSTICA

Transcripción:

Estadística I Tema 2: Análisis de datos univariantes

Tema 2: Análisis de datos univariantes Contenido 1. Representaciones y gráficos Tablas de frecuencias. Diagrama de barras, diagrama de sectores, histograma, poĺıgono de frecuencias, pictogramas. Otros gráficos y gráficos manipulados. 2. Medidas numéricas para describir: Tendencia central (media, mediana, moda) Posición (cuartiles, percentiles). Diagramas de cajas. Dispersión (varianza, desviación típica, cuasi-varianza, cuasi-desviación típica, rango, RIC, coeficiente de variación) Forma (coeficientes de asimetría y de curtosis)

Tema 2: Análisis de datos univariantes Lecturas recomendadas Peña, D., Romo, J. Introducción a la Estadística para las Ciencias Sociales (1997). Capítulos 2, 3, 4 y 5. Newbold, P. Estadística para Administración y Economía (2009). Capítulos 1 y 2

Descripción de variables cualitativas Muestra: 46 profesionales de una compañía informática en Estados Unidos. Variable: EDUC: formación académica (1=High School; 2=College; 3=Advanced Degree) Variable: MGT: desempeño de un cargo de responsabilidad (1=si; 0=no) Para obtener información: Cómo resumir los datos primarios en una forma más útil que permita una interpretación visual rápida?

Descripción de variables cualitativas: tabla de frecuencias y diagrama de barras Formación Académica Número Empleados Proporción empleados High School 14 0.304 College 19 0.413 Advanced Degree 13 0.283 Total 46 1

Descripción de variables cualitativas: formato general de la tabla Nota: Frec. Frec. Clase, c i Absol., n i Relat., f i c 1 n 1 f 1 = n1 n c 2 n 2 f 2 = n2 n... c k n k f k = n k n Total n 1 n i = número de c i en la muestra, f i = n i n 0 f i 1

Descripción de variables cualitativas: formato general diagrama de barras Las barras tienen la misma amplitud y son equidistantes, con alturas correspondientes a las frecuencias (absolutas). Existen huecos entre las barras. Las barras están etiquetadas con los nombres de las clases.

Otros gráficos para datos cualitativos: diagrama de sectores Cada sector es una fracción del total del círculo. Los sectores están etiquetados con los nombres de las clases. Muchos programas ordenan las clases en orden alfabético. Aunque es vistoso, es más complejo de interpretar que el diagrama de barras. Evitar los diagramas de sectores en 3D, ya que los sectores traseros tienden a parecer menores que los sectores delanteros.

Diagrama de sectores: ejemplo Tabla dinámica Muestra: 568 primeros episodios de Los Simpsons Variable: miembro de la familia que protagoniza (dice más palabras) un episodio Nota: Se puede obtener el gráfico sin obtener antes la tabla de frecuencias. Consultar el Material Complementario: uso de Excel

Otros gráficos para datos cualitativos: diagrama de Pareto Diagrama de barras en el que la ordenación de las categorías de la variable se hace por orden de frecuencias. Sólo es válido para variables cualitativas no ordinales. Para detectar las motivos más significativos (unos pocos productos acaparan casi toda la frecuencia de compras) Principio de Pareto (regla del 80 %-20 %) Basándose en el conocimiento empírico Pareto (en 1896) enunció que la sociedad se dividía en dos grupos proporcionales 80-20, los pocos de mucho y los muchos de poco : Un grupo minoritario formado por un 20 % de la población que ostenta el 80 % de algo. Un grupo mayoritario formado por un 80 % de la población que ostenta el 20 % de algo.

Diagrama de Pareto: ejemplo Visitar la colección del Museo 16,6 Visitar o estar la cafetería del Museo 7,7 Muestra: De entre 1100 visitantes de la exposición Turner y los Visitar la tienda del Museo 28,1 Maestros (Mueseo del Prado, 22 de junio a 19 de septiembre de Estar o visitar otros espacios del Museo que no tienen 33,0 2010), colección aquellos que adquirieron su entrada por via telemática (un 20.3 %) Esperar Fuente: el exterior Instituto del Museo de Estudios Turísticos 27,5 Variable: Razón principal para adquirir su entrada por via telemática % Tabla 9. Visitantes por la razón principal para adquirir la entrada por vía telemática Filtro: Adquiere la entrada por vía telemática % Por comodidad 60,5 Rapidez 10,1 Puedo elegir el día y la hora de la visita 14,0 No tengo que esperar en taquilla 9,5 Porque la entrada es más barata 4,3 Por el horario 24 horas 1,2 Había oído hablar bien del servicio 0,4 Total 100,0

Diagrama de Pareto: ejemplo

Gráficos para datos cualitativos: pictogramas Muestra: 70 estudiantes universitarios madrileños Variable: Partido poĺıtico preferido Partido preferido Núm. Estudiantes Prop. Estudiantes PSOE 23 0.33 PP 15 0.21 Unidos Podemos 20 0.29 Ciudadanos 7 0.10 Otros 5 0.07 Total 70 1 El área del gráfico es proporcional a la frecuencia.

Ejercicio Resultados de una encuesta realizada a jóvenes de entre 15 y 20 años acerca de su actividad favorita en su tiempo de ocio Cuál es la variable de interés y cuáles son los individuos? Para qué porcentaje de jóvenes es la lectura su actividad de ocio favorita?

Ejercicio De un examen realizado a un grupo de alumnos, cuyas notas se han evaluado del 1 al 8, se ha obtenido la siguiente tabla: Nota, c i n i f i 1 4 0.08 2 4 3 0.16 4 7 0.14 5 5 6 10 7 7 0.14 8 Cuántos alumnos se han examinado? Qué porcentaje de alumnos ha sacado una nota igual o mayor a 6?

Ejercicio En una encuesta sobre hábitos de salud se les pregunta a 30 alumnos de la universidad, seleccionados al azar, sobre el deporte que practican habitualmente. Los resultados se muestran en la siguiente tabla: Deporte, c i n i f i Baloncesto 12 0.4 Natación 3 0.1 Fútbol 9 0.3 Ningún deporte 6 0.2 Total 30 1 Cuál de los siguientes diagramas de barras correspondería a estos datos?

Ejercicio Estadística Aplicada a) c) Deporte Deporte 14 14 12 10 12 10 8 8 6 6 4 2 4 2 0 Baloncesto Natación Fútbol Ningún deporte 0 Baloncesto Natación Fútbol Ningún deporte b) d) Deporte Deporte 14 12 14 12 10 8 10 8 6 4 6 4 2 0 Baloncesto Natación Fútbol Ningún deporte 2 0 Baloncesto Natación Fútbol Ningún deporte

Descripción de variables cuantitativas discretas: tabla de frecuencias Muestra: selección de 100 centros comerciales en los que se lanza una promoción de un cierto servicio durante noviembre de 2017. Variable: número de nuevos clientes del servicio captados con la promoción. Frecuencia Frecuencia Frecuencia Frecuencia Absoluta Relativa c i Absoluta n i Relativa f i Acumulada N i Acumulada F i 0 1 0,01 1 0,01 1 4 0,04 5 0,05 2 7 0,07 12 0,12 3 8 0,08 20 0,2 4 8 0,08 28 0,28 5 16 0,16 44 0,44 6 18 0,18 62 0,62 7 14 0,14 76 0,76 8 10 0,1 86 0,86 9 11 0,11 97 0,97 10 3 0,03 100 1 Total 100 1

Descripción de variables cuantitativas discretas: tabla de frecuencias En cuántos centros comerciales se captaron sólo 5 nuevos clientes? En qué porcentaje de los centros comerciales se captaron al menos 3 nuevos clientes? En cuántos centros comerciales se captaron menos de 6 clientes? En qué porcentaje de los centros comerciales se captaron entre 4 y 8 nuevos clientes? En qué porcentaje de los centros comerciales se captaron a lo sumo 7 clientes?

Gráficos para datos cuantitativos discretos: diagrama de barras Los diagramas de barras pueden construirse también para datos discretos si no existen demasiados valores diferentes.

Descripción de variables cuantitativas discretas: formato general de la tabla Nota: Frec. Frec. Frec. Frec. Absol. Relat. Clase, c i Absol., n i Relat., f i Acumul., N i Acumul., F i c 1 n 1 f 1 = n1 n N 1 = n 1 F 1 = f 1 c 2 n 2 f 2 = n2 n N 2 = N 1 + n 2 F 2 = F 1 + f 2..... c k n k f k = n k n N k = n F k = 1 Total n 1 c 1 < c 2 < < c k n i = número de c i en la muestra, f i = n i n N i = N i 1 + n i, F i = F i 1 + f i 0 f i, F i 1 F i y N i también tiene sentido para variables categóricas ordinales

Tablas y gráficos para datos cualitativos ordinales Muestra: selección de 901 empleados. Variable: niveles de satisfacción en el trabajo. Frecuencia Frecuencia Frecuencia Frecuencia Absoluta Relativa Clase Absoluta Relativa Acumulada Acumulada MI 62 0.07 62 0.07 I 108 0.12 170 0.19 S 319 0.35 489 0.54 MS 412 0.46 901 1 Total 901 1

Tablas y gráficos para datos cualitativos ordinales Atención! Muchos programas ordenan las clases en orden alfabético cuando la variable es categórica. Si es ordinal se debe ordenar de forma ascendente.

Diagrama de barras para datos discretos Muestra: 46 profesionales de una compañía informática en Estados Unidos. variable: EXPRNC: años completos trabajados en la compañía Experiencia, c i Frec. absolutas, n i Frec. relativas, f i 1 5 0,109 2 4 0,087 3 4 0,087 4 4 0,087 5 3 0,065 6 4 0,087 7 1 0,022 8 4 0,087 10 4 0,087 11 2 0,043 12 2 0,043 13 2 0,043 14 1 0,022 15 1 0,022 16 3 0,065 17 1 0,022 20 1 0,022 Total 46 1

Tabla de frecuencias y diagrama de barras para variables cuantitativas discretas Demasiados valores diferentes.

Descripción de variables cuantitativas continuas Muestra: 46 profesionales de una compañía informática en Estados Unidos. Variable: EXPRNC: años de experiencia Variable: SALARY: retribuciones brutas anuales (en dólares USA)

Agrupación en intervalos de clase: datos continuos (o discretos) Nota: Intervalo Marca de clase (centro) n i f i N i F i [l 0, l 1 ] c 1 = l0+l1 2 n 1 f 1 N 1 F 1 (l 1, l 2 ] c 2 = l1+l2 2 n 2 f 2 N 2 F 2...... (l k 1, l k ] c k = l k 1+l k 2 n k f k n 1 Total n 1 En Excel se excluye el extremo izquierdo, pero se incluye el extremo derecho (es una convención). Es posible aplicar la convención en sentido opuesto - verifica su definición en el software que vayas a emplear. Útil para tabular datos discretos si X toma muchos valores diferentes.

Agrupación en intervalos de clase Muy frecuentemente los intervalos tomados como clases poseen la misma amplitud. Determinar la amplitud a para cada intervalo mediante a = número mayor - número menor número de intervalos deseados Cuántos intervalos? Aproximadamente entre 5 y 20. Probando (experiencia y práctica) Los intervalos nunca se solapan. Tamaño muestral Número de clases Menos de 50 5 7 50 a 100 7 8 101 a 500 8 10 501 a 1000 10 11 1001 a 5000 11 14 Más de 5000 14 20 Tomado de Newbold Redondea la amplitud del intervalo para obtener los extremos de los intervalos deseados.

Agrupación en intervalos de clase: histograma y poĺıgono de frecuencias Se obtiene el rango (máximo mínimo): 20 1 = 19 Se calcula el número de intervalos: 46 50 7 Se calcula la amplitud de los intervalos: 19/7 = 2.71 3. Se determinan los extremos (empezando antes del primer dato y terminando después del último): [0, 3], (3, 6],..., (18, 21]

Descripción de variables cuantitativas continuas: histograma y poĺıgono de frecuencias No hay huecos entre las barras/cajas. Amplitud de cajas amplitud de intervalos (idénticos) y los ĺımites de las clases se marcan en el eje horizontal. Alturas de cajas frecuencias (aquí, absoluta). Las áreas de cajas son proporcionales a las frecuencias.

Variables cuantitativas continuas: histograma

Descripción de variables cuantitativas continuas: histograma y poĺıgono de frecuencias

Otros gráficos: cartogramas (INE, Encuesta de Turismo de residentes) Gasto medio en viajes por persona durante el tercer trimestre de 2016 Gasto medio en excursiones por persona durante el tercer trimestre de 2016

Otros gráficos: pictogramas

Otros gráficos: datos temporales Fuente: INE, Encuesta de Población Activa

Manipulando con los gráficos Engañando con los pictogramas. El siguiente gráfico fue publicado en La Voz de Galicia del 24 de octubre de 2010. Haciendo que la altura es proporcional a la frecuencia da una impresión falsa. Hay algo más que os parece mal?

Manipulando con los gráficos Mala utilización de las escalas: el origen de los gráficos no está en el 0

Manipulando con los gráficos

Manipulando con los gráficos La escala está al revés

Manipulando con la Estadística How to lie with Statistics? By Durrell Huff, pictures by Irving Geis. Consultar online: https://archive.org/details/howtoliewithstatistics

Descripción numérica de datos: medidas descriptivas Centro Posición Variación Forma media cuartiles rango coef. asimetría mediana percentiles rango intercuartílico coef. curtosis moda varianza desviación típica coef. de variación

Descripción numérica de datos: medidas descriptivas Para qué sirven?, qué información proporcionan? Se pueden calcular todas con todo tipo de variables? Cuáles son las más adecuadas en cada caso? Cómo calcularlas sin ordenador? Uso de la calculadora

Medidas de tendencia central La media (aritmética) La mediana La moda

Tendencia central: la media (aritmética) Media (aritmética) Es el promedio de todos los datos de la muestra: n i=1 x = x i n = x 1 +... + x n n Es la medida de tendencia central más usada. Representa el centro de gravedad de los datos Se calcula sólo para variables cuantitativas Su cálculo expĺıcito depende de cómo se presenten los datos x 1, x 2,..., x n

La media: ejemplo Para el ejemplo de los 46 profesionales informáticos, cuál es su experiencia media? x = 1 + 1 + 1 + 1 + 1 + 2 + 2 + 2 + 2 + + 17 + 20 46 En Excel: función PROMEDIO(número1;[número 2];...) = 7.5 años

La media: ejemplo Cómo la calcularías a través de las tablas de frecuencias absolutas?, y de las relativas?

La media con datos agrupados Se trabaja con las marcas de clase. En el ejemplo de los 46 profesionales informáticos, cuál es su salario medio? Nota: salario medio a través de los datos brutos x = 17250.413

La media: propiedades Linealidad: Si Y = a + bx ȳ = a + b x. Si Z = X + Y z = x + ȳ Si el salario de los 46 profesionales se incrementa en un 2 %, Cómo cambia el salario medio? Si después de ese incremento se reduce en 100 dólares, Cómo queda ahora? Si se complementa el salario con un extra por productividad recogido en la variable Y, con valor medio ȳ, Cómo obtienes el nuevo salario medio? Inconvenientes: es muy sensible a valores extremos (observaciones atípicas, outliers). Ejemplo: X : 3, 1, 5, 4, 2, Y : 3, 1, 50, 4, 2 x = 3 + 1 + 5 + 4 + 2 5 = 3 ȳ = 3 + 1 + 50 + 4 + 2 5 No es recomendable usarla como medida central en datos muy asimétricos. = 12

Tendencia central: la mediana Es la observación que ocupa el lugar central 1 1 1 3 3 5 5 7 8 8 9 1. Ordenamos los datos de menor a mayor 2. Tenemos en cuenta también los que se repiten 3. Seleccionamos el valor que ocupa la posición central 1 1 1 3 3 5 5 7 8 8 M = 3 + 5 2 Mediana Lista ordenada de menor a mayor: x (1), x (2),..., x (n) si n impar M = x ((n+1)/2) x (n/2) +x (n/2+1) 2 si n par En Excel: función MEDIANA(número1;[número2];...) = 4

La mediana: cálculo a través de la tabla de frecuencias Experiencia, c i n i f i N i F i 1 5 0,109 5 0,109 2 4 0,087 9 0,196 3 4 0,087 13 0,283 4 4 0,087 17 0,370 5 3 0,065 20 0, 435 < 0.5 M=6 4 0,087 24 0, 522 > 0.5 7 1 0,022 25 0,543 8 4 0,087 29 0,630 9 0 0 29 0,630 10 4 0,087 33 0,717 11 2 0,043 35 0,761 12 2 0,043 37 0,804 13 2 0,043 39 0,848 14 1 0,022 40 0,870 15 1 0,022 41 0,891 16 3 0,065 44 0,957 17 1 0,022 45 0,978 18 0 0 45 0,978 10 0 0 45 0,978 20 1 0,022 46 1,000

La mediana: propiedades Linealidad: Si Y = a + bx con b > 0 M y = a + bm x Si el salario de los 46 profesionales se incrementa en un 2 %, Cómo cambia el salario mediano? Si después de ese incremento se reduce en 100 dólares, Cómo queda ahora? Tiene sentido preguntarse por la Mediana de la formación académica? y de la variable nominal haber desempeñado o no un cargo de responsabilidad? Ventaja: No es sensible a valores extremos. Ejemplo: X : 3, 1, 5, 4, 2, Y : 3, 1, 50, 4, 2 M x = 3 M y = 3 Es recomendable usar la Mediana como medida central en datos muy asimétricos.

La media y la mediana de datos muy asimétricos Salario bruto anual en 2014, Encuesta de Estructura Salarial 2014, I.N.E. La diferencia entre el salario medio y el mediano se explica porque en el cálculo del valor medio influyen notablemente los salarios muy altos aunque se refieran a pocos trabajadores. (En la Nota de Prensa del INE de 28 de octubre de 2016)

Tendencia central: la moda Es el valor más frecuente En el ejemplo, la moda de la experiencia es 1 año, con una frecuencia de 5 empleados Los valores 2,3,4,8 y 10 tienen una frecuncia de 4 empleados

Tendencia central: la moda Tiene sentido preguntarse por la moda del salario? intervalo modal

La moda: propiedades Puede calcularse para variables cualitativas y cuantitativas. La única que tiene sentido para cualitativas nominales. No afectada por valores extremos. Puede no haber moda. Puede haber más de una moda: bimodal trimodal plurimodal Qué nos puede estar indicando?

Distribución bimodal Tiempo (en minutos) en completar un maratón. Datos tomados de un maratón popular 160 Tiempo en correr un maratón: histograma 140 120 100 80 60 40 20 0 133 140 150 160 170 180 190 200 210 220 230 238 Qué crees que está pasando? Podrías aventurar qué tipo de corredores componen el grupo en verde y el grupo en azul? Ocurriría lo mismo si los datos fueran del maratón de unos Juegos Olímpicos?

Medidas de localización Los cuartiles Los percentiles

Medidas de localización: cuartiles y percentiles Los cuartiles dividen los datos ordenados en cuatro segmentos que recogen la misma cantidad de observaciones. Los percentiles dividen los datos ordenados en cien segmentos que recogen la misma cantidad de observaciones. 1. Ordenamos los datos de menor a mayor 2. Tenemos en cuenta también los que se repiten 3. Seleccionamos el valor que ocupa la posición: El primer cuartil Q1 ocupa la posición 1 (n + 1). 4 El segundo cuartil Q2 (= mediana) ocupa la posición 1 (n + 1). 2 El tercer cuartil Q3 ocupa la posición 3 (n + 1). 4 El percentil k-ésimo Pk, ocupa la posición k 100 (n + 1), k = 1, 2,..., 99, y deja el k % de los datos por debajo de él y el (100 k) % por encima.

Cuartiles y percentiles en Excel Nota: Lo más habitual es que las fracciones 1 4 (n + 1), 3 4 (n + 1) y k 100 (n + 1) no den valores enteros para obtener la posición (entera) a la que corresponden se tiene que fijar un criterio de redondeo. En Excel, las funciones son: CUARTIL.INC(matriz;cuartil), con: 1=primer cuartil, 2=mediana, 3=tercer cuartil PERCENTIL.INC(matriz;p), con: p = k 100 (0, 1), percentil k-ésimo

Medidas de variación El rango y el rango intercuartílico La varianza y la desviación típica El coeficiente de variación

Variación: rango y rango intercuartílico (RIC) El rango es la medida de variación más simple R = x máx x mín Ignora la manera en que se distribuyen los datos. Sensible a observaciones atípicas (outliers). Ejemplo: Dadas las observaciones 3, 1, 5, 4, 2, R = 5 1 = 4 Ejemplo: Dadas las observaciones 3, 1, 5, 4, 100, R = 100 1 = 99 El rango intercuartílico (RIC) puede eliminar ciertos problemas provocados por los datos atípicos. Se eliminan las observaciones de mayor valor y las de menor valor y se calcula el rango del 50 % central de la muestra. RIC = 3er cuartil 1er cuartil = Q 3 Q 1

Variación: rango intercuartílico y diagrama de cajas Las observaciones atípicas (outliers) se encuentran por debajo de Q1 1.5 RIC por encima de Q3 + 1.5 RIC Para observaciones atípicas (outliers) extremos, reemplazar 1.5 por 3 en la definición anterior MEDIANA x min Q 1 (Q 2) Q 3 x max 25% 25% 25% 25% 12 24 31 42 58 RI=18

Diagrama de Cajas Box-Plot Muestra cinco medidas de centralización. Muestra una medida robusta de dispersión. Permite estudiar la simetría de los datos. Da un criterio de detección de datos atípicos. Es muy útil para comparar datos Variante: cuando se presentan varios Box-Plot, se puede hacer el ancho de la caja proprocional al número de observaciones.

Homery sus enemigos Homer Simpson tiene dos enemigos principales: Flanders y Mr Burns: En los episodios en los que salen ambos o alguno de los dos Cómo se distribuye la importancia de Homer?

Homery sus enemigos Empleando la variable de filtro creada en el Ejercicio 5 (Ejercicios Tema 1) 1) Crear 4 variables con los valores de Homer para cada uno de los casos: Homer&Burns, Homer&Flanders,Homer&Both,Homer&None 2) Seleccionar todos los datos e insertar un Diagrama de Cajas y Bigotes

Medidas de variación: varianza Promedio de cuadrados de las desviaciones de valores a la media. Varianza muestral n ˆσ 2 i=1 = (x i x) 2 n más rápido de calcular { }}{ n i=1 = x i 2 n( x) 2 n dividido por n Cuasi-varianza muestral (varianza muestral corregida) n s 2 i=1 = (x i x) 2 n 1 Su relación es = n i=1 x 2 i n( x) 2 n 1 ˆσ 2 = n 1 n s2 dividido por n 1 Si a, b son números reales e Y = a + bx, se tiene s 2 y = b 2 s 2 x

Medidas de variación: desviación típica o estándar (DT) La medida de dispersión más utilizada. La desviación típica muestral y la cuasi-desviación típica muestral son respectivamente ˆσ = ˆσ 2 s = s 2 Describe la variación sobre la media. Posee las misma unidades que los datos, mientras que para la varianza se tienen unidades 2 Tanto la varianza como DT pueden verse afectadas por la presencia de observaciones atípicas.

Cálculo de la varianza y la desviación típica Ejemplo: X : 11, 12, 13, 16, 16, 17, 18, 21, Y : 14, 15, 15, 15, 16, 16, 16, 17, Z : 11, 11, 11, 12, 19, 20, 20, 20 x = 124 8 = 15.5 ȳ = 124 8 = 15.5 z = 124 8 = 15.5 n i=1 n i=1 n i=1 x 2 i = 11 2 + 12 2 +... + 21 2 = 2000 y 2 i = 14 2 + 15 2 +... + 17 2 = 1928 z 2 i = 11 2 + 11 2 +... + 20 2 = 2068 n sx 2 i=1 = x i 2 n( x) 2 2000 8(15.5)2 = = 78 = 11.1429 sx = 3.3381 n 1 8 1 7 sy 2 1928 8(15.5)2 = = 6 = 0.8571 sy = 0.9258 8 1 7 sz 2 2068 8(15.5)2 = = 146 = 20.8571 sz = 4.5670 8 1 7

Cálculo de la varianza y la desviación típica con Excel

Comparación de desviaciones típicas Ejemplo cont.: X : 11, 12, 13, 16, 16, 17, 18, 21, Y : 14, 15, 15, 15, 16, 16, 16, 17, Z : 11, 11, 11, 12, 19, 20, 20, 20 x = 15.5 s x = 3.3 11 12 13 14 15 16 17 18 19 20 21 y = 15.5 s y = 0.9 11 12 13 14 15 16 17 18 19 20 21 z = 15.5 s z = 4.6 11 12 13 14 15 16 17 18 19 20 21

Medidas de variación: coeficiente de variación (CV) Es una medida relativa de variación que se define como CV = s x Es una medida adimensional (sin unidades). Suele expresarse en %. Muestra la variación con respecto a la media. Se utiliza para comparar la dispersión entre distintas variables, o bien entre diferentes grupos de individuos. Ejemplo: Variabilidad en el precio del año anterior de dos Stocks Stock A: Precio promedio el año anterior = 50, Desviación típica = 5 Stock B: Precio promedio el año anterior = 100, Desviación típica = 5 CV A = 5 50 = 0.10 CV B = 5 100 = 0.05 Ambos stocks poseen la misma DT, pero el stock B es menos variable en relación a la media de su precio.

Puntaciones tipificadas. En que ODS lo está haciendo mejor España? ODS 4: Educación de calidad, Spain: 88,9 ODS 5: Igualdad de género, Spain: 80,6 ODS8: Trabajo decente y crecimiento económico, Spain: 80,9 ODS 12: Producción y consumo responsables, Spain: 60,8 ODS16: Paz, justicia e instituciones solidarias, Spain: 69,5 Medidas Resumen SDG 4 SDG5 SDG8 SDG12 SDG16 Media 72,3411911 59,8682135 61,9165165 68,9414671 63,3261936 Error típico 1,8162398 1,31663947 1,45068384 0,99827484 1,01989315 Mediana 80,2378311 63,8331375 61,8484726 73,0971451 63,0161781 Moda #N/A #N/A #N/A #N/A #N/A Desviación estándar 22,7574195 16,4974452 18,1770164 12,5083478 12,7792246 Varianza de la muestra 517,900142 272,165699 330,403924 156,458766 163,308581 Curtosis 0,80070785-0,47804046-1,0086797 0,64222018-0,3081343 Coeficiente de asimetría -1,22872549-0,49130289-0,10955689-1,05249387 0,21842549 Rango 95,9346478 78,4421329 78,7104588 69,2612934 61,1629505 Mínimo 3,90777469 14,1622066 17,0483456 24,3055172 31,2056255 Máximo 99,8424225 92,6043396 95,7588043 93,5668106 92,368576 Suma 11357,567 9399,30952 9720,89308 10823,8103 9942,21239 Cuenta 157 157 157 157 157

Puntuaciones tipificadas. Tipificar una variable X significa calcular X x s Si se aplica esta transformación a todas las observaciones x 1,..., x n, se obtienen las puntuaciones tipificadas z 1,..., z n, donde cada z i = (x i x)/s, para i = 1,..., n. La muestra tipificada tiene media cero y desviación típica uno.

Puntaciones tipificadas. En que ODS lo está haciendo mejor España? Medidas Resumen SDG 4 SDG5 SDG8 SDG12 SDG16 Media 72,3411911 59,8682135 61,9165165 68,9414671 63,3261936 Error típico 1,8162398 1,31663947 1,45068384 0,99827484 1,01989315 Mediana 80,2378311 63,8331375 61,8484726 73,0971451 63,0161781 Moda #N/A #N/A #N/A #N/A #N/A Desviación estándar 22,7574195 16,4974452 18,1770164 12,5083478 12,7792246 Varianza de la muestra 517,900142 272,165699 330,403924 156,458766 163,308581 Curtosis 0,80070785-0,47804046-1,0086797 0,64222018-0,3081343 Coeficiente de asimetría -1,22872549-0,49130289-0,10955689-1,05249387 0,21842549 Rango 95,9346478 78,4421329 78,7104588 69,2612934 61,1629505 Mínimo 3,90777469 14,1622066 17,0483456 24,3055172 31,2056255 Máximo 99,8424225 92,6043396 95,7588043 93,5668106 92,368576 Suma 11357,567 9399,30952 9720,89308 10823,8103 9942,21239 Cuenta 157 157 157 157 157 Spain 88,9 80,6 80,9 60,8 69,5 Con respecto a la media 16,5588089 20,7317865 18,9834835-8,14146713 6,17380644 Incorporando variabilidad 0,72762243 1,25666648 1,04436741-0,65088269 0,48311276

Medidas de forma Coeficiente de asimetría de Fisher Coeficiente de curtosis de Fisher Regla empírica

Medidas de Forma: Asimetría OJO!!: No tomar una decisión comparando sólo el valor de Media, Mediana y Moda. Coeficiente de Asimetría de Fisher: γ 1 = 1 n ( ) 3 xi x n s En Excel: COEFICIENTE.ASIMETRIA(nombre1;[nombre2];...) n n ( ) 3 xi x (n 1)(n 2) s i=1 i=1

Medidas de forma: asimetría Función en Excel

Medidas de forma: curtosis Coeficiente de Curtosis n ( ) 4 xi x 3 γ 2 = 1 n En Excel: CURTOSIS(nombre1;[nombre2];...) n(n + 1) n ( ) 4 xi x (n 1) 2 3 (n 1)(n 2)(n 3) s (n 2)(n 3) i=1 i=1 s

Medidas de forma: asimetría y curtosis Excel function

Análisis de Datos en Excel: Estadística descriptiva [OECD-only] Average PISA score across Maths/Reading/Science(0-600) Media 491,9848408 Error típico 4,407032995 Mediana 496,9519786 Moda #N/A Desviación estándar 26,0723588 Varianza de la muestra 679,7678935 Curtosis 1,905272727 Coeficiente de asimetría -1,319879232 Rango 113,2610878 Mínimo 415,6699466 Máximo 528,9310344 Suma 17219,46943 Cuenta 35 FRECUENCIA 18 16 14 12 10 8 6 4 2 0 [OECD-only] Average PISA score across Maths/Reading/Science(0-600) 406,00 425,00 444,00 463,00 482,00 501,00 520,00 539,00 Spain: 491,4 MARCAS DE CLASE Fuente: SDG Index & Dashboards Report 2017, http://www.sdgindex.org/

Regla empírica Si la distribución de los datos es acampanada (normal), es decir, simétrica y con colas suaves, se verifica: 68 % de los datos en ( x 1s, x + 1s) 95 % de los datos en ( x 2s, x + 2s) 99.7 % de los datos en ( x 3s, x + 3s) Nota: Esta regla se conoce también como la regla del 68-95-99.7 Ejemplo: Sabemos que para una muestra de 100 observaciones, la media es 40 y la cuasi-desviación típica es 5. Suponiendo que los datos tienen una distribución acampanada, cuáles son los extremos del intervalo que contiene el 95 % de las observaciones? 95 % de x i s están en: ( x ± 2s) = (40 ± 2(5)) = (30, 50)