Exploración de datos

Documentos relacionados
FLORIDA Secundaria. 1º BACH MATEMÁTICAS CCSS -1- BLOQUE ESTADÍSTICA: ESTADÍSTICA VARIABLE UNIDIMENSIONAL. Estadística variable unidimensional

Estadística Inferencial. Estadística Descriptiva

Curso de Estadística Aplicada a las Ciencias Sociales

Módulo de Estadística

PREGUNTAS TIPO EXAMEN- ESTADÍSTICA DESCRIPTIVA 2

ESTADÍSTICA UNIDIMENSIONAL

Fundamentos de Estadística y Simulación Básica

Estadística Descriptiva

Tema 2: Estadísticos. Bioestadística. U. Málaga. Tema 2: Estadísticos 1

ESTADÍSTICA APLICADA. TEMA 1. ESTADÍSTICA DESCRIPTIVA

Métodos Matemá-cos en la Ingeniería Tema 5. Estadís-ca descrip-va

Un estudio estadístico consta de las siguientes fases: Recogida de datos. Organización y representación de datos. Análisis de datos.

U.D.1: Análisis estadístico de una variable Consideraciones iniciales: Propuesta: 1.1 Distribución de frecuencias. Variables Cualitativas: Ejemplo

Estadística. Análisis de datos.

Bioestadística: Estadística Descriptiva

Y accedemos al cuadro de diálogo Descriptivos

MEDIDAS DE RESUMEN: MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN. Lic. Esperanza García Cribilleros

Tabla de frecuencias agrupando los datos Cuando hay muchos valores distintos, los agruparemos en intervalos (llamados clases) de la misma amplitud.

Dr. Richard Mercado Rivera 18 de agosto de 2012 Matemática Elemental

Hoja 6: Estadística descriptiva

Ejemplos y ejercicios de. Estadística Descriptiva. yanálisis de Datos. 2 Descripción estadística de una variable. Ejemplos y ejercicios.

GLOSARIO ESTADÍSTICO. Fuente: Murray R. Spiegel, Estadística, McGraw Hill.

2 Pasos en un estudio estadístico.

Los estadísticos descriptivos clásicos (Robustez)

REPASO DE ESTADÍSTICA DESCRIPTIVA

Procedimiento "Explorar..."

ESTADÍSTICA DESCRIPTIVA

Estadística para el análisis de los Mercados S2_A1.1_LECV1

Apuntes y ejercicios de Estadística para 2º E.S.O

Medidas de variabilidad (dispersión)

EJERCICIOS TEMA 1. Clasifica los siguientes caracteres estadísticos según sean cualitativos, variables discretas o variables continuas:

Clase 2: Estadística

Universidad Nacional de Mar del Plata. Facultad de Ingeniería. Estadística Básica COMISIÓN 1. 1 Cuatrimestre 2016

Clase 2: Estadística

Estadística: conceptos básicos y definiciones.

ANÁLISIS EXPLORATORIO DE DATOS ESPACIALES ESTADÍSTICA ESPACIAL

Unidad 1. Obtención, Medición y Representación de Datos. Estadística E.S.O.

ESTADISTICA Y PROBABILIDAD ESTADÍSTICA

Medidas de Posición n y. Boxplot Lección n 11 Secc Prof. Pedro A. Torres ESMA febrero de Prof. Pedro A. Torres, ESMA 3015 UPRM

Dispone de 1 hora para resolver las siguientes cuestiones planteadas.

Datos cuantitativos. Método tabular

(Se corresponde con el tema 14 del libro de Oxford de 4ºESO Opc. B)

Construcción de Gráficas en forma manual y con programados

ESTADÍSTICA DESCRIPTIVA

UNIVERSIDAD AUTONOMA DE SANTO DOMINGO

Julio Deride Silva. 27 de agosto de 2010

Tema 6. Variables aleatorias continuas

Estadística Descriptiva de una variable con STATGRAPHICS

Repaso Estadística Descriptiva

Fase 2. Estudio de mercado: ESTADÍSTICA

ANÁLISIS DESCRIPTIVO DE LOS DATOS DE VARIABLES CUANTITATIVAS

Unidad Temática 1 Estadística descriptiva y análisis de datos

Estadística Descriptiva Métodos descriptivos visuales y medidas resumen

NOCIONES DE ESTADÍSTICA CURSO PRÁCTICO DE CLIMATOLOGÍA 2012

Distribuciones de Frecuencia

Tema 2 Estadística Descriptiva

Tema 1. Tabulación y representación gráfica de los datos

UNIDAD: ESTADISTICA. La estadística se ocupa de recopilar datos, organizarlos en tablas y gráficos y analizarlos con un determinado objetivo.

NOCIONES DE ESTADÍSTICA CURSO PRÁCTICO DE CLIMATOLOGÍA 2011

Curso de Estadística Básica

II. ORGANIZACIÓN N Y PRESENTACIÓN N DE DATOS

ESTADÍSTICA CON EXCEL

Tipos de gráficas y selección según los datos CIENCIA, TECNOLOGIA Y AMBIENTE

Histograma del puntaje de vocabulario y la aproximación por una curva gaussiana.

Estadística Descriptiva

Probabilidad y Estadística, EIC 311

Ejercicios de estadística.

MEDIDAS DE CENTRALIZACIÓN, POSICIÓN Y DISPERSIÓN. Matemáticas PAI 5 (4ºESO)

MÉTODOS CUANTITATIVOS. Freddy Higuera Departamento de Ingeniería Industrial Universidad Católica del Norte

2. DESCRIPCIÓN ESTADÍSTICA DE UNA VARIABLE. EJEMPLOS Y EJERCICIOS *.

ESTADÍSTICA. Individuo. Es cada uno de los elementos que forman la población o muestra.

UNIVERSIDAD DE PUERTO RICO RECINTO UNIVERSITARIO DE MAYAGUEZ DEPARTAMENTO DE MATEMATICAS PRIMER EXAMEN DE ESMA EDGAR ACUNA Stre. 97-I NOMBRE...

9.1. Nociones básicas.

DISEÑO Y ANÁLISIS DE DATOS EN PSICOLOGÍA I

I. Estadística Descriptiva de una variable

Departamento de Medicina Preventiva y Salud Publica e Historia de la Ciencia. Universidad Complutense de Madrid. SPSS para windows.

Transformaciones de variables

Estadística. Conceptos de Estadística. Un individuo o unidad estadística es cada uno de los elementos que componen la población.

Medidas de centralización

Universidad de Sonora Departamento de Matemáticas Área Económico Administrativa

ANÁLISIS DESCRIPTIVO CON SPSS

ORGANIZACIÓN Y REPRESENTACIÓN GRÁFICA DE LOS DATOS

2º ESO UNIDAD 14 ESTADÍSTICA Y PROBABILIDAD

Anexo 4. Herramientas Estadísticas

Sesión 3: Análisis Exploratorio de Datos Espaciales (AEDE): Técnicas básicas

En este caso la variable X es el n de hijos, es por tanto una variable discreta. Veamos todas las frecuencias.

ESTADÍSTICA DESCRIPTIVA Y PRESENTACIÓN DE RESULTADOS DE UNA INVESTIGACIÓN (PARTE I)

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua

Algunas nociones básicas sobre Estadística

Métodos de Investigación en Psicología (10) Dra. Lucy Reidl Martínez Dra. Corina Cuevas Reynaud Dra. Renata López Hernández

Formulario. Estadística Administrativa. Módulo 1. Introducción al análisis estadístico

Juan Carlos Colonia P. ORGANIZACIÓN Y DESCRIPCIÓN DE UN CONJUNTO DE DATOS

Estadística Descriptiva

Una población es el conjunto de todos los elementos a los que se somete a un estudio estadístico.

Libro de ejercicios de refuerzo de matemáticas. María de la Rosa Sánchez

ESTADÍSTICA SEMANA 2

COMPARACIÓN Y REPRESENTACIÓN DE DATOS

UNIDAD 12.- Estadística. Tablas y gráficos (tema12 del libro)

Medidas descriptivas I. Medidas de tendencia central A. La moda

TEMA 7.- REPASO DE ESTADÍSTICA UNIDIMENSIONAL

Transcripción:

Mathieu Departamento de Matemática Aplicada y Estadística Universidad Politécnica de Cartagena Cartagena, Enero 2010

Guión 1 Introducción 2 Unos cuantos términos 3 Tabulación y representaciones gráficas Gráficas para una variable cualitativa Gráficas para una variable cuantitativa 4 Medidas numéricas Medidas de centro Medidas de dispersión Un resumen gráfico: el diagrama de caja-bigotes

Guión 1 Introducción 2 Unos cuantos términos 3 Tabulación y representaciones gráficas Gráficas para una variable cualitativa Gráficas para una variable cuantitativa 4 Medidas numéricas Medidas de centro Medidas de dispersión Un resumen gráfico: el diagrama de caja-bigotes

La estadística utiliza datos para conseguir comprensión sobre un fenómeno. Combinación entre conocimientos previos y nuestro uso de gráficas y cálculos información. Grandes conjuntos de datos: más información disponible pero difícil de extraer Es fundamental un primer paso:

Guión 1 Introducción 2 Unos cuantos términos 3 Tabulación y representaciones gráficas Gráficas para una variable cualitativa Gráficas para una variable cuantitativa 4 Medidas numéricas Medidas de centro Medidas de dispersión Un resumen gráfico: el diagrama de caja-bigotes

Unos cuantos términos: Un conjunto de datos describe individuos. Éstos pueden ser personas o objetos. Asociados a un conjunto: variables. Distinguimos dos tipos de variables: variable cuantitativa: asocia un número a cada individuo. variable cualitativa: coloca a cada individua en una categoría Ejemplo de variables asociadas a la clase: peso, altura, sexo, edad, grupo sanguíneo. Un concepto fundamental: la distribución de una variable X en el conjunto. Establecemos la lista de los valores de X junto con su frecuencia. Frecuencia absoluta: número de veces que aparece Frecuencia relativa: proporción de veces que aparece.

Ejemplo Distribución del grupo sanguíneo en una clase: Grupo Frec. absoluta Frec. relativa A 51 51/145=0.35 B 19 0.13 O 5 0.03 AB 70 0.49

Guión 1 Introducción 2 Unos cuantos términos 3 Tabulación y representaciones gráficas Gráficas para una variable cualitativa Gráficas para una variable cuantitativa 4 Medidas numéricas Medidas de centro Medidas de dispersión Un resumen gráfico: el diagrama de caja-bigotes

Representaciones gráficas: una herramienta fundamental Para variable cualitativa: Diagrama de barras Diagrama de sectores Para variable cuantitiva: Diagrama de barras Histograma Gráfica de densidad

Gráficas para una variable cualitativa Grupo sanguíneo: diagrama de barras 0 20 40 60 80 Grupo Frec. absoluta Frec. relativa A 51 0.35 B 19 0.13 O 5 0.03 AB 70 0.49 AB A B O

Gráficas para una variable cualitativa Grupo sanguíneo: diagrama de sectores Grupo Frec. absoluta Frec. relativa A 51 0.35 B 19 0.13 O 5 0.03 AB 70 0.49 AB O B A

Gráficas para una variable cuantitativa Un primer ejemplo: mediciones de nitrato Mediciones del contenido en nitrato de una muestra de agua: Valor Frecuencia Valor Frecuencia 0.45 1 0.49 8 0.46 2 0.50 10 0.47 4 0.51 5 0.48 8 0.51 8 Valores distintos: 8, Número de datos: 46

Gráficas para una variable cuantitativa Mediciones de nitrato: diagrama de barras Valor Frec. Valor Frec. 0.45 1 0.49 8 0.46 2 0.50 10 0.47 4 0.51 5 0.48 8 0.51 8 Frecuencias 2 4 6 8 10 0.45 0.46 0.47 0.48 0.49 0.50 0.51 0.52 Mediciones de nitrato

Gráficas para una variable cuantitativa Ejemplo: mediciones de la velocidad de la luz Newcomb and Michelson consiguieron una estimación bastante precisa de la velocidad de la luz en... 1882 Midieron el tiempo que tarda la luz en recorrer una distancia de 7400m. En nanosegundos, tiempo 24800: 28, 26, 33, 24, 34, -44, 27, 16, 40, -2, 29, 22, 24, 21, 25, 30, 23, 29, 31, 19, 24, 20, 36, 32, 36, 28, 25, 21, 28, 29, 37, 25, 28, 26, 30, 32, 36, 26, 30, 22, 36, 23, 27, 27, 28, 27, 31, 27, 26, 33, 26, 32, 32, 24, 39, 28, 24, 25, 32, 25, 29, 27, 28, 29, 16, 23

Gráficas para una variable cuantitativa Dos preguntas Por qué repitieron tantas veces las mediciones? Qué hacer con estos datos? Cuál es el valor que damos como la velocidad de la luz?

Gráficas para una variable cuantitativa Tabla de frecuencias e histograma El conjunto presenta muchos valores distintos pero próximos agrupamos los datos en clases. Ordenamos los datos, dividimos el rango en clases, colocamos cada dato en su clase. Realizamos el recuento de las frecuencias de cada clase. Cuántas clases escoger Un problema sin solución perfecta Una regla muy usada: la regla de Sturges: 1 + log 2 (n) Recordar: n: número de datos, log 2 (n) = ln(n)/ ln(2)

Gráficas para una variable cuantitativa Mediciones de la velocidad de la luz: datos ordenados Pos. 1 2 3 4 5 6 7 8 9 10 11 12 13 Dato -44-2 16 16 19 20 21 21 22 22 23 23 23 Pos. 14 15 16 17 18 19 20 21 22 23 24 25 26 Dato 24 24 24 24 24 25 25 25 25 25 26 26 26 Pos. 27 28 29 30 31 32 33 34 35 36 37 38 39 Dato 26 26 27 27 27 27 27 27 28 28 28 28 28 Pos. 40 41 42 43 44 45 46 47 48 49 50 51 52 Dato 28 28 29 29 29 29 29 30 30 30 31 31 32 Pos. 53 54 55 56 57 58 59 60 61 62 63 64 65 Dato 32 32 32 32 33 33 34 36 36 36 36 37 39 Pos. 66 Dato 40

Gráficas para una variable cuantitativa Clases de amplitud 5 empezando en -45 y acabando en 40: Clase Frec. Clase Frec. Clase Frec. ] 45, 40] 1 ] 15, 10] 0 ]15, 20] 4 ] 40, 35] 0 ] 10, 5] 0 ]20, 25] 17 ] 35, 30] 0 ] 5, 0] 1 ]25, 30] 26 ] 30, 25] 0 ]0, 5] 0 ]30, 35] 10 ] 25, 20] 0 ]5, 10] 0 ]35, 40] 7 ] 20, 15] 0 ]10, 15] 0

Gráficas para una variable cuantitativa Completamos la tabla con las frecuencias acumuladas: Definición de frecuencia acumulada La frecuencia absoluta (relativa) acumulada de una clase es el número (proporción) de datos que pertenecen a esta clase o a alguna clase anterior.

Gráficas para una variable cuantitativa Clase Frecuencias Frec. Acumuladas Absolutas Relativas(%) Absolutas Relativas(%) ] 45, 40] 1 1.5 1 1.5 ] 40, 35] 0 0.0 1 1.5 ] 35, 30] 0 0.0 1 1.5 ] 30, 25] 0 0.0 1 1.5 ] 25, 20] 0 0.0 1 1.5 ] 20, 15] 0 0.0 1 1.5 ] 15, 10] 0 0.0 1 1.5 ] 10, 5] 0 0.0 1 1.5 ] 5, 0] 1 1.5 2 3.0 ]0, 5] 0 0.0 2 3.0 ]5, 10] 0 0.0 2 3.0 ]10, 15] 0 0.0 2 3.0 ]15, 20] 4 6 6 9 ]20, 25] 17 25.7 23 34.7 ]25, 30] 26 39.3 49 74 ]30, 35] 10 15.3 59 89.3 ]35, 40] 7 10.7 66 100 TOTAL 66 100.0

Gráficas para una variable cuantitativa Representación gráfica de la tabla de frecuencia: el histograma 40 30 Frecuencias 20 10 0 40 20 0 20 40 Mediciones

Gráficas para una variable cuantitativa Cómo interpretar un histograma Nos fijamos en: 1 Es la distribución simétrica? 2 Tiene la distribución colas largas? 3 Tiene un único máximo claro? (Histograma unimodal) 4 Aparecen datos atípicos? Un dato atípico es un dato que se aleja del patrón global del conjunto 5 Dónde está aprox. el centro de la distribución? 6 Presentan los datos mucha dispersión?

Gráficas para una variable cuantitativa 1 Distribución simétrica? 2 Colas largas? 3 Unimodal? 4 datos atípicos? 5 centro aprox. de la distribución? 6 Presentan los datos mucha dispersión? Frecuencias 0 5 10 15 20 25 40 20 0 20 40 Mediciones

Gráficas para una variable cuantitativa Ejemplos de histogramas Histograma aprox. simétrico, unimodal, con colas cortas. Histograma asimétrico Frec. 0 10 20 30 40 Frec. 0 10 20 30 40 1.5 2.0 2.5 3.0 3.5 4.0 4.5 0 2 4 6 8 10 x1 x00 Cola larga a la derecha Histograma bimodal Frec. 0 10 20 30 Frec. 0 10 20 30 40 50 60 70 0 5 10 15 2 3 4 5 6 7 x0 x12

Gráficas para una variable cuantitativa Gráfica de densidad: ejemplo de las mediciones de la luz: Buscamos visualizar la densidad de los datos, según las regiones, partiendo del histograma: 40 30 Frecuencias 20 10 0 40 20 0 20 40 Mediciones

Gráficas para una variable cuantitativa Gráfica de densidad: ejemplo de las mediciones de la luz: Obtenemos la gráfica de densidad (en este caso con R): 0.08 0.06 Densidad 0.04 0.02 0.00 40 20 0 20 40 t

Guión 1 Introducción 2 Unos cuantos términos 3 Tabulación y representaciones gráficas Gráficas para una variable cualitativa Gráficas para una variable cuantitativa 4 Medidas numéricas Medidas de centro Medidas de dispersión Un resumen gráfico: el diagrama de caja-bigotes

Buscamos resúmenes de las características de la distribución Para variable cuantitativa, calculamos medidas numéricas que buscan contestar a las preguntas planteadas ante el histograma. Veremos: Medidas de centro Medidas de dispersión Un resumen visual: el diagrama de cajas-bigotes.

Medidas de centro La primera medida de centro: la media Cálculo Datos: x 1,..., x n, la media es x = x 1 + + x n. n Datos ya agrupados: tenemos los valores distintos x 1,..., x m junto con sus frecuencias n 1,..., n m, la media es x = n 1 x 1 + + n m x m. (n 1 +... + n m )

Medidas de centro Aspectos de la media IMPORTANTE La media se interpreta como el centro de gravedad de los datos. es muy sensible a datos atípicos.

Medidas de centro Otra medida de centro: la mediana Qué es la mediana? La mediana es el punto que deja el 50% de los datos a su izquierda y el otro 50% a su derecha. Cómo se calcula? Si tenemos n datos, x 1, x 2,..., x n, ordenamos los datos por orden creciente. La mediana es el dato ordenado n o (n + 1)/2. Ejemplos 125, 129, 134, 185, 200 Me es el dato ordenado número 3, Me = 134. 11, 15, 20, 23: Me es el dato ordenado n o 2.5, (?), por convención, punto intermedio entre el dato n o 2 y el dato n o 3. Me = 17.5.

Medidas de centro La mediana no es sensible a datos atípicos: 125, 129, 134, 185, 200 Me es el dato ordenado número 3, Me = 134 125, 129, 134, 185, 2000 Me es el dato ordenado número 3, Me = 134 125, 129, 134, 185, 20000000 Me es el dato ordenado número 3, Me = 134

Medidas de dispersión La desviación típica Mide lo lejos que están situados los datos respecto a su centro de gravedad (la media) Se denota por s, es la raíz cuadrada de la varianza s 2, s = s 2. Cálculo de la varianza Definición: Fórmula alternativa: s 2 = (x 1 x) 2 + + (x n x) 2. n 1 s 2 = n n 1 (x 2 ( x) 2 )

Medidas de dispersión Ejemplo de cálculo La fórmula alternativa: Ejemplo s 2 = n n 1 (x 2 ( x) 2 ) x 2 : elevamos todos los datos al cuadrado y después calculamos su media. ( x) 2 : calculamos la media de los datos y después la elevamos al cuadrado. Datos: 4, 5.5, 6.5, 8. x 2 = (4 2 + 5.5 2 + 6.5 2 + 8 2 )/4 = 38.125. x = (4 + 5.5 + 6.5 + 8)/4 = 6 ( x) 2 = 36. Deducimos s 2 = 2.8333 y s = 1.683251

Medidas de dispersión Algunos aspectos de la desviación típica La desviación típica es representativa de la dispersión del conjunto de datos solo si la media es representativa de su centro. Unidades de la varianza y de la desviación típica.

Medidas de dispersión El rango intercuartílico Cuartiles y percentiles Cuartiles La mediana separa el conjunto en dos partes de mismo tamaño. Los cuartiles separan el conjunto en 4 partes de mismo tamaño. Los percentiles separan el conjunto en 100 partes de mismo tamaño. Q 1 : primer cuartil. Deja el 25% de los datos ordenados a su izquierda. Q 3 : tercer cuartil. Deja el 75% de los datos ordenados a su izquierda. y Q 2? segundo cuartil. Q 2 = Me.

Medidas de dispersión Percentiles Percentil k Si k es un entero, entre 0 y 100, P k deja el k% de los datos ordenados a su izquierda.

Medidas de dispersión Ejemplo de percentiles: curvas de crecimiento Fuente: Fundación Faustino Orbegozo Eizaguirre

Medidas de dispersión El rango intercuartílico: RIC RIC = Q 3 Q 1. Mide la dispersión de los datos También sirve para detectar atípicos: Se considera posible atípico un data menor de Q 1 1.5 RIC, o mayor de Q 3 + 1.5 RIC.

Un resumen gráfico: el diagrama de caja-bigotes El diagrama de caja-bigotes (boxplot) Permite visualizar la tendencia central, la dispersión, los datos atípicos. Los componentes del diagrama de caja-bigotes En un eje vertical: Tres segmentos horizontales y paralelos a la altura de Q 1, Me y Q 3. Se cierra la caja resultante. Dos segmentos verticales (bigotes) de una longitud máxima de 1.5 RIC. Se recortan hasta los últimos datos del conjunto que no sean atípicos.

Un resumen gráfico: el diagrama de caja-bigotes 8 9 10 11 12 Dato atípico Bigote Q3 Me Q1

Un resumen gráfico: el diagrama de caja-bigotes Muy útil para comparar subconjuntos Calificaciones de los aprobados en la prueba de acceso, Distrito Único de la Región de Murcia 1990 1992 1994 1996 1998 2000 2002 2004 2006 2008 4 5 6 7 8 9 10 Año Calificación (aprox. 115000 alumnos)