TEMA 5 Estadística descriptiva. Análisis de datos

Documentos relacionados
Conceptos de Estadística

Julio Deride Silva. 18 de agosto de 2010

PREGUNTAS TIPO EXAMEN- ESTADÍSTICA DESCRIPTIVA 2

Estadística ESTADÍSTICA

UNIDAD 8. ESTADÍSTICA

Un estudio estadístico consta de las siguientes fases: Recogida de datos. Organización y representación de datos. Análisis de datos.

ESTADÍSTICA APLICADA. TEMA 1. ESTADÍSTICA DESCRIPTIVA

Estadística I Tema 2: Análisis de datos univariantes Descripción numérica de datos

INTRODUCCIÓN. Fenómeno Real. Aprendizaje sobre el fenómeno. Análisis Estadístico. Datos Observados

Part I. Descripción estadística de una variable. Estadística I. Mario Francisco. Conceptos generales. Distribuciones de frecuencias.

Estadística Descriptiva 2da parte

FLORIDA Secundaria. 1º BACH MATEMÁTICAS CCSS -1- BLOQUE ESTADÍSTICA: ESTADÍSTICA VARIABLE UNIDIMENSIONAL. Estadística variable unidimensional

Estadística Descriptiva en SPSS

TEMA 8: ESTADÍSTICA. 8.1 Elementos de la Estadística. 8.2 Parámetros estadísticos. 8.3 Parámetros de posición para datos aislados.

Estadística Inferencial. Estadística Descriptiva

ESTADÍSTICA. Rincón del Maestro:

1. Estadística. 2. Seleccionar el número de clases k, para agrupar los datos. Como sugerencia para elegir el k

TEMA 14: ESTADÍSTICA 1. CONCEPTOS ESTADÍSTICOS

ESTADISTICA Y PROBABILIDAD ESTADÍSTICA

ESTADÍSTICA UNIDIMENSIONAL

El Método Científico. Metodología de Investigación. Te sifón Parrón

Estadística. Análisis de datos.

Estadística unidimensional

Nombre: Curso: Fecha:

ESTADÍSTICA DESCRIPTIVA EN POCAS PALABRAS (por jmd matetam.com)

ESTADÍSTICA Camerina Laura Ramírez Gallegos

MEDIDAS DE POSICIÓN CUANTILES CUARTILES DECILES CARLOS DARIO RESTREPO

ESTADÍSTICA DESCRIPTIVA

3 ANALISIS DESCRIPTIVO DE LOS DATOS

ESTADÍSTICA. 1. Introducción. 2. Frecuencias

Tema 3: Estadística Descriptiva

ESTADÍSTICA. Individuo. Es cada uno de los elementos que forman la población o muestra.

Tabla de frecuencias agrupando los datos Cuando hay muchos valores distintos, los agruparemos en intervalos (llamados clases) de la misma amplitud.

ESTADÍSTICA 1.- NOCIONES GENERALES

Técnicas Cuantitativas para el Management y los Negocios

MÓDULO III. MEDIDAS DE TENDENCIA CENTRAL, DISPERSIÓN Y ASIMETRÍA

Asignatura: Metodologías de investigación. Tema 6. Exploración de datos. Exploración de datos

Diagnóstico. Dirección de Cómputo para la Docencia. UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO Dirección General de Servicios de Cómputo Académico

IMADIL /10/2014

478 Índice alfabético

Tema 2: Estadísticos. Bioestadística. U. Málaga. Tema 2: Estadísticos 1

Tema 6. Variables aleatorias continuas

Estadística I Tema 2: Análisis de datos univariantes

3.2. Desviación Media

Fase 2. Estudio de mercado: ESTADÍSTICA

PROBABILIDAD. Unidad I Ordenamiento de la Información

Módulo de Estadística

y = 2, entonces: a) x es más dispersa que y. b) son igual de dispersas. 9.- Sean dos variables estadísticas x e y con los siguientes valores x = 5, σ

NIVELACIÓN DE ESTADISTICA. Carlos Darío Restrepo

Medidas de dispersión. Rango o recorrido. Desviación media. Medidas de dispersión

En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de :

Recopilación: Camerina Laura Ramírez G. ESTADÍSTICA. Recopilación: Camerina Laura Ramírez G.

Tablas de contingencia Las tablas de frecuencia pueden organizar datos de sólo una variable a la vez.

Apuntes de Estadística

Tema 9: Estadística descriptiva

ESTADÍSTICA DESCRIPTIVA

TEMA 14 ESTADÍSTICA. Cuantitativa: si puede medirse y expresarse con números (es una variable), por ejemplo la talla de calzado.

Métodos Matemá-cos en la Ingeniería Tema 5. Estadís-ca descrip-va

Estadística aplicada al Periodismo

Estadística Aplicada a la Educación

ESTADÍSTICA I EJEMPLO DE PRUEBA DE EVALUACIÓN

PREGUNTAS TIPO EXAMEN. 1. Cuál de las siguientes medidas es una medida de Centralización?

Índice IMADIL /10/2014. TEMA 3: Características estadísticas fundamentales (Primera parte) 1. INTRODUCCIÓN

Estadística Descriptiva en R: Parámetros y estadísticos. José Enrique Martín García Universidad Politécnica de Gimialcón (Copyright 2016)

Estadística. 1. Conceptos de Estadística. 2. Variable estadística. 3. Tablas de estadística. 4. Diagrama de barras y polígonos de frecuencias.

Bioestadística: Estadística Descriptiva

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua

LECCIÓN PÚBLICA. Tema 2 Medidas de Tendencia Central, Posición y Variabilidad. Profa. María Fátima Dos Santos

10/02/2015. Ángel Serrano Sánchez de León

TEMA 7 EL MODELO DE LA CURVA NORMAL. CONCEPTO Y APLICACIONES

Exploración de datos

Departamento de Medicina Preventiva y Salud Publica e Historia de la Ciencia. Universidad Complutense de Madrid. SPSS para windows.

Tema 1. Estadística Unidimensional

1 POBLACIÓN Y MUESTRA

RELACIÓN 1. DESCRIPTIVA

TEMA: 13 y 14 ESTADÍSTICA 3º ESO

Análisis de datos y gestión n veterinaria. Tema 1 Estadística descriptiva. Prof. Dr. José Manuel Perea Muñoz

Pregunta 1. Pregunta 2. Pregunta 3. Pregunta 4. Pregunta 5. Pregunta 6. Pregunta 7. Comenzado el lunes, 25 de marzo de 2013, 17:24

Análisis de datos en CCSS: introducción al análisis descriptivo e inferencial

CLASIFICACIÓN DE LA ESTADÍSTICA

GLOSARIO ESTADÍSTICO. Fuente: Murray R. Spiegel, Estadística, McGraw Hill.

2º GES T.5 - ESTADÍSTICA TEMA 5. ESTADÍSTICA

Estadística Descriptiva o deductiva Inferencial o inductiva Población: Variable: Variable cualitativa: Variable cuantitativa: Variable discreta

Tema 12: Introducción a la Estadística.

U.D.1: Análisis estadístico de una variable Consideraciones iniciales: Propuesta: 1.1 Distribución de frecuencias. Variables Cualitativas: Ejemplo

OARI CLASE 19/05/2015. DESCRIPCIÓN CUANTITATIVA DE LOS DATOS. MEDIDAS RESUMEN

INTRODUCCIÓN AL ANÁLISIS DE DATOS ORIENTACIONES (TEMA Nº 7)

Una población es el conjunto de todos los elementos a los que se somete a un estudio estadístico.

INTRODUCCIÓN AL ANÁLISIS DE DATOS SEPTIEMBRE 2016 Código asignatura: EXAMEN TIPO TEST MODELO B DURACION: 2 HORAS

Representaciones gráficas de las distribuciones bidimensionales de frecuencias... 74

MÉTODOS DE INVESTIGACIÓN EN EDUCACIÓN. Tema 6. variabilidad

Estadística Descriptiva

Estadís-ca. María Dolores Frías Domínguez Jesús Fernández Fernández Carmen María Sordo. Tema 1. Estadís-ca descrip-va

2º ESO UNIDAD 14 ESTADÍSTICA Y PROBABILIDAD

Estadística aplicada al Periodismo

Tema 2. Organización y representación de datos

INTRODUCCIÓN AL ANÁLISIS DE DATOS FEBRERO Código asignatura: EXAMEN MODELO B DURACION: 2 HORAS

UNIVERSIDAD AUTONOMA DE SANTO DOMINGO

Análisis Exploratorio de Datos Resumen gráfico y numérico

Estadística Básica 1 Cuatrimestre 2012

Transcripción:

TEMA 5 Estadística descriptiva. Análisis de datos Florence Nightingale (1820-1910)

1. Introducción. Modelos matemáticos 2. Métodos numéricos. Resolución de sistemas lineales y ecuaciones no lineales 3. Aproximación de funciones: interpolación y ajuste 4. Modelos discretos elementales. Ecuaciones en diferencias 5. Estadística descriptiva. Análisis de datos 6. Variable aleatoria. Distribuciones de probabilidad 7. Distribuciones de probabilidad importantes 8. Estimación de parámetros por intervalos de confianza 9. Contraste de hipótesis. Introducción al análisis de la varianza 10. Correlación y regresión. El modelo de regresión simple

Conceptos preliminares Tabla de frecuencias. Representación gráfica Descripción basada en momentos Descripción basada en ordenaciones Clases estimadas para este tema: 1 clase

1ĊONCEPTOS PRELIMINARES La Población es el conjunto completo de individuos a los cuales se referirán las conclusiones de su estudio. Tamaño de la población N. La Muestra es un reducido grupo representativo de individuos de la población. A partir de ésta, el investigador, con técnicas estadísticas puede inferir las características y relaciones existentes en una población. Tamaño de la muestra n. Los Sujetos o Individuos son los elementos que integran la población o muestra. Los Parámetros poblacionales son los diferentes índices estadísticos descriptivos de toda una población. Se simbolizan con letras griegas. Por ejemplo, la media µ = ( x i )/N. Función estadístico: cada parámetro de la población puede ser estimado a partir de los datos observados de una muestra extraída al azar. Las funciones que proporcionan estas estimaciones son los estadísticos. Por ejemplo, el estadístico que estima la media x = ( x i )/n.

La variable es cada uno de los caracteres o aspectos que se van a estudiar en los individuos. Los datos se recogen en la matriz de datos que es una matriz cuyas filas representan los individuos y las columnas las diferentes variables. Datos missing son aquellos valores que no se han registrado en la matriz. Las variables se clasifican en: Variables categóricas, que son variables no métricas y que a su vez pueden ser, - Binarias: sexo, sí/no, etc. - Con varias categorías: grupo sanguíneo, tratamiento recibido, etc. Variables cuantitativas, que son variables métricas y que pueden ser, - Discretas: n o de hijos, edad en años, etc. - Continuas: peso, altura, presión arterial sistólica, etc.

2ṪABLA DE FRECUENCIAS. REPRESENTACIÓN DE DATOS Una distribución de frecuencias consiste en una serie de clases predeterminadas (categorías, números, intervalos de valores,...) con el número total de sujetos que se incluyen en cada clase. En una tabla de frecuencias se reflejan los elementos de una distribución de frecuencias. Consideraremos los siguientes elementos: 1. La frecuencia absoluta que es el número de veces que observamos el mismo valor de la variable (n i ). 2. La frecuencia relativa que es el cociente entre la frecuencia absoluta y el número total de repeticiones del experimento (f i ). 3. La frecuencia acumulada (absoluta o relativa) que es la suma de frecuencias absolutas (o relativas) anteriores con la del valor de la variable actual (N i = n 1 + + n i, F i = f 1 + + f i ). 4. El porcentaje es la frecuencia relativa multiplicada por 100 (100f i ).

5. El porcentaje acumulado es la frecuencia relativa acumulada multiplicada por 100 (100F i ). Siempre debemos tener en cuenta lo siguiente!: para n datos y p posibles valores observados: las frecuencias verifican n 1 + n 2 + + n p 1 + n p = n, f 1 + f 2 + + f p 1 + f p = 1. Las frecuencias absolutas N 1 = n 1, N p = n, F 1 = f 1, F p = 1. Y el porcentaje % porcentaje acumulado p = 100. Ejercicio: comprobar matemáticamente todas las relaciones anteriores.

Ejemplo: Supongamos la siguiente puntuación obtenida en una tabla de destreza de 60 primates: 2,0,2,5,1,4,1,5,1,4,3,2,1,2,3,5,1,2,3,1,4,2,3,5,4,2,1,5,1,2, 5,4,3,5,3,2,4,0,2,2,3,5,4,2,4,3,3,3,2,5,4,3,4,1,3,4,3,4,5,3 Valores que puede tomar la variable puntuación : 0,1,2,3,4,5 (n = 60)

Ejemplo: Supongamos la siguiente puntuación obtenida en una tabla de destreza de 60 primates: 2,0,2,5,1,4,1,5,1,4,3,2,1,2,3,5,1,2,3,1,4,2,3,5,4,2,1,5,1,2, 5,4,3,5,3,2,4,0,2,2,3,5,4,2,4,3,3,3,2,5,4,3,4,1,3,4,3,4,5,3 Valores que puede tomar la variable puntuación : 0,1,2,3,4,5 (n = 60) x i n i f i N i F i % % acum 0 2 0.0333 2 0.0333 3.33 3.33 1 9 0.15 11 0.1833 15 18.8 2 13 0.2167 24 0.4 21.67 40 3 14 0.2333 38 0.6333 23.33 63.3 4 12 0.2 50 0.8333 20 83.3 5 10 0.1667 60 1 16.67 100 60 1 100

En el caso de datos continuos agruparemos los valores ordenados en intervalos de clase, que pueden tener o no la misma amplitud según la regla d Sturges. Y en la tabla de frecuencias señalaremos el punto medio del intervalo o marca de clase. Ejemplo: Perímetro craneal medido en 30 perros de tamaño medio: 41 39.5 43.2 40.5 44.5 38.5 42.5 40.3 46.3 42.3 45.6 44.2 40.1 43.5 40.2 40 42.7 45 45.2 46.7 39.4 41 39 39.6 42.8 47.9 46.5 40.2 43 46

En el caso de datos continuos agruparemos los valores ordenados en intervalos de clase, que pueden tener o no la misma amplitud según la regla d Sturges. Y en la tabla de frecuencias señalaremos el punto medio del intervalo o marca de clase. Ejemplo: Perímetro craneal medido en 30 perros de tamaño medio: 41 39.5 43.2 40.5 44.5 38.5 42.5 40.3 46.3 42.3 45.6 44.2 40.1 43.5 40.2 40 42.7 45 45.2 46.7 39.4 41 39 39.6 42.8 47.9 46.5 40.2 43 46 x x i n i f i N i F i % acum 38.2-39.9 39.05 5 0.1667 5 0.1667 16.67 39.9-41.6 40.75 8 0.2667 13 0.4333 43.33 41.6-43.3 42.45 6 0.2 19 0.6333 63.33 43.3-45 44.15 3 0.1 22 0.7333 73.33 45-46.7 45.85 6 0.2 28 0.9333 93.33 46.7-48.4 47.55 2 0.0667 30 1 100 30 1

Regla d Sturges para escoger el número de intervalos: Tamaño de la muestra 6 a 10 11 a 22 23 a 44 45 a 90 91 a 181... Número de intervalos 4 5 6 7 8... Las principales representaciones gráficas son las siguientes: Tipo de variable Categórica Cuantitativa discreta Cuantitativa continua Representaciones gráficas Diagrama de barras Diagrama de sectores Diagrama de líneas Diagrama de barras Diagrama de líneas Diagrama de tallo&hojas Diagrama de tallo&hojas Histograma Polígonos de frecuencias

Nos limitaremos a representar datos cuantitativos. Utilizaremos, el diagrama de barras, con el cual colocamos en el eje de abcisas los distintos valores discretos de la variable y en el eje de ordenadas las frecuencias absolutas o relativas, el histograma, con el cual dibujamos un rectángulo con área igual a la frecuencia absoluta correspondiente: colocaremos en el eje de abcisas los límites de los intervalos y sobre la ordenada el cociente entre la frecuencia y la amplitud (longitud) del intervalo, el polígono de frecuencias que se obtiene de unir los centros de los extremos superiores de cada rectángulo. Nota: Notar que es habitual encontrar una definición del histograma en la que sobre cada intervalo se dibuja una altura correspondiente a la frecuencia (esta no es la que se ha dado aquí, que es más apropiada en ciencias de la salud). Ejercicio: Dibujar los diagramas de barras e histogramas correspondientes a los ejemplos vistos.

3 ḊESCRIPCIÓN BASADA EN MOMENTOS Representan la posición, dispersión, asimetría y apuntamiento de la distribución. Ventajas: - Utilizan todos los datos de la distribución. - Fáciles de obtener: sumas, sumas de cuadrados, sumas de cubos, y sumas de potencias cuartas. Inconvenientes: - Difícil interpretación práctica en algunos casos. - Los principales se ven afectados por valores anormales (poco robustos).

Para sintetizar una distribución de datos cuantitativos es necesario dar las medidas que representen los 4 aspectos fundamentales de distribuciones de variables cuantitativas: Medidas de tendencia central. Resumen la posición central de la distribución. El estimador de la media poblacional (µ) es la media x: µ = xi N, x = xi n = p k=1 x kn k Interpretación física: centro de gravedad. n = x 1n 1 + x 2 n 2 + + x p n p. n Medidas de dispersión. Permiten evaluar la separación de un conjunto de datos respecto a la media. El estimador de la varianza (σ 2 ) se denota por s 2 : σ 2 (xi µ) 2 p =, s 2 k=1 = (x k x) 2 n k N n 1 Interpretación física: momento de inercia. Ejercicio: comprobar la siguiente expresión (x i x) = 0. = (x 1 x) 2 n 1 + + (x p x) 2 n p. n 1

La desviación típica o estándar σ es más útil, su estimador se simboliza por s: σ = + σ 2, s = + s 2 = + p k=1 (x k x) 2 n k, n 1 y caracteriza la dispersión o grado de homogeneidad de una distribución. Nota: En el caso particular de una distribución normal la desviación estándar sí tiene una interpretación más práctica. Nota: Hay que tener cuidado! la media y varianza sólo deberían emplearse en distribuciones simétricas... Medidas de forma: asimetría. Calculamos ahora momentos de orden 3. Elevamos al cubo potencias x i x, y obtenemos valores positivos (asimetría positiva Γ 1 > 0), negativos (asimetría negativa Γ 1 < 0), y nulos (simetría Γ 1 = 0). Γ 1 = 1 N ( ) 3 x i µ, G 1 = 1 σ n 1 ( ) 3 x i x n i. s

Medidas de forma: apuntamiento/curtosis. Calculamos ahora momentos de orden 4. Elevamos a la cuarta potencia las diferencias x i x. Refleja el apuntamiento respecto a la ley normal. Diremos que es platicúrtica (Γ 2 < 0) si es más aplanada que la normal, leptocúrtica (Γ 2 > 0) si es más apuntada, y mesocúrtica (Γ 2 = 0) si la forma coincide con la de la ley normal. Γ 2 = 1 N ( ) 4 x i µ 3, G 2 = 1 σ n 1 ( ) 4 x i x n i 3. s Nota: La asimetría positiva es una característica frecuente en las distribuciones de datos sanitarios, mientras que la asimetría negativa se presenta en pocas ocasiones. Nota: En las distribuciones platicúrticas los valores se acumulan en las colas, mientras que en las leptocúrticas los valores se acumulan en el centro de la distribución. Ejercicio: Calcular los valores anteriores para las muestras de los dos ejemplos.

4ḊESCRIPCIÓN BASADA EN ORDENACIONES Las medidas basadas en ordenaciones tienen la ventaja de ser más robustas, pues los valores extremos no afectan tanto al valor del índice. Quizás sean más complicadas de obtener. Los percentiles, son los 99 sujetos que resultan de dividir la distribución en 100 partes de igual tamaño. El percentil de orden k corresponde al valor de la variable que deja por debajo el k por 100 de los sujetos de la población. x g = P 75 el individuo x g deja por debajo al 75 % de la población. Los deciles son las 9 medidas de posición que dividen el conjunto ordenado de datos en 10 partes iguales. D 1 = P 10, D 2 = P 20,, D 9 = P 90 Los cuartiles son las 3 medidas de posición que dividen el conjunto ordenado de datos en 4 partes iguales. Q 1 = P 25, Q 2 = P 50, Q 3 = P 75

La Mediana es el valor de la variable que divide la distribución en dos partes iguales. Es el percentil 50, el decil 5 y el cuartil 2. La señalaremos en el polígono de frecuencias acumuladas. Ejemplo: en el ejercicio de los primates la mediana está entre 2 y 3. En el ejercicio del perímetro craneal, la mediana cae en el intervalo 41.6-43.3. La Moda es el valor de la variable más frecuente en la distribución. Ejemplo: en el ejercicio de los primates la moda es 3, mientras que en el del perímetro craneal, la moda está en el intervalo 39.9-41.6. Ejercicio: Los valores de hemoglobina en sangre con percentiles de rango 95 y 5 son, respectivamente, 14.34 y 4.29. Esto significa que: a) el 95 % de los valores de hemoglobina son superiores a 14.34 y el 5 % a 4.29, b) el 95 % de los valores de hemoglobina son superiores a 14.34 y el 5 % inferiores a 4.29, c) el 90 % central de los valores de hemoglobina está comprendido entre 14.34 y 4.29.