Biometría. Clase 1 Recopilación de la información

Documentos relacionados
Módulo de Estadística

Tema 2: Estadísticos. Bioestadística. U. Málaga. Tema 2: Estadísticos 1

PREGUNTAS TIPO EXAMEN- ESTADÍSTICA DESCRIPTIVA 2

Estadística Inferencial. Estadística Descriptiva

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua

FLORIDA Secundaria. 1º BACH MATEMÁTICAS CCSS -1- BLOQUE ESTADÍSTICA: ESTADÍSTICA VARIABLE UNIDIMENSIONAL. Estadística variable unidimensional

Fase 2. Estudio de mercado: ESTADÍSTICA

Medidas de Tendencia Central.

ESTADÍSTICA DESCRIPTIVA

Métodos Matemá-cos en la Ingeniería Tema 5. Estadís-ca descrip-va

MEDIDAS DE RESUMEN: MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN. Lic. Esperanza García Cribilleros

UNIVERSIDAD AUTÓNOMA DEL ESTADO DE MÉXICO

ESTADÍSTICA APLICADA. TEMA 1. ESTADÍSTICA DESCRIPTIVA

Curso de Estadística Aplicada a las Ciencias Sociales

GLOSARIO ESTADÍSTICO. Fuente: Murray R. Spiegel, Estadística, McGraw Hill.

Fundamentos de Estadística y Simulación Básica

Estadística. Análisis de datos.

U.D.1: Análisis estadístico de una variable Consideraciones iniciales: Propuesta: 1.1 Distribución de frecuencias. Variables Cualitativas: Ejemplo

Probabilidad y Estadística, EIC 311

Proyecto PropULSA: Estadística y Probabilidad Breviario Académico

Estadística Descriptiva

NOCIONES DE ESTADÍSTICA CURSO PRÁCTICO DE CLIMATOLOGÍA 2012

Dr. Richard Mercado Rivera 18 de agosto de 2012 Matemática Elemental

Un estudio estadístico consta de las siguientes fases: Recogida de datos. Organización y representación de datos. Análisis de datos.

Tema 7: Estadística y probabilidad

Estadística descriptiva y métodos diagnósticos

II. ORGANIZACIÓN N Y PRESENTACIÓN N DE DATOS

ESTADISTICA Y PROBABILIDAD ESTADÍSTICA

Bioestadística: Estadística Descriptiva

Y accedemos al cuadro de diálogo Descriptivos

Pregunta 1. Pregunta 2. Pregunta 3. Pregunta 4. Pregunta 5. Pregunta 6. Pregunta 7. Comenzado el lunes, 25 de marzo de 2013, 17:24

ANÁLISIS EXPLORATORIO DE DATOS ESPACIALES ESTADÍSTICA ESPACIAL

Unidad 1. Obtención, Medición y Representación de Datos. Estadística E.S.O.

NOCIONES DE ESTADÍSTICA CURSO PRÁCTICO DE CLIMATOLOGÍA 2011

Tema 2 Estadística Descriptiva

Medidas descriptivas I. Medidas de tendencia central A. La moda

2 Pasos en un estudio estadístico.

Estadística. Introducción a la Estadística Descriptiva. Área de Matemática Cerp Florida Reforma de Ed. Inicial y Primaria,

ESTADÍSTICA CON EXCEL

TEMA IV PERCENTIL Y ESTADIGRAFOS DE POSICION

POBLACIÓN Y MUESTRAS EN LA INVESTIGACIÓN

Métodos de Investigación en Psicología (10) Dra. Lucy Reidl Martínez Dra. Corina Cuevas Reynaud Dra. Renata López Hernández

2.- Tablas de frecuencias

Los estadísticos descriptivos clásicos (Robustez)

Apuntes y ejercicios de Estadística para 2º E.S.O

EJERCICIOS TEMA 1. Clasifica los siguientes caracteres estadísticos según sean cualitativos, variables discretas o variables continuas:

Estadística Descriptiva Métodos descriptivos visuales y medidas resumen

El ejemplo: Una encuesta de opinión

Probabilidad y Estadística Descripción de Datos

Repaso Estadística Descriptiva

UNIDAD 12.- Estadística. Tablas y gráficos (tema12 del libro)

MÓDULO III. MEDIDAS DE TENDENCIA CENTRAL, DISPERSIÓN Y ASIMETRÍA

Curso 2016/17 Grados en Biología y Biología Sanitaria Departamento de Física y Matemáticas Marcos Marvá Ruiz ESTADÍSTICA

MEDIDAS DE TENDENCIA CENTRAL

Medidas de posición para variables cuantitativas

INSTITUCION EDUCATIVA LA PRESENTACION NOMBRE ALUMNA:

UNIVERSIDAD AUTONOMA DE SANTO DOMINGO

INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 29 de Abril de 2016

Ejemplos y ejercicios de. Estadística Descriptiva. yanálisis de Datos. 2 Descripción estadística de una variable. Ejemplos y ejercicios.

Medidas de tendencia central y dispersión

INTRODUCCIÓN AL ANÁLISIS DE DATOS ORIENTACIONES (TEMA Nº 7)

Transformaciones de variables

UNIDAD 7 Medidas de dispersión

CM0244. Suficientable

Teoría de muestras 2º curso de Bachillerato Ciencias Sociales

Estadísticos Descriptivos

EJERCICIOS RESUELTOS TEMA 1.

MEDIDAS DE TENDENCIA CENTRAL O DE PRECISIÓN

Z i

MEDIDAS DE TENDENCIA CENTRAL

Medidas de posición relativa

CURSO VIRTUAL. Acceso a fuentes de información y manejo de redes sociales. Módulo 2

Matemáticas 2.º Bachillerato. Intervalos de confianza. Contraste de hipótesis

Bloque 1. Contenidos comunes. (Total: 3 sesiones)

Distribuciones muestrales. Distribución muestral de Medias

Formulario. Estadística Administrativa. Módulo 1. Introducción al análisis estadístico

Teoría de la decisión

Tema: ESTADÍSTICA DESCRIPTIVA BÁSICA CON SPSS 8.0

2. Recolección de información - Medidas de posición: moda, media aritmética, mínimo, máximo - Frecuencia absoluta, relativa y porcentual

Una población es el conjunto de todos los elementos a los que se somete a un estudio estadístico.

ESTADISTICA APLICADA A LA EDUCACIÒN CODIGO: HOC220 EJERCICIOS SOBRE MEDIDAS DE TENDENCIA CENTRAL, POSICIONAL Y DE DISPERSIÓN

Estadística Descriptiva de una variable con STATGRAPHICS

ESTADÍSTICA SEMANA 3

Universidad Nacional de Mar del Plata. Facultad de Ingeniería. Estadística Básica COMISIÓN 1. 1 Cuatrimestre 2016

LECTURA 01: LA ESTADÍSTICA. TÉRMINOS DE ESTADÍSTICA. RECOLECCIÓN DE DATOS TEMA 1: LA ESTADISTICA Y CLASIFICACION

Medidas de variabilidad (dispersión)

MEDIDAS DE VARIABILIDAD

Unidad III: Estadística descriptiva

INDICE. Prólogo a la Segunda Edición

Tema 6. Variables aleatorias continuas

Universidad de Sonora Departamento de Matemáticas Área Económico Administrativa

MÉTODOS CUANTITATIVOS. Freddy Higuera Departamento de Ingeniería Industrial Universidad Católica del Norte

UNIVERSIDAD ABIERTA PARA ADULTOS UAPA CARRERA LICENCIATURA EN ADMINISTRACIÓN DE EMPRESAS PROGRAMA DE LA ASIGNATURA ESTADÍSTICA I

Construcción de Gráficas en forma manual y con programados

UNIDAD 12: ESTADISTICA. OBJETIVOS

Tema 6. Estadística Descriptiva e Introducción a la Inferencia Estadística

UNIVERSIDAD AUTONOMA DE SANTO DOMINGO

CURSO DE MÉTODOS CUANTITATIVOS I

Una población es el conjunto de todos los elementos a los que se somete a un estudio estadístico.

478 Índice alfabético

Transcripción:

Biometría Clase 1 Recopilación de la información 1

Primero algunas definiciones Biometría (del griego, bios: vida; metron; medir): medición de la vida (otros términos: bioestadística). En un sentido amplio: Aplicación de métodos estadísticos a la solución de problemas biológicos (Sokal y Rohlf 1995, pág. 1) Ahora bien, qué se entiende por estadística? 2

Algunas definiciones Estadística: estudio científico de datos que describen variación natural (Sokal y Rohlf 1995) estudio científico..datos..variación natural. 3

Ejemplo: Abundancia de ratas en la Ciudad de Buenos Aires Para diseñar un programa de control de roedores, se quiere estimar el número de ratas por manzana. La Ciudad de Bs. As. tiene 12.255 manzanas Es esperable que todas las manzanas tengan exactamente la misma cantidad de ratas? Qué factores pueden generar variabilidad en dicha cantidad? Es necesario / posible estudiar a TODAS las manzanas de la ciudad?

Tres preguntas para responder Cómo recolectar los datos? Cómo analizar y resumir los datos para producir un resultado o una conclusión? Qué grado de confianza puedo tener en mis resultados? o, dicho de otro modo, Qué exactitud tienen mis resultados? La Estadística provee las herramientas conceptuales y metodológicas para responder estas preguntas

Algunas definiciones Individuo, unidad muestral o unidad experimental: es la menor unidad de la cual se obtiene una observación independiente. El conjunto de todas las unidades constituye la población. Población es el conjunto de todos los individuos de interés Normalmente es demasiado grande para poder abarcarlo. El estudio de toda la población se denomina censo En un censo las posibilidades de errores se minimizan, pero efectuar un censo es habitualmente muy costoso, no siempre es posible, no siempre es lo mejor y en general es innecesario Muestra es un subconjunto representativo de la población y es sobre el que realmente hacemos las observaciones Variable es la característica de interés que es medida en cada uno de los individuos Observación o dato: es el valor particular que toma la variable en cada individuo. El conjunto de todas las posibles observaciones constituye la población estadística.

Volviendo al ejemplo Individuo o unidad muestral: Población: Tamaño de la población N: Muestra: Tamaño de la muestra n: Variable: 7

Para que sirve la estadística? Para describir un conjunto de datos estadística descriptiva Para estimar parámetros poblacionales Para probar hipótesis formuladas sobre una población Para construir modelos estadísticos y efectuar predicciones estadística inferencial 8

Inferencia estadística Consiste en extrapolar las conclusiones extraídas de una muestra sobre la población La población ideal que se pretende estudiar se denomina población objetivo, de referencia, de interés o universo. Pero la población que en realidad podemos estudiar, porque es el grupo del cual extraeremos la muestra, puede no coincidir con la población objetivo. En ese caso, las conclusiones se deben aplicar a la población de la cual se extrajo la muestra Marco muestral: es la lista de todas las unidades que pueden ser muestreadas Las formas de obtener datos son: por muestreo mediante experimentos 9

Errores no muestrales o Sesgos Un método de muestreo está sesgado si produce resultados que sistemáticamente difieren de la población objetivo Sesgo de selección: es la tendencia sistemática a excluir o incluir cierto tipo de individuos en el proceso de muestreo (sub o sobrecobertura) Sesgo de medición: cuando el instrumento con el que se mide tiene una tendencia a diferir del valor verdadero en alguna dirección Sesgo de no respuesta: es la distorsión que aparece cuando cierto grupo de individuos seleccionados para ser muestreados no responden, y estos no respondientes tienen tendencia a ser diferentes de los que sí responden 10

Errores muestrales Son aquellos que aparecen como resultado de analizar solo a una parte de la población, y se deben al azar Aunque la población objetivo y la muestreada coincidan, los resultados de la muestra no serán exactamente iguales a los poblacionales! A diferencia de los errores no muestrales, disminuyen cuando aumenta el tamaño de la muestra Si la muestra está diseñada de forma probabilística es posible controlar su magnitud y dar una estimación del mismo 11

Técnicas de muestreo Muestreos probabilísticos todos los individuos tienen una probabilidad conocida de ser elegidos para formar parte de la muestra, asegurando la representatividad de la muestra elegida Interesantes para usar estadística inferencial con ellos. Muestreos no probabilísticos No se conoce la probabilidad de selección del individuo. Son muestreos que seguramente esconden sesgos. No se pueden extrapolar los resultados a la población. 12

Muestreos no probabilísticos Muestreo de voluntarios Muestreo por conveniencia No se puede evaluar Precisión en términos probabilísticos, No obliga a tener una base o Marco para la selección No garantiza representatividad y se corre el riesgo de que se termine en un estudio de casos 13

Muestreos probabilísticos Según la heterogeneidad ambiental Muestreo simple (ambiente homogéneo) Muestreo estratificado (ambiente heterogéneo) Según como se seleccionan las unidades experimentales Muestreo Aleatorio Muestreo sistemático Elimina sesgos de selección y caprichos humanos, Permite emplear la inferencia estadística para proyectar y analizar los resultados, Permite cuantificar la incertidumbre, el riesgo y la validez que podemos poner en los resultados 14

Muestreo aleatorio simple Se eligen individuos de la población de estudio, de manera que todos tienen la misma probabilidad de ser seleccionados, hasta alcanzar el tamaño muestral deseado. Se puede realizar partiendo del listado de todos los individuos que componen la población (marco muestral) y eligiendo individuos aleatoriamente Es eficiente cuando la población es homogénea. 15

Ejemplo En una plantación forestal de roble pellín (Nothofagus obliqua) un investigador desea determinar el grado de infestación por insectos xilófagos. Los 750 árboles están numerados y se desea seleccionar 50 para ser observados. Cómo debería proceder? 1. Asigna a cada árbol un número del 1 al 750. 2. Elige 50 números aleatorios de tres cifras de una tabla o calculadora o mediante software. 3. Si sale un número entre 750 y 1000, se elige otro número. 4. Los 50 árboles con estos números son elegidos para ser observados. 16

Muestreo sistemático Se tiene una lista de los individuos de la población de estudio (marco muestral). Si queremos una muestra de un tamaño dado, elegimos individuos igualmente espaciados de la lista, donde el primero ha sido elegido al azar. A B C D E F G H I J K L M N O. CUIDADO: Si en la lista existen periodicidades, obtendremos una muestra sesgada. Un caso real: Se eligió una de cada cinco casas para un estudio de salud pública en una ciudad donde las casas se distribuyen en manzanas de cinco casas. Salieron con mucha frecuencia las de las esquinas, que reciben más sol, están mejor ventiladas, 17

Muestreo estratificado Se aplica cuando sabemos que existen subpoblaciones o estratos, homogéneos internamente, y que pueden diferir en su respuesta, por lo que queremos asegurarnos de tener cierta cantidad mínima de individuos de cada tipo: Machos y hembras Grupos etarios Características medioambientales Se realiza entonces un M.A.S. de los individuos de cada uno de los estratos. El tamaño de la muestra de cada estrato depende principalmente de la variabilidad del mismo Al extrapolar los resultados a la población hay que tener en cuenta el tamaño relativo del estrato con respecto al total de la población (ponderación). 18

En el ejemplo Muestreo aleatorio Muestreo sistemático Muestreo estratificado 19

Tipos de estudios según cómo se recopilan los datos Estudios observacionales o de medición: El proceso que se observa no está siendo controlado. Observación pasiva. Los datos existen antes de que el investigador decida estudiarlos. Estudios experimentales o manipulativos: El investigador asigna activamente un tratamiento a los individuos a fin de observar la respuesta. Los datos son generados por el investigador. 20

Tipos de estudios según cómo se recopilan los datos Estudios Observacionales No se puede establecer una relación causa-efecto. El efecto puede ser accidental o consecuencia de otra/s variable/s no contempladas en el análisis (variables subyacentes; confusión de efectos) Unidad de observación o individuo El azar interviene en la selección de los individuos Estudios Experimentales Las diferencias que se observen en la respuesta son asignables al tratamiento aplicado y no a otro factor Unidad experimental El azar interviene en la asignación de los tratamientos 21

Estudios experimentales Un experimento diseñado es una prueba o serie de pruebas en las cuales se inducen cambios deliberados en la variable de entrada de un proceso, de manera que sea posible observar e identificar las causas de los cambios en la respuesta de salida Factores controlables x1 x2... x Entrada Proceso Salida x1 x2... x Factores no controlables 22

Experimentos Se manipulan dos o más grupos que deben diferir exclusivamente en el tratamiento que interesa comparar: Un grupo recibe el procedimiento experimental (grupo experimental) el otro no recibe nada o recibe el placebo o el procedimiento estándar (grupo control o testigo) El tratamiento control es fundamental para evaluar el efectos de los tratamientos experimentales ( qué ocurre en ausencia de la manipulación experimental?) Las diferencias que se observen en la respuesta son asignables al tratamiento aplicado y no a otro factor 23

Es efectiva la aspirina en la prevención de infartos? En 1984, 22000 hombres (todos médicos) de entre 40 y 84 años, sin antecedentes de cardiopatía o de accidente cerebrovascular, se sometieron a un estudio para evaluar la eficacia de la aspirina Se registró la presencia de infartos (incidencia) durante 5 años: Grupo Infarto No infarto n Incidencia Placebo 239 10795 11034 Aspirina 139 10898 11037 24

Preguntas que deben formularse antes de creerle a un muestreo Quién llevó a cabo el muestreo? Cuál es la población objetivo? Cómo fueron seleccionados los individuos? Cuál es el tamaño de la muestra? Cuál fue la tasa de respuesta? Cómo se tomaron los datos? Estudio mensurativo o Experimental? 25

Biometría 2 Estadística descriptiva: Tablas y gráficos 26

El proceso de medición Unidad experimental o de observación o individuo: es la menor unidad de la cual se obtiene una observación independiente. El conjunto de todas las unidades constituye la población. Variable: es una característica de interés que es medida en cada uno de los individuos Observación o dato: es el valor particular que toma la variable en cada individuo. El conjunto de todas las posibles observaciones constituye la población estadística. 27

Exactitud y precisión Exactitud: indica la validez de una medición, es decir si se acerca, en promedio, al verdadero valor Precisión: indica la repetibilidad de una medición, es decir si mediciones sucesivas producen resultados similares valor observado = valor verdadero + sesgo + error aleatorio 28

Tipos de variables Cualitativas Si sus valores (modalidades) no se pueden asociar naturalmente a un número (no se pueden hacer operaciones algebraicas con ellos) Nominales: estadio, color Ordinales: grado de infección Cuantitativas o Numéricas Si sus valores son numéricos (tiene sentido hacer operaciones algebraicas con ellos) Discretas: Si toma valores enteros Cantidad de frutos por planta, Número de lesiones por cm 2 de piel Continuas: Si entre dos valores, son posibles infinitos valores intermedios. Peso, altura, superficie, concentración 29

Resumiendo la información: estadística descriptiva Tablas de frecuencias Gráficos Estadísticos 30

Tablas de frecuencias Indican el rango de valores observados de la variable (dominio) y cuán frecuentemente ocurren Frecuencias absolutas: Contabilizan el número de individuos de cada modalidad Frecuencias relativas (o porcentajes): Idem, pero dividido por el total Variables cualitativas: Tablas de frecuencias Sexo FA FR hombre 25 0,42 mujer 35 0,58 total 60 1,00 31

Tablas de frecuencias Frecuencias absolutas: Frecuencias relativas (o porcentajes) Frecuencias acumuladas: indican la cantidad de datos acumulados hasta cierto valor de la variable inclusive. Pueden ser absolutas o relativas. Solo tienen sentido si la variable es al menos ordinal. Variables cuantitativas discretas Infartos FA FR FAA FRA 0 45 0,75 45 0,75 1 13 0,22 58 0,97 2 2 0,03 60 1,00 total 60 1,00 32

Tablas de frecuencias Variables cuantitativas continuas Debido a la naturaleza de la variable es necesario agrupar los valores posibles en intervalos Estos se caracterizan por dos límites, inferior y superior y el valor central o marca de clase Los intervalos deben ser contiguos y excluyentes. Por convención: [LI-LS) Colesterol LI LS MC FA FR FAA FRA 100 150 125 12 0,20 12 0,20 150 200 175 18 0,30 30 200 250 225 22 250 300. total 60 33

Gráficos Pueden servir como sustituto a las tablas Constituyen por sí mismos una poderosa herramienta para el análisis de los datos Dan cuenta de cómo es la distribución de la variable Deben servir para representar la realidad, no para generar nuevas realidades inexistentes fuera de la propia imagen 34

Presentación ordenada de datos Género Frec. Hombre 4 Mujer 6 frecuencia 7 6 5 4 3 2 1 0 Hombre Mujer Las tablas de frecuencias y las representaciones gráficas son dos maneras equivalentes de presentar la información. Las dos exponen ordenadamente la información tomada en una muestra. 35

Su vida es excitante o aburrida? Gráficos para v. cualitativas Diagramas de barras Alturas proporcionales a las frecuencias (abs. o rel.) Se pueden aplicar también a variables discretas Diagramas circulares o de torta No usarlo con variables ordinales. El área de cada sector es proporcional a su frecuencia (abs. o rel.) Pictogramas Fáciles de entender. El área de cada modalidad debe ser proporcional a la frecuencia. De los dos, cuál es incorrecto?. 36

Gráficos para variables cuantitativas Son diferentes en función de que las variables sean discretas o continuas. Pueden construirse con frecuencias absolutas o relativas. Recuento 400 300 200 419 255 375 215 Diagramas de barras para v. discretas Se deja un espacio entre barras para indicar los valores que no son posibles 100 127 54 24 23 17 0 1 2 3 4 5 6 7 Ocho o más Número de hijos 250 Histogramas para v. continuas El área que hay bajo el histograma entre dos puntos cualquiera indica la cantidad (porcentaje o frecuencia) de individuos en el intervalo. Recuento 200 150 100 50 37 20 40 60 80 Edad del encuestado

Gráficos para variables cuantitativas Gráfico de caja o Box plot para v. discretas y continuas No se representan las frecuencias Permite detectar la forma de la distribución Permite detectar datos atípicos Esperanza de vida (años) 77 76 75 74 73 72 71 Esperanza de vida en provincias argentinas Dato atípico 70 69 38

Histogramas: Atención con la cantidad de intervalos Histograma con 4 intervalos 18 Histograma con 8 intervalos 16 Frecuencia 14 12 10 8 6 4 2 0 220 300 380 460 Colesterol (mg/ml) Cant. de pacientes 12 10 8 6 4 2 0 180 220 260 300 340 380 420 460 Histograma con 12 intervalos colesterol (mg/ml) 6 Frecuencia 5 4 3 2 1 Se recomienda: 1+3.22 log (n) intervalos 0 220 240 260 280 300 320 340 360 380 400 420 Colesterol (mg/ml) 39

Forma de la distribución de la variable Simétrica: la distribución puede dividirse en dos partes iguales alrededor de un valor central, y cada mitad es el reflejo de la otra Asimétrica: una cola de la distribución está mas alargada que la del otro lado Unimodal: la distribución tiene un único pico o máximo relativo Bimodal: la distribución tiene dos picos. Esto generalmente ocurre cuando se mezclan dos poblaciones 40

Cómo debe ser un buen gráfico? La calidad de un gráfico estadístico consiste en comunicar ideas complejas con precisión, claridad y eficiencia, de tal manera que: Induzca a pensar en el contenido más que en la apariencia No distorsione la información proporcionada por los datos Favorezca la comparación de diferentes grupos de datos o de relaciones entre los mismos 41

Guía para gráficos debe ser autoexplicativo: título apropiado, ejes rotulados, unidades de medida, tamaño de la muestra, etc el número de intervalos no debe ser ni muy grande ni muy pequeño comenzar en cero el eje vertical la frecuencia debe ser proporcional al área (es proporcional a la altura sólo si los intervalos tienen el mismo ancho) Para fines comparativos es mejor usar frecuencias relativas o porcentajes. 42

Datos atípicos o outliers Son datos muy distintos al resto Pueden aparecer por: error en el procedimiento (toma de datos, registro) Como consecuencia de un evento extraordinario Indicativos de un segmento menor de la población o de un fenómeno novedoso Se detectan por métodos gráficos (gráfico de caja) o analíticos (estandarización, pruebas estadísticas) 43

Biometria 3 Estadísticos 44

Estadísticos Tendencia central Indican valores con respecto a los que los datos parecen agruparse. Dispersión Media, mediana, moda Indican la mayor o menor concentración de los datos con respecto a las medidas de tendencia central. Posición Varianza, Desviación estándar, coeficiente de variación, rango intercuartílico Dividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos. Cuartiles, deciles, percentiles Forma Asimetría y curtosis 45

Relacionando gráficos de distribución de frecuencias con estadísticos 46

Estadísticos de tendencia central Son medidas que buscan posiciones (valores) con respecto a los cuales los datos muestran tendencia a agruparse. Media o promedio aritmético: Es la suma de los valores de una variable dividido por el total de datos. Media de 2,2,3,7 es x = 2 + 2 + 3 + 7 4 Centro de gravedad de los datos Si se midió a la población, se denomina µ = 47

Media 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 Conveniente cuando los datos se concentran simétricamente con respecto a ese valor. Muy sensible a valores extremos. 48

Mediana Es un valor que divide a las observaciones ordenadas en dos grupos con el mismo número de individuos Mediana de 1,2,4,5,6,6,8 es Mediana de 1,2,4,5,6,6,8,9 es Es conveniente cuando los datos son asimétricos. No es sensible a valores extremos. Altura mediana 49

Moda Es el valor de la variable que más se repite Moda de 1,2,4,5,6,6,8 es Moda de 1,2,2,5,6,6,8 es Moda de 1,2,4,5,6,7,8,9 es Es el único estadístico calculable en variables cualitativas En variables continuas, es el/los valor/es donde la distribución de frecuencia alcanza un máximo, relativo o absoluto. 50

Asimetría Una distribución es simétrica si la mitad izquierda de su distribución es la imagen especular de su mitad derecha. En las distribuciones simétricas media y mediana coinciden. Si sólo hay una moda también coincide La asimetría es positiva o negativa en función de a qué lado se encuentra la cola de la distribución. La media tiende a desplazarse hacia las valores extremos (colas). Las discrepancias entre las medidas de centralización son indicación de asimetría. 51

Estadísticos de dispersión Miden el grado de dispersión (variabilidad) de los datos, independientemente de su causa. Amplitud o Rango: La diferencia entre las observaciónes extremas. 2,1,4,3,8,4. El rango es Es muy sensible a los valores extremos. Rango intercuartílico (RIQ): Es la distancia entre el primer y tercer cuartil. Rango intercuartílico = P 75 - P 25 Parecida al rango, pero eliminando las observaciones más extremas inferiores y superiores. No es tan sensible a valores extremos. 52

Estadísticos de dispersión {0, 1, 2, 2, 4, 5, 5, 7, 8, 10} n=10-13 13 x1 x = 4,4-3,4-2,4-2,4-0,4 0,6 0,6 2,6 3,6 5,6 0 1 2 3 4 5 6 7 8 9 10 x = 4,4

Varianza σ 2 N i = 1 = ( x µ ) i N 2 s 2 = n i = 1 ( x x ) i n 1 2 poblacional muestral Es el promedio de las desviaciones (al cuadrado) de cada dato con respecto a la media A mayor variabilidad, mayor varianza Es sensible a valores extremos Sus unidades son las de la variable pero al cuadrado! 54

Desvío estándar o típico σ N 2 i= 1 = σ = ( x µ ) i N 2 s = s 2 = n i= 1 ( x x) i n 1 2 poblacional muestral Tiene las mismas unidades que la variable A mayor variabilidad, mayor desvío estándar No confundir con error estándar o típico 55

Coeficiente de variación σ s CV = 100 CV = 100 µ x poblacional muestral No tiene unidades Es una medida de variabilidad relativa: Mide la desviación típica en forma de qué tamaño tiene con respecto a la media Se utiliza para comparar variabilidad 56

57

Actividad Las siguientes distribuciones están basadas en la misma cantidad de datos Determinar el promedio y ordenar según el desvío estándar en orden creciente Serie A Serie B Serie C f 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 f 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 f 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 x x x 58

Estadísticos de posición Se define el fractil de orden k como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada k. Casos particulares son los percentiles, cuartiles, deciles, percentiles,... 59

Estadísticos de posición Cuartiles: Dividen a la muestra en 4 grupos con la misma cantidad de datos. Q1 = Deja por debajo el 25% de los datos Q2 = Deja por debajo el 50% de los datos = mediana Q3 = Deja por debajo el 75% de los datos Deciles: Dividen a la muestra en 10 grupos con la misma cantidad de datos El D1 deja por debajo al 10% de las observaciones. Por encima queda el 90% Percentiles: Dividen a la muestra en 100 grupos con la misma cantidad de datos La mediana es el percentil 50 El percentil de orden 15 deja por debajo al 15% de las observaciones. Por encima queda el 85% 60

Ejemplo Qué peso no llega a alcanzar el 25% de los individuos? Primer cuartil = percentil 25 = 60 Kg. Qué peso es superado por el 25% de los individuos? Tercer cuartil= percentil 75= 80 kg. Entre qué valores se encuentra el 50% de los individuos con un peso más normal? Entre el primer y tercer cuartil = entre 60 y 80 kg. 50% 61

62

Gráfico de caja (Box Plot) Ordenar los datos de menor a mayor Hallar los 5 números resumen: mín, Q1, mediana, Q3 y máx Los dos cuartiles determinan los bordes de la caja y la mediana, la línea que la atraviesa Calcular el RIQ = Q3 Q1 Calcular los límites inferior y superior como Q1-1.5 RIQ y Q3+1.5 RIQ respectivamente Las observaciones que caen por fuera se consideran datos atípicos Prolongar la línea hasta el valor menor y mayor, respectivamente, dentro de los límites 63

64

Volviendo al ejemplo Tablas de frecuencias Variable Clase LI LS MC FA FR FAA FRA Largo 1 105,00 129,29 117,14 11 0,07 11 0,07 Largo 2 129,29 153,57 141,43 16 0,11 27 0,18 Largo 3 153,57 177,86 165,71 9 0,06 36 0,24 Largo 4 177,86 202,14 190,00 27 0,18 63 0,43 Largo 5 202,14 226,43 214,29 32 0,22 95 0,65 Largo 6 226,43 250,71 238,57 41 0,28 136 0,93 Largo 7 250,71 275,00 262,86 11 0,07 147 1,00 147 1,00 0,29 1,00 Estadística descriptiva Resumen Largo n 147 Media 201,79 D.E. 42,49 Var(n-1) 1805,00 Var(n) 1792,72 CV 21,05 Mín 105,00 Máx 275,00 Mediana 210,00 Q1 178,00 Q3 235,00 Asimetría -0,63 Kurtosis -0,60 280 frecuencia relativa 0,22 0,15 0,07 frec. rel. acumulada 0,75 0,50 0,25 Largo (mm) 250 220 190 160 0,00 93 117 141 166 190 214 239 263 287 Largo (m m.) 0,00 93 117 141 166 190 214 239 263 287 Largo (m m.) 130 100

Estadísticos y gráficos recomendados según el tipo de variable Tipo de variable Tipo de gráfico Medida de tend. central Medida de dispersión Cualitativa Nominal Circular De barras modo - Cualitativa ordinal De barras modo - Cuantitativa Discreta De barras Box Plot modo - media desvío std mediana RIQ Cuantitativa Continua Histograma Box Plot modo - media desvío std mediana RIQ 66