Otras medidas descriptivas usuales



Documentos relacionados
Parámetros y estadísticos

ANÁLISIS DESCRIPTIVO CON SPSS

Tema 3. Medidas de tendencia central Introducción. Contenido

MEDIDAS DE DISPERSIÓN EMPLEANDO EXCEL

1.1. Introducción y conceptos básicos

Medidas de tendencia central o de posición: situación de los valores alrededor

Estadística: conceptos básicos y definiciones.

Clase 2: Estadística

Tema 2. Análisis gráfico Ejercicios resueltos 1

ESTADÍSTICA SEMANA 4

8.1. Introducción Dependencia/independencia estadística Representación gráfica: diagrama de dispersión Regresión...

Clase 2: Estadística

UNIDAD 4: MEDIDAS DE TENDENCIA CENTRAL

MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN

Capítulo 10. Análisis descriptivo: Los procedimientos Frecuencias y Descriptivos

Ejercicio de estadística para 3º de la ESO

Estadística con Excel Informática 4º ESO ESTADÍSTICA CON EXCEL

Eduardo Kido 26-Mayo-2004 ANÁLISIS DE DATOS

Práctica 2 ESTADÍSTICA DESCRIPTIVA

ESTADÍSTICA APLICADA A LA INVESTIGACIÓN EN SALUD Medidas de Tendencia Central y Dispersión

Socioestadística I Análisis estadístico en Sociología

Media vs mediana vs moda Cual medida de tendencia central es mas adecuada? MEDIA conveniencias:

Gráficas de caja. El borde derecho de la caja es el tercer cuartil, Q 3, que es la mediana de los valores que están por encima de la mediana.

DIAGRAMAS DE CAJA. Apuntes de Métodos Estadísticos I Prof. Gudberto J. León R. I- 79

Aplicaciones de Estadística Descriptiva

Estadística descriptiva con Excel (Cálculo de medidas)

Estadística. Conceptos de Estadística. Un individuo o unidad estadística es cada uno de los elementos que componen la población.

Covarianza y coeficiente de correlación

MEDIDAS DE TENDENCIA CENTRAL

UNIDAD III MEDIDAS DE TENDENCIA CENTRAL

Las bebidas Alcohólicas

ANÁLISIS DE DATOS NO NUMERICOS

LECCION 1ª Introducción a la Estadística Descriptiva

TEMA 7: Análisis de la Capacidad del Proceso

REPASO CONCEPTOS BÁSICOS DE ESTADÍSTICA. DISTRIBUCIÓN NORMAL.

GRADO TURISMO TEMA 2: ANÁLISIS DE DATOS TURÍSTICOS UNIDIMENSIONALES

Capítulo 10. Gráficos y diagramas

1. MEDIDAS DE TENDENCIA CENTRAL

1. Análisis de variables cuantitativas (2 a parte)

Servicio de Marketing

Asignatura: Econometría. Conceptos MUY Básicos de Estadística

MUESTREO TIPOS DE MUESTREO

Tema 9 Estadística Matemáticas B 4º E.S.O. 1 TABLAS DE FRECUENCIAS Y REPRESENTACIONES GRÁFICAS EN VARIABLES DISCRETAS

INFORME DE ANÁLISIS DE ENCUESTAS DE SATISFACCIÓN DE USUARIOS PERÍODO

Medidas de la tendencia central y las gráficas de caja

CUESTIONES DE AUTOEVALUACIÓN (TEMA 1)

Capítulo 5: METODOLOGÍA APLICABLE A LAS NORMAS NE AI

Una forma rápida de ordenar datos numéricos (Diagrama de Tallo y Hoja)

15 PARÁMETROS ESTADÍSTICOS

Estadística Descriptiva

Introducción al SPSS/PC. 1. El editor de datos. Taller de Estadística

Inferencia Estadística

Anexo 4. Herramientas Estadísticas

I1.1 Estudios observacionales IISESIÓN DISEÑO O DE ESTUDIOS EN INVESTIGACIÓN N MÉDICA DESCRIPTIVA CURSO DE. 1.2 Estudios experimentales

TASACION DE INMUEBLES URBANOS

Síntesis Numérica de una Variable

CORRELACIÓN Y PREDICIÓN

ANÁLISIS DE VARIANZA EMPLEANDO EXCEL y WINSTATS

ESTADÍSTICA DESCRIPTIVA CON SPSS

Además se recomienda su uso como herramienta de trabajo dentro de las actividades habituales de planificación y control.

OPERACIONES EN RÉGIMEN DE COMPUESTA

El programa Minitab: breve introducción a su funcionamiento. Para mostrar la facilidad con la que se pueden realizar los gráficos y cálculos

Tema 4 : Tabulación de datos

1.4.- D E S I G U A L D A D E S

Tema 3: Variables aleatorias y vectores aleatorios bidimensionales

1 Ejemplo de análisis descriptivo de un conjunto de datos

Metodología de la Investigación. Dr. Cristian Rusu

ASOCIACIÓN LINEAL ENTRE VARIABLES CUANTITATIVAS: la correlación de Pearson

USAC FACULTAD DE INGENIERÍA ÁREA DE ESTADÍSTICA Coordinación

ANÁLISIS DE BONOS. Fuente: Alexander, Sharpe, Bailey; Fundamentos de Inversiones: Teoría y Práctica; Tercera edición, 2003

Medias Móviles: Señales para invertir en la Bolsa

Roberto Quejido Cañamero

Relación entre formación y empleo

Observatorio Bancario

4 Análisis de los principales factores AsociAdos A los resultados en ciencias

UNIDAD 1 LAS LEYES FINANCIERAS DE CAPITALIZACIÓN DESCUENTO

UNIDAD DIDÁCTICA 7 ANÁLISIS DE ÍTEMS Y BAREMACIÓN DE UN TEST

El valor esperado de una variable aleatoria discreta se representa de la siguiente manera:

ESTIMACIÓN. puntual y por intervalo

TPVFÁCIL. Caja Real. Definiciones.

Tema 7: Estadística y probabilidad

CAPITULO I. Introducción. En la actualidad, las empresas están tomando un papel activo en cuanto al uso de sistemas y

Decisión: Indican puntos en que se toman decisiones: sí o no, o se verifica una actividad del flujo grama.

Análisis de medidas conjuntas (conjoint analysis)

Ecuaciones de primer grado con dos incógnitas

ACCIONES Y OTROS TÍTULOS DE INVERSIÓN

ANÁLISIS DE BALANCES CON EL NUEVO PGC DE 2008

Estadística Descriptiva

Criterios para decidir qué gráfico usar en cada trabajo estadístico

UNIDAD 1. LOS NÚMEROS ENTEROS.

Colegio Alexander von Humboldt - Lima. Tema: La enseñanza de la matemática está en un proceso de cambio

4. Estadística Descriptiva

INTRODUCCIÓN-CONCEPTOS BÁSICOS

Tema 1 con soluciones de los ejercicios. María Araceli Garín

Seguimiento y evaluación

Control Estadístico de Procesos

1. Introducción a la estadística 2. Estadística descriptiva: resumen numérico y gráfico de datos 3. Estadística inferencial: estimación de parámetros

LOS INGRESOS DE LA EMPRESA EN LIBRE COMPETENCIA

Distribución de frecuencias gráficas y tablas

Transcripción:

Tema 7 Otras medidas descriptivas usuales Contenido 7.1. Introducción............................. 1 7.2. Medidas robustas.......................... 2 7.2.1. Media recortada....................... 2 7.2.2. Medidas de dispersión robustas.............. 3 7.3. Medidas de forma.......................... 4 7.3.1. Asimetría.......................... 5 7.3.2. Curtosis........................... 6 7.1. Introducción Además de la medidas que se han visto en los temas anteriores la mayor parte de los programas estadísticos incluyen entre sus descriptivos algunas medidas robustas y algunas medidas de forma. En este tema se presentarán las opciones más habituales. Aunque se incluyen las fórmulas que permiten hacer los cálculos como en temas anteriores, se recomienda el uso de programas estadísticos, sobre todo en el contexto de las medidas robustas, que son especialmente adecuadas para trabajar con grandes volúmenes de datos. 1

Tema 7. Otras medidas descriptivas usuales Medidas robustas 2 7.2. Medidas robustas Las medidas robustas son aquellas que no se ven afectadas por valores atípicos (o, más en general, por discrepancias entre los datos muestrales y el modelo teórico al que se asimilan los datos). Ya se ha comprobado que la media no es una medida descriptiva robusta y, como alternativa, se había planteado la mediana. En esta sección se introducirá otra medida de localización central robusta así como algunas formas de cuantificar la dispersión en este contexto. 7.2.1. Media recortada El inconveniente de la mediana como medida robusta es que sólo tiene en cuenta el orden de los valores, no las magnitudes, por lo que a veces puede resultar poco informativa. Una alternativa que se puede plantear es calcular la media eliminando la posibilidad de que esté afectada por los valores extremos excluyendo del estudio sistemáticamente los valores altos y los bajos. La media recortada al 10 % es la media aritmética del 90% central de los valores de la muestra. Es decir, se eliminan el 10% de los valores extremos (el 5% de los valores más altos y el 5% de los más bajos) y se calcula la media de los que quedan. Como la media aritmética, es una medida de tendencia central para variables cardinales que tiene ventajas e inconvenientes. La mayor ventaja es que al eliminar el 10% los valores extremos, en caso de que haya valores atípicos, éstos no influyen en su cálculo y en este sentido es mejor que la media. Sin embargo, eliminar individuos también supone un inconveniente, porque sabemos que las muestras son más informativas cuanto más grandes sean y eliminar datos supone una pérdida de conocimiento. Si se dispone de muchos datos, eliminar alguno no es problema, pero si la muestra es pequeña, sí puede serlo. Además, es menos operativa matemáticamente que la media. Si el tamaño de muestra es suficientemente grande, comparando los valores de la media aritmética y de la media recortada se puede saber si hay valores muy extremos que hacen que la media aritmética no sea buena sin falta de hacer análisis exploratorios. Si se diferencian poco, significa que el 10% de los valores que se excluyeron no aportaban mucho en el cálculo de la media, pero si se diferencian mucho significa que tenían mucho peso y que la media puede estar distorsionada por ellos.

Tema 7. Otras medidas descriptivas usuales Medidas robustas 3 En definitiva, se utilizará este descriptivo como medida de tendencia central únicamente si la muestra es suficientemente grande y hay valores atípicos que hacen que la media esté muy desvirtuada. Si se sospecha que hay más o menos de un 10% de valores atípicos se podría optar por hacer otro recorte (15 o 5% o recortar sólo los altos y no los bajos, etc.), o elegir otras medidas robustas más avanzadas que sufran menor pérdida de información. 7.2.2. Medidas de dispersión robustas Si hay valores atípicos, la media no es buena medida de centro. En este caso, la varianza, la desviación típica y el CV no sirven para cuantificar la dispersión, ya que miden la variabilidad en torno a un punto que no resulta representativo. Además, como se calculan a partir de las magnitudes de todos los datos, también están influenciadas por los datos extremos. Las medidas de dispersión adecuadas a cada caso dependen de la medida de centro elegida. Amplitud intercuartil Cuando se elige la mediana, se puede cuantificar la dispersión mediante la amplitud intercuartil (la altura de la caja del gráfico de cajas, ver Sección 2.2.2), que es la diferencia entre el tercer cuartil y el primero, es decir, AI = C 3 C 1 = Q 0,75 Q 0,25. Los cuartiles son, al igual que la mediana, descriptivos de orden (sólo interviene en su cálculo el orden, y no la magnitud), por lo que son también medidas robustas. No obstante, debe tenerse en cuenta que si las muestras son pequeñas y hay un porcentaje relativamente alto de valores atípicos, la diferencia entre considerarlos o no puede ser tangible. La amplitud intercuartil presenta el mismo inconveniente que la mediana: al estar basada en órdenes a veces no resulta suficientemente informativa. La AI mide el rango en que se mueven valores moderados (eliminando el 25% de los valores más bajos y el 25% de los valores más altos). Si la amplitud intercuartil es muy pequeña, significa que los valores moderados están muy próximos entre sí, es decir, hay poca dispersión o variabilidad y, por lo tanto, el valor central (que es justo la mediana) resulta muy representativo. Si la amplitud intercuartil es muy grande ocurre justo lo contrario.

Tema 7. Otras medidas descriptivas usuales Medidas de forma 4 MEDA En el Tema 4 se introducían las medidas de variabilidad calculando, en primer lugar, el promedio de las desviaciones absolutas. Como la media no es robusta, si hay una desviación muy grande (provocada por un dato atípico), esa medida de dispersión queda desvirtuada. Como alternativa a la media se tienen la mediana y la media recortada. La mediana de las desviaciones absolutas recibe, en general, el nombre de MEDA. Se suele utilizar, en particular, cuando se elige la mediana como medida robusta de centro. Su fórmula para una muestra de N datos x 1,...x N con mediana Me es MEDA = Me( X Me ) = Me{ x 1 Me,..., x N Me }. Aunque en el Tema 4 se indicaba que el valor absoluto no resultaba muy operativo y se prefería sustituir por el cuadrado, esto ocurre principalmente cuando se trabaja con promedios como medidas de centro. Por motivos técnicos cuando se considera la mediana las distancias suelen medirse en valor absoluto, de ahí que se utilice más la MEDA que la mediana de las desviaciones cuadráticas, que sería otra posibilidad. La ventaja de la MEDA respecto a la amplitud intercuartil es que se calculan diferencias de todos los valores al centro (en vez de la diferencia de únicamente 2 valores) así que aunque finalmente se utilice sólo el orden de las diferencias, puede resultar más informativa. Desviación recortada Si se elige la media recortada al 10% como medida de centro, ya se están seleccionando los valores que se consideran no atípicos para su cálculo, luego lo lógico será cuantificar la dispersión utilizando esos valores de la forma habitual. Las tres medidas de dispersión robustas que se han introducido son absolutas (se miden en las mismas unidades que la variable), pero se pueden relativizar con respecto al valor central elegido como se hacía con el CV (dividiendo su valor por la medida de centro correspondiente). Problema propuesto: Problema 7.1. 7.3. Medidas de forma Las medidas de forma se suelen utilizar para comparar las distribuciones muestrales con la distribución más importante de la Estadística: la distribución normal.

Tema 7. Otras medidas descriptivas usuales Medidas de forma 5 La distribución normal, o campana de Gauss, es una abstracción de un tipo de distribuciones muy habituales en la práctica, con mucha densidad de valores agrupados alrededor de la media, pocos valores bajos o altos y simétrica (ver Figura 7.1). Figura 7.1: Distribución normal. Muchas inferencias clásicas en Estadística están diseñadas para la distribución normal. De hecho, tanto la media como todas las medidas basadas en ella (como la varianza, la tipificación, etc.) son especialmente representativas en las ditribuciones tipo normal. Si la forma de una distribución se aleja mucho de la normalidad suele ser conveniente un análisis más profundo, en busca de posibles subpoblaciones (por ejemplo, por sexos, especies, etc.) o bien optar por medidas mejor adaptadas a esas distribuciones, como suelen ser las medidas robustas. Las características básicas de una distribución normal son la simetría y la forma de campana con la que los valores se agrupan en torno a la media. 7.3.1. Asimetría El coeficiente de asimetría clásico o coeficiente de Fisher, γ 1, cuantifica la falta de simetría de una variable cardinal respecto a su valor medio (también se podría analizar la asimetría respecto a la mediana u otro valor central). Su fórmula (implementada en la mayor parte de los paquetes estadísticos) es: γ 1 = k (x i x) 3 f i i=1 Sx 3. Se dice que una distribución es simétrica respecto a la media si lo que hay por debajo de la media se distribuye igual que lo que hay por encima, en cuyo caso el

Tema 7. Otras medidas descriptivas usuales Medidas de forma 6 Distribución simétrica (asimetría=0) Distribución asimétrica a la derecha (asimetría>0) Distribución asimétrica a la izquierda (asimetría<0) Figura 7.2: Distribuciones simétricas y asimétricas. coeficiente de asimetría toma el valor 0. La simetría/asimetría se aprecia muy bien gráficamente en histogramas o diagramas de barras (ver Figura 7.2). A grandes rasgos se puede decir que en las distribuciones asimétricas a la derecha hay valores altos con cierto peso (frecuencia) que tienden a alejarse más y los valores bajos tienden a estar más concentrados cerca de la media. En este caso el coeficiente de asimetría será un valor positivo. Si los valores bajos se alejan más de la media con cierta frecuencia y los altos están más concentrados será una distribución asimétrica a la izquierda y entonces el coeficiente de asimetría será un valor negativo. El coeficiente de asimetría es un coeficiente adimensional (no tiene unidades), por lo que se puede utilizar para realizar comparaciones. Si no hay valores muy extremos suele variar pocas unidades alrededor de 0 (lo normal es entre -2 y 2, más raramente entre -4 y 4, y si toma valores más alejados de 0, suele ser por la existencia de valores atípicos). Si una distribución es muy asimétrica, habrá valores altos o bajos alejados de la media que pueden desvirtuar su valor, por lo que en este caso suele ser recomendable elegir una medida robusta. Dada la estrecha relación de las dos medidas de forma consideradas, se ilustrarán ambos conceptos mediante un ejemplo después de introducir la curtosis. 7.3.2. Curtosis El coeficiente de curtosis mide el grado de apuntamiento (forma campanoide alrededor de la media) de una variable en relación con la distribución normal. Su fórmula (también implementada en la mayor parte de los paquetes estadísticos) es:

Tema 7. Otras medidas descriptivas usuales Medidas de forma 7 γ 2 = k (x i x) 4 f i i=1 Sx 4 3. Si una distribución es igual de apuntada que la normal se llama mesocúrtica y tiene un coeficiente de curtosis igual a 0. Si es más apuntada que la normal, se llama leptocúrtica, su curtosis será positiva y eso significa que los valores centrales están más concentrados que los de la normal y los extremos son menos frecuentes. El coeficiente de curtosis será negativo si la distribución es menos apuntada de lo normal (platicúrtica), y eso significa que los valores centrales están menos concentrados que los de la normal y los extremos son más frecuentes (ver Figura 7.3). Apuntamiento normal (curtosis=0) Más apuntada que la normal (curtosis>0) Menos apuntada que la normal (curtosis<0) Figura 7.3: Distribuciones mesocúrticas, leptocúrticas y platicúrticas. El coeficiente de curtosis también es un coeficiente adimensional (no tiene unidades), por lo que se puede utilizar para realizar comparaciones. Si no hay valores muy extremos suele variar pocas unidades alrededor de 0. Problema propuesto: Problema 7.2.