Estadística Descriptiva en SPSS

Documentos relacionados
Módulo de Estadística

Probabilidad y Estadística, EIC 311

PREGUNTAS TIPO EXAMEN- ESTADÍSTICA DESCRIPTIVA 2

FLORIDA Secundaria. 1º BACH MATEMÁTICAS CCSS -1- BLOQUE ESTADÍSTICA: ESTADÍSTICA VARIABLE UNIDIMENSIONAL. Estadística variable unidimensional

U.D.1: Análisis estadístico de una variable Consideraciones iniciales: Propuesta: 1.1 Distribución de frecuencias. Variables Cualitativas: Ejemplo

Fundamentos de Estadística y Simulación Básica

Estadística Inferencial. Estadística Descriptiva

MEDIDAS DE TENDENCIA CENTRAL

Estadística Descriptiva

Tema 2 Estadística Descriptiva

ESTADÍSTICA DESCRIPTIVA

Y accedemos al cuadro de diálogo Descriptivos

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua

UNIDAD 7 Medidas de dispersión

Curso de Estadística Aplicada a las Ciencias Sociales

ESTADÍSTICA APLICADA. TEMA 1. ESTADÍSTICA DESCRIPTIVA

Medidas de Tendencia Central.

Tema 2: Estadísticos. Bioestadística. U. Málaga. Tema 2: Estadísticos 1

Métodos Matemá-cos en la Ingeniería Tema 5. Estadís-ca descrip-va

Bioestadística: Estadística Descriptiva

Curso de nivelación Estadística y Matemática

TEMA IV PERCENTIL Y ESTADIGRAFOS DE POSICION

ESTADÍSTICA DESCRIPTIVA

Fase 2. Estudio de mercado: ESTADÍSTICA

ESTADÍSTICA SEMANA 3

ESTADÍSTICA UNIDIMENSIONAL

MEDIDAS DE RESUMEN: MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN. Lic. Esperanza García Cribilleros

Medidas de posición para variables cuantitativas

2. DESCRIPCIÓN ESTADÍSTICA DE UNA VARIABLE. EJEMPLOS Y EJERCICIOS *.

Estadística. Análisis de datos.

Medidas de variabilidad (dispersión)

Z i

Estadística para el análisis de los Mercados S2_A1.1_LECV1

Tema 6. Variables aleatorias continuas

Un estudio estadístico consta de las siguientes fases: Recogida de datos. Organización y representación de datos. Análisis de datos.

Dr. Richard Mercado Rivera 18 de agosto de 2012 Matemática Elemental

Transformaciones de variables

Formulario. Estadística Administrativa. Módulo 1. Introducción al análisis estadístico

UNIVERSIDAD AUTONOMA DE SANTO DOMINGO

GLOSARIO ESTADÍSTICO. Fuente: Murray R. Spiegel, Estadística, McGraw Hill.

Datos cuantitativos. Método tabular

UNIVERSIDAD AUTÓNOMA DEL ESTADO DE MÉXICO

5.2 Representaciones gráficas

Índice general. Pág. N. 1. Capítulo 1 ETAPAS DE UNA INVESTIGACIÓN. Diseño. Población. Muestra. Individuo (Observación, Caso, Sujeto) Variables

Estadística descriptiva VARIABLES CUANTITATIVAS

ANÁLISIS EXPLORATORIO DE DATOS ESPACIALES ESTADÍSTICA ESPACIAL

ANÁLISIS DE DATOS UNIDIMENSIONALES

ANÁLISIS DESCRIPTIVO DE LOS DATOS DE VARIABLES CUANTITATIVAS

Métodos de Investigación en Psicología (10) Dra. Lucy Reidl Martínez Dra. Corina Cuevas Reynaud Dra. Renata López Hernández

Tabla de frecuencias agrupando los datos Cuando hay muchos valores distintos, los agruparemos en intervalos (llamados clases) de la misma amplitud.

Ejemplos y ejercicios de. Estadística Descriptiva. yanálisis de Datos. 2 Descripción estadística de una variable. Ejemplos y ejercicios.

Universidad Nacional de Mar del Plata. Facultad de Ingeniería. Estadística Básica COMISIÓN 1. 1 Cuatrimestre 2016

478 Índice alfabético

INDICE 1. Qué es la Estadística? 2.Descripción de Datos: Distribuciones de Frecuencia y Presentación Gráfica

ESTADÍSTICA DESCRIPTIVA

ANEXO 1. CONCEPTOS BÁSICOS. Este anexo contiene información que complementa el entendimiento de la tesis presentada.

REPASO DE ESTADÍSTICA DESCRIPTIVA

Los estadísticos descriptivos clásicos (Robustez)

UNIDAD 4: MEDIDAS DESCRIPTIVAS: Medidas de dispersión

1. Dado el siguiente volumen de ventas de una empresa y su gasto en I+D en miles. Prediga las ventas de este empresario para un gasto en I+D de 7.

Medidas descriptivas I. Medidas de tendencia central A. La moda

Estadística descriptiva y métodos diagnósticos

INTRODUCCIÓN AL ANÁLISIS DE DATOS ORIENTACIONES (TEMA Nº 7)

Guía de Matemática Cuarto Medio

II. ORGANIZACIÓN N Y PRESENTACIÓN N DE DATOS

Unidad Temática 1 Estadística descriptiva y análisis de datos

EJERCICIOS TEMA 1. Clasifica los siguientes caracteres estadísticos según sean cualitativos, variables discretas o variables continuas:

Dispone de 1 hora para resolver las siguientes cuestiones planteadas.

UNIVERSIDAD ABIERTA PARA ADULTOS UAPA CARRERA LICENCIATURA EN ADMINISTRACIÓN DE EMPRESAS PROGRAMA DE LA ASIGNATURA ESTADÍSTICA I

Temas de Estadística Práctica

Matemática. Desafío. GUÍA DE EJERCITACIÓN AVANZADA Cálculo de medidas de dispersión y muestreo GUICEN041MT22-A16V1

3. ASOCIACIÓN ENTRE DOS VARIABLES CUALITATIVAS

Apuntes y ejercicios de Estadística para 2º E.S.O

UNIDAD: ESTADISTICA. La estadística se ocupa de recopilar datos, organizarlos en tablas y gráficos y analizarlos con un determinado objetivo.

Estadística Descriptiva

viii CAPÍTULO 2 Métodos de muestreo CAPÍTULO 3 Análisis exploratorio de datos

MEDIDAS DE TENDENCIA CENTRAL

Medidas de tendencia central y dispersión

Medidas de tendencia central

ESTADÍSTICA CON EXCEL

Tema 5. Variables Aleatorias

La desviación típica y otras medidas de dispersión

68 Bioestadística: Métodos y Aplicaciones. curtosis<0 curtosis=0 curtosis>0. Figura 2.10: Apuntamiento de distribuciones de frecuencias

UNIVERSIDAD AUTONOMA DE SANTO DOMINGO

CURSO VIRTUAL. Acceso a fuentes de información y manejo de redes sociales. Módulo 2

Tema 7: Estadística y probabilidad

Curso de Estadística Básica

NOCIONES DE ESTADÍSTICA CURSO PRÁCTICO DE CLIMATOLOGÍA 2012

Estadística I. Profesor de teoría: Profesores de práctica: Andrés M. Alonso

Medidas de centralización

M i. Los datos vendrán en intervalos en el siguiente histograma de frecuencias acumuladas se ilustra la mediana.

Medidas de Tendencia Central. Dra. Noemí L. Ruiz Limardo Derechos de Autor Reservados Revisado 2010

Departamento de Medicina Preventiva y Salud Publica e Historia de la Ciencia. Universidad Complutense de Madrid. SPSS para windows.

LOS ESTADÍGRAFOS BÁSICOS Y SU INTERPRETACIÓN, M TENDENCIA CENTRAL

NOCIONES DE ESTADÍSTICA CURSO PRÁCTICO DE CLIMATOLOGÍA 2011

Julio Deride Silva. 27 de agosto de 2010

Tema 6. Índices estadísticos de variables cuantitativas. Parámetros de tendencia central, dispersión, posición y forma.

INDICE. Prólogo a la Segunda Edición

Medidas de Tendencia Central, Medidas de Dispersión & Otros Estadísticos (Cap. 2) Math. 298 Prof. Gaspar Torres Rivera

9.1. Nociones básicas.

Transcripción:

Estadística Descriptiva en SPSS Marcelo Rodríguez Ingeniero Estadístico - Magister en Estadística Universidad Católica del Maule Facultad de Ciencias Básicas Pedagogía en Matemática Estadística I 22 de octubre de 2011 mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 1 / 42

Introducción a la Estadística Descriptiva Una vez desarrollado el plan de muestreo y generados los datos es necesario organizarlos, presentarlos y resumirlos adecuadamente con el objetivo de obtener información, la que nos servirá como apoyo a la toma de decisiones. Existen tres formas de resumir los datos; organización mediante tablas, gráficos y medidas descriptivas. La organización de datos consiste en determinar qué unidades de análisis pertenecen a qué atributos de la variable bajo estudio, estableciendo para ello las frecuencias con las que estas unidades pertenecen a esos atributos. Una vez realizada esta organización se procede a la presentación de los datos organizados a través de tablas o cuadros y de gráficos estadísticos. mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 2 / 42

Organización de Datos Definición (Clase) Una clase o categoría es uno de los posibles atributos que puede tener una unidad de análisis que es caracterizada a través de una variable. Definición (Intervalo de clase) Este atributo pasa a denominarse intervalo de clase cuando la variable es continua o clase cuando ésta es no es continua. Por simplificación, cualquiera sea el tipo de variable, nos referiremos a estas categorías como clase. Es imprescindible que estas clases sean excluyentes o disjuntas, ya que de esta forma no existe ambigüedad en la clasificación de las unidades de análisis. mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 3 / 42

Organización de Datos Supongamos que se desea estudiar una variable que esta agrupada en k clases excluyentes, digamos c 1, c 2,..., c k. Definición (Frecuencia Absoluta) Corresponde al número de unidades de análisis que pertenecen a la clase c i y se denota por n i, (i = 1,..., k), donde k n i = n. i=1 mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 4 / 42

Organización de Datos Definición (Frecuencia Relativa) Corresponde al porcentaje de unidades de análisis que pertenecen a la clase c i y se denota por f i, (i = 1,..., k), donde k i=1 f i = 100. Entonces, f i = n i n 100. Definición (Frecuencia Relativa Acumulada) Corresponde al porcentaje acumulado de unidades de análisis que pertenecen a las clases c 1, c 2,..., c k y se denota por F i, (i = 1,..., k), donde i F i = f j. Así, F 1 = f 1 y F k = 100. j=1 mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 5 / 42

Tabla Estadística para variables cualitativas Una tabla estadística es una tabla de frecuencias, de cada clase. En el caso que la variable sea cualitativa sería de la siguiente forma. Porcentaje Clases Frecuencia (n i ) Porcentaje (f i ) Acumulado (F i ) c 1 n 1 f 1 F 1 c 2 n 2 f 2 F 2.... c k n k f k F k = 100 Total n 100 Se puede también utilizar para variables discreta con un bajo rango de variabilidad. mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 6 / 42

Ejemplo: Rendimiento Laboral Ejemplo En un estudio se está analizando el rendimiento laboral, para lo cual se considera una muestra de 15 trabajadores, a las cuales se les mide el rendimiento (1=bajo, 2=medio y 3=alto). Los datos se entregan a continuación. Rendimiento 3 2 1 1 2 1 3 3 2 3 3 2 2 2 2 Identifique la variable, su tipo y escala de medición. Encuentre la tabla de frecuencia. Calcule la frecuencia: absoluta (n i ), relativa (f i ) y relativa acumulada (F i ). Interprete. mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 7 / 42

Organización de Datos: Método para crear los intervalos de clases Paso 1: Contar el número n de datos. Paso 2: Calcular el rango (R), R = max min, donde min y max corresponden a los valores mínimos y máximos de los datos, respectivamente. Paso 3: Escoger el número de clases (intervalos). Se sugiere,el entero más próximo de la regla de Sturges, dada por k = 1 + 3, 3 log(n), donde log( ) es el logaritmo en base 10. También el investigador puede elegir el número de clases según especificaciones propias. mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 8 / 42

Organización de Datos: Método para crear los intervalos de clases Paso 4: Calcular la amplitud (A) A = R k. Paso 5: Para determinar los extremos de la primera clase (intervalo) se debe tomar como límite inferior el valor min y como límite superior el valor min +A. Este sería c 1 Paso 6: Para obtener las restantes clases (c j ), se suma sucesivamente A al límite inferior, donde el límite inferior de las sucesivas clases corresponderá a límite superior de la clase anterior. mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 9 / 42

Tabla Estadística para variables cuantitativas Finalmente, si la variable bajo estudio es cuantitativa continua (o discreta con un alto rango de variabilidad), entonces el esquema de tabla anterior sufre un leve modificación que está relacionada con la creación de los intervalos de clases. En este caso, la tabla es el siguiente: Intervalos de Marca de Frecuencia Porcentaje Porcentaje Clase clase (m i ) (n i ) (f i ) Acumulado (F i ) c 1 = [min; min +A[ m 1 n 1 f 1 F 1 c 2 = [min +A; min +2A[ m 2 n 2 f 2 F 2.. c k = [min +(k 1)A; max] m k n k f k F k Total n 100... Donde la marca de clase i-ésima (m i ) corresponde al promedio del intervalo i-ésimo (i = 1,..., k). Observación Si desea crear los datos (aproximadamente) con esta tabla, repita la m i tantas veces como lo indique la n i. mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 10 / 42

Ejemplo Ejemplo Se realizó un estudio con 30 individuos, pertenecientes a una misma empresa. El coeficiente intelectual, fue la variable que se registró mediante una prueba de conocimiento. Los puntajes de la prueba son los siguientes: 8,70 9,20 9,30 9,60 9,90 10,10 10,20 10,30 10,40 10,40 10,50 10,90 11,40 11,40 11,50 11,60 11,80 11,90 12,30 12,30 12,40 12,70 12,80 13,00 13,10 13,60 13,80 14,50 14,70 15,80 Identifique la variable, su tipo y escala de medición. Encuentre los intervalos de clases. Encuentre la tabla de frecuencia. Calcule la frecuencia: absoluta (n i ), relativa (f i ) y relativa acumulada (F i ). Interprete. mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 11 / 42

Gráficos Estadísticos de frecuencias Las grandes cantidades de datos estadísticos resultan incómodos de interpretar y si éstos no están ordenados de alguna manera. La principal ventaja de la construcción de gráficos con los datos de una investigación, es que nos permite visualizar más claramente la distribución de éstos, hacer una mejor comparación de resultados y un análisis objetivo de estos últimos. Una buena definición de lo que es un gráfico es la siguiente. Definición (Gráfico) es una representación pictórica, mediante figuras geométricas u otros elementos, que proporciona un resumen de la información que interesa destacar y, lo más importante, recordar. mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 12 / 42

Gráficos Estadísticos de frecuencias: Barra Simple Representa distribuciones de frecuencias de variables cualitativas o discretas con bajo rango de variabilidad. Es un conjunto de rectángulos adyacentes (con un espacio entre ellos). En el eje horizontal deben ir las clases y en el eje vertical las frecuencias o los porcentajes. 50,0% 40,0% Porcentaje 30,0% 20,0% 46,67% 33,33% 10,0% 20,00% 0,0% Bajo Medio Alto Grado de dulzor de la especie Royal Gala mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 13 / 42

Gráficos Estadísticos de frecuencias: Histograma Se usa para variables continuas o discretas con alto rango de variabilidad. Es un conjunto de rectángulos adyacentes. En el eje horizontal deben ir los intervalos (clases) y en el eje vertical las frecuencias o los porcentajes. mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 14 / 42

Gráficos Estadísticos de frecuencias: Sectorial Muestra una comparación proporcional entre las distintas clases de la variable, en particular se usa para variables cualitativas. mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 15 / 42

Medidas de Resumen Estas medidas estadísticas resumen al conjunto de datos, también se les denomina estadísticos. Estas medidas se clasifican en medidas de posición, dispersión y forma. (Medidas de Posición) Entregan la posición relativa que poseen los individuos dentro de la distribución y se subdividen en dos: a) Las medidas de tendencia central, que tienden a ubicarse en el centro de la distribución, entre las cuales se encuentran: La media o promedio aritmético. La mediana o valor del centro. La moda, o valor más frecuente. b) Los percentiles, que tienden a ubicarse en distintas partes de la distribución de la variable, entre los que se encuentran: Los cuartiles (dividen al conjunto en cuatro partes iguales). Los deciles (dividen al conjunto en 10 partes iguales). mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 16 / 42

Medidas de tendencia central: Media Definición (Media) La media o promedio aritmético de un conjunto de n datos digamos x 1, x 2,..., x n, viene dado por: x = n i=1 x i n. Definición (Media Recortada al 5%) Es el promedio de los datos sin considerar el 5% más pequeño, ni el 5% más alto. El uso de la media es exclusivamente para variables cuantitativas. La media puede ser afectado de manera desproporcionada por la existencia de datos atípicos (fuera de lo común). La media recortada al 5%, comúnmente no es afectada por valores atípicos. mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 17 / 42

Medidas de tendencia central: Mediana Definición (Mediana) Corresponde al valor central cuando las n observaciones se ordenan de menor a mayor. Es decir, considere las siguientes observaciones x 1, x 2,..., x n, además si ordenamos estas observaciones de menor a mayor tenemos x (1), x (2),..., x (n), entonces la mediana sería M e = x ( n+1 2 ), si n es impar; x ( n 2 ) + x ( n 2 2 +1), si n es par. No se puede usar esta medida si la escala de medición de la variables es nominal. Su cálculo no es afectado por la existencia de datos atípicos. mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 18 / 42

Medidas de tendencia central: Moda Definición (Moda (M o )) Corresponde al valor o categoría con más alta frecuencia en los datos. El uso de esta medida es para cualquier tipo de variable. En el caso de variables cuantitativas, los datos pueden ser agrupados en clases y la moda se define como la marca de clase que tiene la mayor frecuencia. Puede existir más de una moda en un conjunto de datos. mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 19 / 42

Medidas de posición: Los Percentiles Definición (Percentil α) Los percentiles cumplen con la condición de superar a no más del (1 α)100% de los datos y de ser superado, a los más por el porcentaje complementario de las observaciones. Considere los siguientes datos ordenados de menor a mayor x (1), x (2),..., x (n). Entonces, Donde, i = α(n + 1), e = parte entera de i, d = i e. P α = (1 d) x (e) + d x (e+1). Esta técnica es la que utiliza IBM-SPSS. mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 20 / 42

Medidas de posición: Cuartiles Definición (Cuartiles) Los cuartiles dividen a un conjunto ordenado de datos en 4 grupos de igual tamaño: El cuartil 1 (Q 1 ) marca la parte alta del primer cuarto de los datos, corresponde al P 0,25. El cuartil 3 (Q 3 ) marca la parte baja del último cuarto de los datos, corresponde al P 0,75. El cuartil 2 (Q 2 ) corresponde a la P 0,50 = M e. Metodología para el cálculo aproximado de Q 1 y Q 3 Paso 1: Ordene los datos de menor a mayor y encuentre la M e. Paso 2: Divida los datos en 2 mitades, por encima y por debajo de la M e. Si n es impar incluya la mediana en ambas mitades. Paso 3: Encuentre la mediana en ambas mitades, estas son Q 1 y Q 3. mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 21 / 42

Medidas de dispersión Las segundas medidas estadísticas de resumen, las de dispersión, nos entregan el grado de dispersión, variabilidad u homogeneidad que poseen los datos dentro del conjunto, generalmente respecto de una medida de tendencia central, entre las que se encuentran: El rango o desviación máxima El rango intercuartil. La varianza. La desviación estándar o típica. El coeficiente de variación. Entre otras. mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 22 / 42

Medidas de Dispersión: Rango y Rango Intercuartil Definición (Rango) Corresponde a la diferencia entre el mayor y menor de los datos. Definición (Rango Intercuartil) R = Máx Mín Esta medida de variabilidad es resistente a valores atípicos y se concentra en el 50% de los datos. También llamado Amplitud Intercuartil. RI = Q 3 Q 1 El uso de R y RI no es para variables nominales. R es afectado por la existencia de datos atípicos. RI no es afectado por la existencia de datos atípicos. mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 23 / 42

Medidas de Dispersión: Varianza Definición (Varianza) La varianza de las observaciones x 1, x 2,..., x n es s 2 = 1 n 1 n (x i x) 2. i=1 Esta mide las variaciones promedio que existen en los datos con respecto a la media de la muestra. Su calculo es afectado por la existencia de datos atípicos. El uso de esta medida es exclusivamente para variables cuantitativas. Esta medida no se puede interpreta, pues tiene unidades de medida al cuadrado. mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 24 / 42

Medidas de dispersión: Desviación Estándar Definición (Desviación estándar) Se define la desviación estándar (típica) como s = s 2 = 1 n (x i x) n 1 2. i=1 Su calculo es afectado por la existencia de datos atípicos. El uso de esta medida es exclusivamente para variables cuantitativas. Se interpreta como la cantidad de desviaciones promedio de los datos con respecto a la media. mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 25 / 42

Medidas de Dispersión: Coeficiente de variación Definición (Coeficiente de variación) Corresponde a una medida de dispersión relativa a la media. Esta dada por CV = s x 100% No depende de la unidad de medida. x > 0. Útil para comparar variabilidad entre grupos. Mientras más pequeño es el valor del CV más homogéneos (parecidos entre si) son los datos. mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 26 / 42

Relación entre el promedio y la desviación estándar Definición (Regla empírica ) Para un conjunto de datos (n grande) que tienen un histograma simétrico, con forma de campana, los intervalos, que se presenta a continuación, contienen aproximadamente los siguientes porcentajes de los datos. Frecuencia 1.250 1.000 750 Regla empírica Media = 0 y Desviación Estándar =1. Intervalo Porcentaje [x s; x + s] 68, 27% [x 2s; x + 2s] 95, 45% [x 3s; x + 3s] 99, 73% 500 250 0-3 -2-1 0 1 2 3 Normal mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 27 / 42

Intervalo de Confianza del 95% para la verdadera media poblacional µ (para muestras grandes) Definición (Intervalo de Confianza para µ) Intervalo de Confianza del 95% para la verdadera media poblacional µ (para muestras grandes), se define como [ x 1, 96 s n ; x + 1, 96 ] s n Se recomienda utilizar este intervalo para n 30. s 1, 96 es llamado error de estimación. n s n es llamado error típico de la media. mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 28 / 42

Medidas de Forma Definición (Sesgo) Índice que expresa el grado de asimetría de la distribución de los datos (histograma). La asimetría positiva indica que los valores más extremos se encuentran por encima de la media. La asimetría negativa indica que los valores más extremos se encuentran por debajo de la media. Su formula es n [ ] (x i x) 3 n sk = i=1 (n 1)(n 2) s 3. Si sk = 0, entonces la distribución es simétrica. Si sk < 0, entonces la distribución es asimétrica negativa. Si sk > 0, entonces la distribución es asimétrica positiva. mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 29 / 42

Medidas de Forma: Relación Entre Promedio y la Mediana Distribución Simétrica (No Sesgada): x = M e Distribución Asimétrica Positiva, : M e < x Distribución Asimétrica Negativa: x < M e Una distribución es simétrica si la mitad izquierda de su distribución es la imagen de su mitad derecha. La asimetría es positiva o negativa en función de a qué lado se encuentra la cola de la distribución. La media tiende a desplazarse hacia las valores extremos (colas). mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 30 / 42

Medidas de Forma: Error típico del sesgo Definición (Error típico del sesgo) Es la desviación típica de la distribución muestral del índice de asimetría, el cual permite tipificar el valor del índice de asimetría e interpretarlo como una puntuación z. Índices tipificados mayores que 1,96 en valor absoluto permiten afirmar que existe asimetría (positiva o negativa, dependiendo del signo del índice). Su formula es 6n(n 1) e sk = (n 2)(n + 1)(n + 3). Si, sk 1, 96, entonces la distribución de los datos es simétrica. e sk mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 31 / 42

Resumen de los datos: Coeficientes de apuntamiento Definición (Curtosis) Índice que expresa el grado en que una distribución acumula casos en sus colas en comparación con los casos acumulados en las colas de una distribución normal con la misma varianza. Su formula es n [ ] n(n + 1) k = (n 1)(n 2)(n 3) i=1 (x i x) 4 [ s 4 n(n 1) 2 (n 2)(n 3) ]. Si k > 0, entonces la distribución es más puntiagudas (Leptocurtica).. Si k = 0, (proximos a cero) entonces indican semejanza con la curva normal. Si k < 0, entonces la distribución es más aplanada (Mesocurtica).. mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 32 / 42

Medidas de Forma: Error típico de la curtosis Definición (Error típico de la curtosis) El error típico del índice de curtosis, el cual puede utilizarse para tipificar el valor del índice de curtosis y poder interpretarlo como una puntuación z.. Índices mayores que 1,96 en valor absoluto permiten afirmar que la distribución se aleja de la distribución normal. Su formula es 24n(n 1) e k = 2 (n 3)(n 2)(n + 3)(n + 5). Si, k e k 1, 96, entonces la distribución de los datos es como la normal. Dependiendo del signo de k, se identifica si es platicurtica o mecocurtica. mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 33 / 42

Identificación de Datos Atípicos: Método de la puntuación z Definición (Método de la puntuación z:) Si consideramos la regla empírica, sabemos que aproximadamente el 100% de los datos está en el intervalo [x 3s; x + 3s]. Es muy improbable que un dato esté fuera de este intervalo, y en caso que fuese, éste se llamaría un dato atípico. Es decir, un dato es no atípico si x i [x 3s; x + 3s] x i x s [ 3; 3] x i x s 3 Si consideramos la transformación z i = x i x s, entonces un dato x i es atípico si z i > 3. mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 34 / 42

Identificación de Datos Atípicos: Método de Tukey Definición (Método de Tukey:) Considere las siguientes barreras (bisagras), Barrera Interior Inferior: BII = Q 1 1, 5RI Barrera Interior Superior: BIS = Q 3 + 1, 5RI Barrera Exterior Inferior: BEI = Q 1 3RI Barrera Exterior Superior: BES = Q 3 + 3RI Identifique los datos en este diagrama [ }{{} Potencial No atípico {}}{ [BEI [ [BII BIS] ] BES] }{{}}{{} Posible Posible ] }{{} Potencial mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 35 / 42

Identificación de Datos Atípicos: Diagrama de Caja Definición (Diagrama de caja) El diagrama de caja, entrega información sobre centralidad, dispersión y la forma de la distribución de los datos, identifica valores atípicos y es útil para comparar dos distribuciones. (Procedimiento para realizar esta gráfica) Paso 1: Los bordes de la caja se representan por Q 1 y Q 3, se debe trazar una linea vertical que atraviese la caja en la M e. Paso 2: Trazar líneas desde los bordes de la caja hasta los valores adyacentes (el menor y mayor de los datos no atípicos). Paso 3: Marque los posibles valores atípicos con o y los potenciales con. mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 36 / 42

Identificación de Datos Atípicos: Diagrama de Caja mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 37 / 42

Solución del ejemplo con SPSS mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 38 / 42

Solución del ejemplo con SPSS mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 39 / 42

Solución del ejemplo con SPSS mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 40 / 42

Solución del ejemplo de la altura de las plantas con SPSS mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 41 / 42

Solución del ejemplo, con SPSS mrodriguez@ucm.cl (UCM) Descriptiva 22/10/2011 42 / 42