Tema 2: Introducción a la Estadística Descriptiva

Documentos relacionados
Estadística I Tema 2: Análisis de datos univariantes

Estadística I Tema 2: Análisis de datos univariantes

Estadística I Tema 2: Análisis de datos univariantes Descripción numérica de datos

Estadística I. Profesor de teoría: Profesores de práctica: Andrés M. Alonso

Tema 1: Análisis de datos univariantes

Probabilidad y Estadística,EIC 311

En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de :

Estadística Descriptiva 2da parte

Tema 3: Estadística Descriptiva

Estadística Descriptiva en SPSS

INTRODUCCIÓN. Fenómeno Real. Aprendizaje sobre el fenómeno. Análisis Estadístico. Datos Observados

Apuntes de Estadística

ÁREAS DE LA ESTADÍSTICA

En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de :

1 Resolución de algunos ejemplos y ejercicios del tema 1.

Conceptos de Estadística

Part I. Descripción estadística de una variable. Estadística I. Mario Francisco. Conceptos generales. Distribuciones de frecuencias.

CLASIFICACIÓN DE LA ESTADÍSTICA

ESTADÍSTICA DESCRIPTIVA EN POCAS PALABRAS (por jmd matetam.com)

FLORIDA Secundaria. 1º BACH MATEMÁTICAS CCSS -1- BLOQUE ESTADÍSTICA: ESTADÍSTICA VARIABLE UNIDIMENSIONAL. Estadística variable unidimensional

Estadística Inferencial. Estadística Descriptiva

El Método Científico. Metodología de Investigación. Te sifón Parrón

Técnicas Cuantitativas para el Management y los Negocios

Tabla de frecuencias agrupando los datos Cuando hay muchos valores distintos, los agruparemos en intervalos (llamados clases) de la misma amplitud.

Estadística I Tema 2: Análisis de datos univariantes

Probabilidad y Estadística, EIC 311

UNIDAD 8. ESTADÍSTICA

Dr. Richard Mercado Rivera 18 de agosto de 2012 Matemática Elemental

Estadística Descriptiva

Tema 2: Estadísticos. Bioestadística. U. Málaga. Tema 2: Estadísticos 1

Escala Nominal Permite la clasificación de individuos según escala cualitativa. Ejemplo: Estado civil, profesión, sexo,...

ESTADÍSTICA. Rincón del Maestro:

Estadística ESTADÍSTICA

NIVELACIÓN DE ESTADISTICA. Carlos Darío Restrepo

Exploración de datos

Fundamentos de Estadística y Simulación Básica

PROBABILIDAD. Unidad I Ordenamiento de la Información

ESTADÍSTICA APLICADA. TEMA 1. ESTADÍSTICA DESCRIPTIVA

Bioestadística: Estadística Descriptiva

PREGUNTAS TIPO EXAMEN- ESTADÍSTICA DESCRIPTIVA 2

Tema 9: Estadística descriptiva

Estadística Básica 1er Cuatrimestre 2012

UNIVERSIDAD AUTÓNOMA DEL ESTADO DE MÉXICO

Módulo de Estadística

Curso de Estadística Aplicada a las Ciencias Sociales

OARI CLASE 19/05/2015. DESCRIPCIÓN CUANTITATIVA DE LOS DATOS. MEDIDAS RESUMEN

ESTADÍSTICA I. Dr. Favio Murillo García

Instrumentos y matriz de datos

10/02/2015. Ángel Serrano Sánchez de León

Julio Deride Silva. 18 de agosto de 2010

ESTADÍSTICA UNIDIMENSIONAL

TEMA: 9 ESTADÍSTICA 4º ESO

Análisis Exploratorio de Datos Resumen gráfico y numérico

MEDIDAS DE RESUMEN: MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN. Lic. Esperanza García Cribilleros

1. Estadística. 2. Seleccionar el número de clases k, para agrupar los datos. Como sugerencia para elegir el k

Estadística. Población. Muestra. Probabilidad. rohen

Nota de los autores... vi

TEMA 14: ESTADÍSTICA 1. CONCEPTOS ESTADÍSTICOS

Tema 2 Estadística Descriptiva

Parámetros Estadísticos básicos, Resumen y Presentación de datos. Jhon Jairo Padilla, PhD.

Medidas de Tendencia central Medidas de Dispersión Medidas de Asimetría

ESTADÍSTICA DESCRIPTIVA TEMA 2: MEDIDAS NUMÉRICAS

Introducción a la estadística. Itziar Gómez Salvador Unidad de Investigación

COLEGIO CALASANCIO. MADRID. ESTADÍSTICA UNIDIMENSIONAL. 4º E.S.O.

Se refiere a un conjunto de métodos para manejar la obtención, presentación y análisis de observaciones numéricas.

ESTADÍSTICA. 1. Introducción. 2. Frecuencias

ESTADÍSTICA. A su vez, las variables pueden ser :

Estadística. Análisis de datos.

Análisis de datos y gestión n veterinaria. Tema 1 Estadística descriptiva. Prof. Dr. José Manuel Perea Muñoz

Asignatura: Metodologías de investigación. Tema 6. Exploración de datos. Exploración de datos

3 ANALISIS DESCRIPTIVO DE LOS DATOS

Muestra Una muestra es una parte de la población que elegimos para estudiar la población.

U.D.1: Análisis estadístico de una variable Consideraciones iniciales: Propuesta: 1.1 Distribución de frecuencias. Variables Cualitativas: Ejemplo

TEMA: 13 y 14 ESTADÍSTICA 3º ESO

Or O g r a g n a i n zac a ión ó y re r p e r p e r s e en e t n a t c a ión ó de d e los o da d t a o t s o TEMA 3.2

Medidas Descriptivas Numéricas

INDICE 1. Qué es la Estadística? 2.Descripción de Datos: Distribuciones de Frecuencia y Presentación Gráfica

INGENIERO EN COMPUTACION TEMA 1.2: PRESENTACIÓN GRÁFICA DE DATOS

1 POBLACIÓN Y MUESTRA

Tema 6 Descripción numérica (2) Curso de Estadística Aplicada a las Ciencias Sociales. 1. La mediana. Introducción. Tema 6. Descripción numérica (2)

x i = n = 35 5 =7 MEDIDAS DE CENTRALIZACIÓN Media aritmética: variables cuantitativas , x 2 Datos no agrupados: x 1 ,...,x n x= x 1 +x

Descripción de los Datos

Examen Extraordinario de Estadística I, 22 de Junio de Grados en ADE, DER-ADE, ADE-INF, FICO, ECO, ECO-DER.

Estadística Descriptiva en R: Parámetros y estadísticos. José Enrique Martín García Universidad Politécnica de Gimialcón (Copyright 2016)

TEMA 8: ESTADÍSTICA. 8.1 Elementos de la Estadística. 8.2 Parámetros estadísticos. 8.3 Parámetros de posición para datos aislados.

9.1. Nociones básicas.

Estadística Descriptiva

Medidas de Tendencia Central, Medidas de Dispersión & Otros Estadísticos (Cap. 2) Math. 298 Prof. Gaspar Torres Rivera

RELACIÒN ENTRE LOS PROMEDIOS

MEDIDAS DE DISPERSIÓN Y ASIMETRÍA DE UNA DISTRIBUCIÓN DE FRECUENCIAS

Medidas de dispersión. Rango o recorrido. Desviación media. Medidas de dispersión

Ejemplos y ejercicios de. Estadística Descriptiva. yanálisis de Datos. 2 Descripción estadística de una variable. Ejemplos y ejercicios.

ESTADÍSTICA 1.- NOCIONES GENERALES

Un estudio estadístico consta de las siguientes fases: Recogida de datos. Organización y representación de datos. Análisis de datos.

DESCRIPCIÓN DE DATOS. Medidas Numéricas

Metodología de la Investigación. Conceptos Básicos de Estadística

Tema 1: Estadística descriptiva. Probabilidad y Estadística (Ing. Informática). Tema 1: Estadística descriptiva 1

ESTADÍSTICA APLICADA A LA EDUCACIÓN (Tema 5) Asignatura de Formación Básica (FB) de 1º curso, común a los Grado en Educación Social y en Pedagogía

Una vez que tenga la información de la muestra ordenada, se pueden emitir conclusiones finales.

Transcripción:

1 Tema 2: Introducción a la Estadística Descriptiva Contenidos Qué es la Estadística? - Definición. Palabras clave: población, parámetro, muestra, estadístico, tamaño poblacional, tamaño muestral, individuos, objetos. Tipos de variables: categórica (ordinal, nominal) y numérica (discreta, continua). Por qué una muestra? Definición de muestra aleatoria simple. Frecuencias y distribución/tabla de frecuencias: absoluta, absoluta acumulada, relativa, relativa acumulada. Propiedades. 2 Contenidos Gráficas para datos categóricos (diagrama de barras, diagrama de sectores). Gráficas para datos numéricos (histograma, poĺıgono de frecuencias, diagrama de cajas). Medidas numéricas para describir: tendencia central (media, mediana, moda) variación (varianza, desviación típica, cuasi-varianza y cuasi-desviación típica, rango, RIC, coeficiente de variación) otros (cuartiles, percentiles)

3 Lecturas recomendadas Peña, D., Romo, J., Introducción a la Estadística para las Ciencias Sociales. Capítulos 1, 2, 3, 4, 5. Newbold, P. Estadística para los Negocios y la Economía (2009). Capítulo 1 Capítulo 2. Definición de Estadística 4 Definición. La Estadística es la ciencia que trata de: recoger, organizar, resumir, presentar, interpretar y procesar datos para convertir los datos en información predicciones, pronósticos, estimación Estadística Descriptiva En qué ocasiones escuchaste/viste la palabra estadística? Resúmenes de partidos de fútbol/tenis Tasas de desempleo, número de heridos en accidentes de coche La estadística es mucho más que porcentajes y números! Inferencia Estadística

5 Palabras clave Una población es la colección completa de todos los ítems/individuos/objetos/sujetos de interés, o bajo investigación. N representa el tamaño poblacional Una muestra es un subconjunto de la población, elegida habitualmente para investigar las propiedades de la población subyacente. n representa el tamaño muestral Un parámetro es una característica específica de una población (fija). Un estadístico es una característica específica de una muestra (varía de muestra en muestra). Una variable es una característica de un individuo. Ejemplos Pob todos los estudiantes de la UC3M. Variable: altura (0, ) Param: Altura media de todos los estudiantes. Estadístico: Altura media de los estudiantes muestreados. Pob: todos los peces de un lago. Variable: tamaño {G,M,P} Param: Número de peces pequeños en todo el lago. Estadístico: Número de peces pequeños capturados. Pob: todos los pacientes del Hospital de Getafe. Variable: grupo sanguíneo {A, B, AB, O} Param: Porcentaje de grupo sanguíneo AB entre todos los pacientes. Estadístico: porcentaje de grupo sanguíneo AB entre los pacientes muestreados. Pob: todas las bombillas de la marca Acme. Variable: tiempo de vida en días {0,1,2,...}. Param: Variación en el tiempo de vida de todas las bombillas. Estadístico: Variación en el tiempo de vida de las bombillas muestreadas. 6

Tipos de datos 7 ւ Categóricos (Cualitativos) ւ ց Datos (Variables) ց Numéricos (Cuantitativos) ւ ց Ordinales Nominales Discretos Continuos clases ordenables sin orden natural entero no entero Ejemplo Ejemplo Ejemplo Ejemplo Talla de ropa: Grupo sanguíneo: n o de hijos: Altura: G>M>P A,B,AB,O 0,1,2,... 1.55cm, 1.71cm Notación: Se usan en general las letras X,Y,Z. Ejemplo: X = altura en cm (letras mayúsculas en definición) x = 1.55 (letras minúsculas para valores específicos) x 1 = 1,55, x 2 = 1,71 (con más de uno, se añaden subíndices) Por qué se usa una muestra? 8 En la práctica no estudiamos la población porque: Podemos destruir la población (ej. tiempo de vida de una bombilla). La población puede existir como concepto pero no en la realidad (ej. población de ítems defectuosos). Imposible de realizar (ej. población de todos los peces del mar). Demasiado caro. Tiempo de ejecución excesivo.

9 Definición de muestra aleatoria simple (m.a.s.) Definición. Una muestra aleatoria simple es una parte de la población obtenida de forma que, cada miembro de la población se elige estrictamente al azar, cada miembro tiene la misma probabilidad de ser elegido, y cada posible muestra de n objetos es igualmente probable de ser elegida. Notación: Una muestra de tamaño n obtenida de una variable X significa que: Tenemos n individuos seleccionados aleatoriamente de una población. Para cada uno de los individuos conocemos el valor de la variable X. Si X es categórica o discreta, es conveniente escribir los diferentes valores muestrales que toma X como x 1,x 2,...,x k, k n (ordenados desde el menor al mayor, salvo que X sea nominal). Frecuencias y distribuciones de frecuencias 10 Definición. Una distribución de frecuencias es una lista o una tabla... conteniendo agrupaciones de clases (categorías o intervalos donde toman valor los datos)... y las correspondientes frecuencias mediante las cuales los datos toman valor dentro de cada clase o categoría. Frecuencias: frecuencia absoluta es el (número de veces que el valor aparece en la muestra). frecuencia relativa es el (proporción de veces que el valor aparece en la muestra).

Por qué usar distribuciones de frecuencias? 11 Una distribución de frecuencias es una forma de resumir los datos. La distribución condensa los datos primarios en una forma más útil... y permite una interpretación visual rápida de los datos. Agrupaciones por clases: datos categóricos y discretos 12 Nota: Frec. Frec. Frec. Frec. Absol. Relat. Clase, x i Absol., n i Relat., f i Acumul., N i Acumul., F i x 1 n 1 f 1 = n 1 N 1 = n 1 F 1 = f 1 x 2 n 2 f 2 = n 2 n N 2 = N 1 +n 2 F 2 = F 1 +f 2..... x k n k f k = n k n N k = n F k = 1 Total n 1 vacío vacío n i = número de x i en la muestra, f i = número de x i n N i = N i 1 +n i, F i = F i 1 +f i 0 f i,f i 1 F i y N i no tienen sentido para variables categóricas nominales

13 Agrupaciones por clases Ejemplo 1: Los datos inferiores muestran el grupo sanguíneo al que pertenecen los 40 individuos de una muestra. AB, A, B, O, A, A, A, B, O, AB, B, O, B, B, B, A, A, A, AB, B, O, A, A, A, AB, AB,O, B, B, AB, O, B, O, O, A, A, O, B, AB, AB Qué tipo de variable es grupo sanguíneo? Obtén la distribución de frecuencias de los datos. Qué porcentaje de la gente de la muestra pertenece al grupo sanguíneo A? Qué porcentaje de la gente de la muestra pertenece a un grupo sanguíneo diferente de O? Agrupaciones por clases 14 Ejemplo 1 cont.: Categórica, nominal con 4 clases diferentes. La distribución de frecuencias es: 30% 100% 22,5% = 77,5% Frecuencia Frecuencia Clase Absoluta Relativa A 12 0.300 B 11 0.275 AB 8 0.200 O 9 0.225 Total 40 1

Agrupaciones por clases Ejemplo 2: La tabla inferior muestra diferentes niveles de satisfacción (I=insatisfecho, M=muy, S=satisfecho) en relación a 901 empleados. 15 Frecuencia Clase Absoluta MI 62 I 108 S 319 MS 412 Total 901 Qué tipo de variable se está estudiando? Obtén la distribución de frecuencias de los datos. Qué porcentaje de la gente muestreada está satisfecha? Cuántos individuos están insatisfechos o peor? En%? Cuántos individuos están al menos satisfechos? En%? Agrupaciones por clases 16 Ejemplo 2 cont.: Categórica, ordinal con 4 clases diferentes. La distribución de frecuencias es: Frecuencia Frecuencia Frecuencia Frecuencia Absoluta Relativa Clase Absoluta Relativa Acumulada Acumulada MI 62 0.07 62 0.07 I 108 0.12 170 0.19 S 319 0.35 489 0.54 MS 412 0.46 901 1 Total 901 1 35% 170, 19% 319+412 = 731 ó 901 170 = 731, 35%+46% = 81% ó 100% 19% = 81%

Agrupaciones por clases Ejemplo 3: De entre las plantas que han sido tratadas con un nuevo pesticida, se seleccionaron 50 para evaluar el comportamiento del nuevo pesticida. En cada una de las plantas muestreadas se contó el número de hojas atacadas por un hongo. El resultado se muestra a continuación. Frecuencia x i Absoluta 0 6 1 10 2 12 3 8 4 5 5 4 6 3 8 1 10 1 Total 50 17 Agrupaciones por clases 18 Ejemplo 3 cont.: Qué puedes decir acerca de la variable en estudio? Obtén su distribución de frecuencias. Qué porcentaje de las plantas muestreadas tuvo sólo 3 hojas atacadas? Cuántas plantas muestreadas tuvieron no más de 3 hojas atacadas? Cuántas plantas muestreadas tuvieron al menos 6 hojas atacadas? Qué porcentaje de las plantas muestreadas tuvo entre 3 y 5 hojas atacadas? Qué porcentaje de las plantas muestreadas tuvo al menos 8 hojas atacadas? Qué porcentaje de las plantas muestreadas tuvo a lo sumo 2 hojas atacadas?

19 Agrupaciones por clases Ejemplo 3 cont.: Numérica, discreta con 9 valores diferentes. La distribución de frecuencias es: Frecuencia Frecuencia Frecuencia Frecuencia Absoluta Relativa x i Absoluta Relativa Acumulada Acumulada 0 6 0.12 6 0.12 1 10 0.20 16 0.32 2 12 0.24 28 0.56 3 8 0.16 36 0.72 4 5 0.10 41 0.82 5 4 0.08 45 0.90 6 3 0.06 48 0.96 8 1 0.02 49 0.98 10 1 0.02 50 1 Total 50 1 Agrupaciones por clases 20 Ejemplo 3 cont.: 16% 36 3+1+1 ó 50 45 = 5 16%+10%+8% = 34% ó (8+5+4)/50 = 34% 2%+2% = 4% ó 100% 96% = 4% 56%

Agrupaciones por clases que son intervalos: datos continuos (y discretos) 21 Nota: Intervalo Marca de clase [l i 1,l i ) x i = l i+l i 1 2 n i f i N i F i [l 0,l 1 ) x 1 n 1 f 1 N 1 F 1 [l 1,l 2 ) x 2 n 2 f 2 N 2 F 2...... [l k 1,l k ) x k n k f k n 1 Total n 1 vacío vacío Se incluye el extremo izquierdo, pero se excluye el extremo derecho (convención típica). Es posible aplicar la convención en sentido opuesto - verifica su definición en el software. Útil para tabular datos discretos si X toma muchos valores diferentes. Agrupaciones por clases que son intervalos: datos continuos (y discretos) 22 Muy frecuentemente los intervalos tomados como clases poseen la misma amplitud. Determinar la amplitud a para cada intervalo mediante a = número mayor - número menor número de intervalos deseados Cuántos intervalos? Aproximadamente entre 5 y 20. Más concretamente: k n si n es pequeño. k 1+3,22log(n) si n es grande. Los intervalos nunca se solapan. Redondea la amplitud del intervalo para obtener los extremos de los intervalos deseados.

Agrupaciones por clases que son intervalos: datos continuos (y discretos) Ejemplo 4: Un fabricante de aislantes selecciona al azar 20 días de invierno y anota la temperatura más elevada del día (en grados Fahrenheit) 24,35,17,21,24,37,26,46,58,30, 32,13,12,38,41,43,44,27,53,27 Obtén la distribución de frecuencias de los datos. Se ordenan los datos primarios en orden ascendente: 12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58 Se obtiene el rango (valor mayor valor menor): 58 12 = 46 Se selecciona el número de clases: es decir k = 5 Se calcula la amplitud de los intervalos: 10 (46/5 redondeo). Se determinan los extremos: 10 pero menor que 20, 20 pero menor que 30, etc. Se cuentan las observaciones que corresponden a cada clase. 23 Agrupaciones por clases que son intervalos: datos continuos (y discretos) Ejemplo 4 cont.: 24 Intervalo Marca de clase n i f i N i F i [10, 20) 15 3 0,15 3 0,15 [20, 30) 25 6 0,30 9 0,45 [30, 40) 35 5 0,25 14 0,70 [40, 50) 45 4 0,20 18 0,90 [50, 60) 55 2 0,10 20 1 Total 20 1 En cuántos días la temperatura se encontraba por debajo de 30 o F? En%? (3+6 = 9, que es el 45%) En cuántos días la temperatura se encontraba en al menos 45 o F? En%? = 4, que es el 20%) (2+4 45 40 50 40

Representación gráfica de datos 25 Una vez obtenida la distribución de frecuencias de los datos, se pueden determinar las siguientes representaciones gráficas: Categórico Numérico diagrama de sectores histograma diagrama de barras poĺıgono de frecuencias diagrama de caja Gráficos para datos cualitativos: diagrama de sectores 26 Ejemplo 1: La siguiente tabla de frecuencias corresponde a los datos de grupos sanguíneos obtenidos de una muestra de 40 individuos. Frecuencia Frecuencia Clase Absoluta Relativa A 12 0.300 B 11 0.275 AB 8 0.200 O 9 0.225 Total 40 1

27 Diagrama de sectores Ejemplo 1 cont.: Cada sector es una fracción del total del círculo. Los sectores están etiquetados con los nombres de las clases. Muchos programas ordenan las clases en orden alfabético. Aunque es vistoso, es más complejo de leer que el diagrama de barras. Evitar los diagramas de sectores en 3D, ya que los sectores traseros tienden a parecer menores que los sectores delanteros. Gráficos para datos cualitativos: diagrama de barras 28 Ejemplo 2: La tabla inferior muestra diferentes niveles de satisfacción en relación a 901 empleados. Frecuencia Frecuencia Frecuencia Frecuencia Absoluta Relativa Clase Absoluta Relativa Acumulada Acumulada MI 62 0.07 62 0.07 I 108 0.12 170 0.19 S 319 0.35 489 0.54 MS 412 0.46 901 1 Total 901 1

Diagrama de barras Ejemplo 2 cont.:. Las barras tienen la misma amplitud y son equidistantes, con alturas correspondientes a las frecuencias (absolutas). Existen huecos entre las barras. Las barras están etiquetadas con los nombres de las clases. Muchos programas ordenan las clases en orden alfabético. 29 Diagrama de barras Los diagramas de barras pueden construirse también para datos discretos si no existen demasiados valores diferentes. Este es el diagrama de barras para el Ejemplo 3 del Tema 1, donde se consideraba el número de hojas infectadas por un hongo en una muestra de 50 plantas. 30 FRECUENCIAS 0 2 4 6 8 10 12 0 1 2 3 4 5 6 7 8 9 10

Gráficos para datos cuantitativos: histograma y poĺıgono de frecuencias 31 Ejemplo 4: La distribución de frecuencias de la temperatura más alta del día (en grados o F) tomada en 20 días de invierno es como sigue: Intervalo Marca de clase n i f i N i F i [10, 20) 15 3 0,15 3 0,15 [20, 30) 25 6 0,30 9 0,45 [30, 40) 35 5 0,25 14 0,70 [40, 50) 45 4 0,20 18 0,90 [50, 60) 15 2 0,10 20 1 Total 20 1 Histograma y poĺıgono de frecuencias No hay huecos entre las barras/cajas. Amplitud de cajas amplitud de intervalos (idénticos) y los ĺımites de las clases se marcan en el eje horizontal. Alturas de cajas frecuencias (aquí, absoluta). Las áreas de cajas son proporcionales a las frecuencias. 32

Histogramas de área 1 (sobre una escala de densidad) Amplitud de cajas amplitud de intervalos (no necesariamente idénticos). alturas de cajas = f i l i l i 1 áreas de cajas = f i 33 Descripción numérica de datos 34 Nueva notación: Centro Variación Otros media rango cuartiles mediana rango intercuartílico percentiles moda varianza desviación típica coef. de variación n x i = x 1 +x 2 +...+x n i=1 ( : suma, i = 1: el ĺımite inferior, n: el ĺımite superior, x i : ejemplo de fórmula dependiente de i) Ejemplo: 3 i 2 = ( 1) 2 +0 2 +1 2 +2 2 +3 2 = 15 i= 1

Tendencia central: media (aritmética) 35 La medida de tendencia central más común. Media poblacional. Media muestral µ = x = N i=1 x i N n i=1 x i n = x 1 +...+x N N = x 1 +...+x n n Si a,b (b 0) son números reales e y = a+bx, se tiene ȳ = a+b x Afectado por valores extremos (observaciones atípicas (outliers)). Ejemplo: X: 3,1,5,4,2, Y: 3,1,5,4,200 x = 3+1+5+4+2 5 = 3 ȳ = 3+1+5+4+200 5 = 42,6! Tendencia central: mediana En la lista de observaciones ordenada, la mediana M es el número que está en la mitad de la lista. { x((n+1)/2) si n impar (número en la mitad) M = x (n/2) +x (n/2+1) if n par (promedio de los dos números en la mitad) 2 (x (1),x (2),...,x (n) significa que las observaciones están ordenadas en orden creciente, ej. x (1) = x mín, x (n) = x máx ) No afectado por observaciones atípicas (outliers) Ejemplo: Dadas las observaciones 3,1,5,4,2 (n = 5), ordenar los datos 1,2, 3,4,5, e identificar el/los números situados en la mitad de la lista M = x ((5+1)/2) = 3 o menor {}}{ x (3) = 3 Ejemplo: Dadas las observaciones 3,1,5,4,2,0 (n = 6), ordenar los datos 0,1, 2,3,4,5, e identificar el/los números en la mitad de la lista M = x (6/2) +x (6/2+1) 2 = el promedio del 3 o y el 4 o {}}{ x (3) +x (4) 2 = 2+3 2 = 2,5 36

37 Tendencia central: moda El valor que aparece más a menudo. No afectado por valores atípicos=outliers. Utilizado tanto para datos numéricos como categóricos. Puede no haber moda o puede haber más de una moda. Ejemplo: Dadas las observaciones 3,1,5,4,2, no hay moda Ejemplo: Dadas las observaciones 3,1,5,4,2,1, la moda es 1 Forma: comparación de la media y la mediana 38 Tres tipos de distribuciones: Asimétrica a la izquierda Media < Mediana. Simétrica Media = Mediana. Asimétrica a la derecha Mediana < Media. x < M x = M M < x Asimétrica Izquierda Simétrica Asimétrica Derecha Nota: La distribución en que está en el centro se conoce como normal o acampanada (ver figuras)

39 Cuartiles y percentiles Los cuartiles dividen los datos ordenados en cuatro segmentos que recogen la misma cantidad de observaciones. El primer cuartil Q 1 ocupa la posición 1 4 (n+1). El segundo cuartil Q 2 (= mediana) ocupa la posición 1 2 (n+1). El tercer cuartil Q 3 ocupa la posición 3 4 (n+1). Ejemplo: Dadas las observaciones 22,18,17,16,16,13,12,21,11 (n = 9), se ordenan los datos 11, 12, 13, 16, 16, 17, 18, 21, 22, a continuación de identifican las posiciones Q 1 = x (2,5) = 12,5 Q 3 = 16 Q 3 = x (7,5) = 19,5 El p% de los datos (0 < p < 100) se encuentran por debajo o sobre el p-ésimo percentil. Ejemplo cont.: 33-ésimo percentil = 13 Variación: rango y rango intercuartílico (RIC) 40 El rango es la medida de variación más simple R = x máx x mín Ignora la manera en que se distribuyen los datos. Sensible a observaciones atípicas (outliers). Ejemplo: Dadas las observaciones 3,1,5,4,2, R = 5 1 = 4 Ejemplo: Dadas las observaciones 3,1,5,4,100, R = 100 1 = 99 El rango intercuartílico (RIC) puede eliminar ciertos problemas con los datos atípicos (outliers). Se eliminan las observaciones de mayor valor y las de menor valor y se calcula el rango de los 50% de los datos que se encuentran en la mitad. RIC = 3er cuartil 1er cuartil = Q 3 Q 1

Variación: Rango intercuartílico y diagrama de cajas Las observaciones atípicas (outliers) se encuentran por debajo de Q1 1,5 RIC por encima de Q3 +1,5 RIC Para observaciones atípicas (outliers) extremos, reemplazar 1.5 por 3 en la definición anterior 41 MEDIANA x min Q 1 (Q 2 ) Q 3 x max 25% 25% 25% 25% 12 24 31 42 58 RI=18 Medida de variación: varianza Promedio de cuadrados de las desviaciones de valores a la media. Varianza poblacional. Varianza muestral ˆσ 2 = n i=1 (x i x) 2 n σ 2 = N i=1 (x i µ) 2 N más rápido de calcular { }}{ n i=1 = x2 i n( x) 2 n Cuasi-varianza muestral (varianza muestral corregida) dividido por n 42 s 2 = n i=1 (x i x) 2 n 1 = n i=1 x2 i n( x) 2 n 1 dividido por n 1 ˆσ 2 es sesgado, mientras s 2 es insesgado (Tema 5). Su relación es ˆσ 2 = n 1 n s2 Si a,b (b 0) son números reales e y = a+bx, se tiene s 2 y = b 2 s 2 x

Medida de variación: desviación típica (DT) 43 La medida de dispersión más comúnmente utilizada. La desviación típica poblacional, la desviación típica muestral y la cuasi-desviación típica muestral son respectivamente Muestra la variación sobre la media. σ = σ 2 ˆσ = ˆσ 2 s = s 2 Posee las misma unidades que los datos, mientras que para la varianza se tienen unidades 2 Varianza y DT se encuentran ambos afectados por observaciones atípicas (outliers). Cálculo de la varianza y la desviación típica Ejemplo: X : 11,12,13,16,16,17,18,21, Y : 14,15,15,15,16,16,16,17, Z : 11,11,11,12,19,20,20,20 s 2 x = x = 124 8 = 15,5 ȳ = 124 8 n i=1 n i=1 n i=1 n i=1 x2 i n( x) 2 n 1 = 15,5 z = 124 8 = 15,5 x 2 i =11 2 +12 2 +...+21 2 = 2000 y 2 i =14 2 +15 2 +...+17 2 = 1928 z 2 i =11 2 +11 2 +...+20 2 = 2068 = 2000 8(15,5)2 8 1 s 2 y = 1928 8(15,5)2 8 1 s 2 z = 2068 8(15,5)2 8 1 = 78 7 = 11,1429 s x = 3,3381 = 6 7 = 0,8571 s y = 0,9258 = 146 7 = 20,8571 s z = 4,5670 44

Comparación de desviaciones típicas Ejemplo cont.: X : 11,12,13,16,16,17,18,21, Y : 14,15,15,15,16,16,16,17, Z : 11,11,11,12,19,20,20,20 45 x = 15.5 s x = 3.3 11 12 13 14 15 16 17 18 19 20 21 y = 15.5 s y = 0.9 11 12 13 14 15 16 17 18 19 20 21 z = 15.5 s z = 4.6 11 12 13 14 15 16 17 18 19 20 21 Regla empírica 46 Si la distribución de los datos es acampanada (normal), es decir, simétrica y con colas suaves, se verifica: 68% de los datos en ( x 1s, x +1s) 95% de los datos en ( x 2s, x +2s) 99.7% de los datos en ( x 3s, x +3s) Nota: Esta regla se conoce también como la regla del 68-95-99.7 Ejemplo: Sabemos que para una muestra de 100 observaciones, la media es 40 y la cuasi-desviación típica es 5. Asumiendo que los datos poseen distribución acampanada, proporciona los ĺımites del intervalo que captura el 95% de las observaciones. 95% de x i s están en: ( x ±2s) = (40±2(5)) = (30,50)

Medidas de variación: coeficiente de variación (CV) 47 Es una medida relativa de variación que se define como CV = s x Es un número sin unidad (se expresa a veces en% s). Muestra la variación con respecto a la media. Ejemplo: Stock A: Precio promedio el año anterior = 50, Desviación típica = 5 Stock B: Precio promedio el año anterior = 100, Desviación típica = 5 CV A = 5 50 = 0,10 CV B = 5 100 = 0,05 Ambos stocks poseen la misma DT, pero el stock B es menos variable en relación a la media de su precio.