Universidad Nacional Autónoma de Nicaragua UNAN-Managua. Curso de Estadística. UNIDAD I Estadística Descriptiva

Documentos relacionados
Módulo de Estadística

Estadística. Introducción a la Estadística Descriptiva. Área de Matemática Cerp Florida Reforma de Ed. Inicial y Primaria,

Estadística Inferencial. Estadística Descriptiva

Métodos Matemá-cos en la Ingeniería Tema 5. Estadís-ca descrip-va

U.D.1: Análisis estadístico de una variable Consideraciones iniciales: Propuesta: 1.1 Distribución de frecuencias. Variables Cualitativas: Ejemplo

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua

Fase 2. Estudio de mercado: ESTADÍSTICA

Estadística. Análisis de datos.

MEDIDAS DE TENDENCIA CENTRAL

Métodos de Investigación en Psicología (10) Dra. Lucy Reidl Martínez Dra. Corina Cuevas Reynaud Dra. Renata López Hernández

ESTADÍSTICA DESCRIPTIVA

Bioestadística: Estadística Descriptiva

MÓDULO III. MEDIDAS DE TENDENCIA CENTRAL, DISPERSIÓN Y ASIMETRÍA

Parámetros y estadísticos

Estadística descriptiva y métodos diagnósticos

Bioestadística. Tema 1: Introducción a la estadística. Para qué sirve la estadística? La Ciencia se ocupa en general de fenómenos observables

ANÁLISIS DE DATOS UNIDIMENSIONALES

UNIVERSIDAD AUTONOMA DE SANTO DOMINGO

NOCIONES DE ESTADÍSTICA CURSO PRÁCTICO DE CLIMATOLOGÍA 2012

Ejemplos y ejercicios de. Estadística Descriptiva. yanálisis de Datos. 2 Descripción estadística de una variable. Ejemplos y ejercicios.

Temas de Estadística Práctica

ESTADÍSTICA SEMANA 3

ESTADÍSTICA DESCRIPTIVA

MEDIDAS DE POSICIÓN. FUENTE: Gómez, Elementos de Estadística Descriptiva Levin & Rubin. Estadística para Administradores

478 Índice alfabético

UNIDAD 12.- Estadística. Tablas y gráficos (tema12 del libro)

Pregunta 1. Pregunta 2. Pregunta 3. Pregunta 4. Pregunta 5. Pregunta 6. Pregunta 7. Comenzado el lunes, 25 de marzo de 2013, 17:24

Relación 2: CARACTERÍSTICAS DE UNA DISTRIBUCIÓN DE FRECUENCIAS

2.- Tablas de frecuencias

Tema 2: Estadísticos

NOCIONES DE ESTADÍSTICA CURSO PRÁCTICO DE CLIMATOLOGÍA 2011

Estadística Descriptiva de una variable con STATGRAPHICS

ESTADÍSTICA CON EXCEL

Julio Deride Silva. 27 de agosto de 2010

Universidad de Sonora Departamento de Matemáticas Área Económico Administrativa

Medidas de centralización

Cómo describir e interpretar los resultados de un estudio de investigación quirúrgica? Variables cuantitativas

ANEXO 1. CONCEPTOS BÁSICOS. Este anexo contiene información que complementa el entendimiento de la tesis presentada.

2. Recolección de información - Medidas de posición: moda, media aritmética, mínimo, máximo - Frecuencia absoluta, relativa y porcentual

PROBLEMAS ESTADÍSTICA I

EJERCICIOS TEMA 1. Clasifica los siguientes caracteres estadísticos según sean cualitativos, variables discretas o variables continuas:

ESTADÍSTICA I Código: 8219

M i. Los datos vendrán en intervalos en el siguiente histograma de frecuencias acumuladas se ilustra la mediana.

LOS ESTADÍGRAFOS BÁSICOS Y SU INTERPRETACIÓN, M TENDENCIA CENTRAL

TEMA 1 Estadística Descriptiva. Introducción Comparativos gráficos Medidas de tendencia central Medidas de dispersión

Unidad Nº 3. Medidas de Dispersión

Dispone de 1 hora para resolver las siguientes cuestiones planteadas.

MEDIDAS DE TENDENCIA CENTRAL O DE PRECISIÓN

ANÁLISIS EXPLORATORIO DE DATOS ESPACIALES ESTADÍSTICA ESPACIAL

Curso de Estadística Básica

RELACIÓN DE EJERCICIOS TEMA 2

Tema 6. Estadística Descriptiva e Introducción a la Inferencia Estadística

Medidas de dispersión

PROGRAMACIÓN DE LOS CONTENIDOS DE MATEMÁTICAS EN LA PREPARACIÓN DE LA PARTE COMÚN DE LA PRUEBA DE ACCESO A LOS C.F.G.S. (Opción C)

Clase 2: Estadística

Contenidos Mínimos de 1º ESO Matemáticas 1º E.S.O.

ESTADÍSTICA DESCRIPTIVA PARA EL TURISMO

Estadística aplicada al Periodismo

Tipos de gráficas y selección según los datos CIENCIA, TECNOLOGIA Y AMBIENTE

2. Calcula las raíces o soluciones para cada ecuación cuadrática.

MEDIDAS ESTADÍSTICAS Medidas de Tendencia Central y de Variabilidad

UNIVERSIDAD AUTONOMA DE SANTO DOMINGO

UNIVERSIDAD INTERAMERICANA DE PUERTO RICO RECINTO DE ARECIBO CENTRO DE SERVICIOS DE APOYO AL ESTUDIANTE

Medidas de Dispersión

Uso de la Estadística en la Preparación de Planes de Seguridad Vial. Bienvenidos.

Definición: Se llama variable aleatoria a toda función X que asigna a c/u de los elementos del espacio muestral S, un número Real X(s).

Media, mediana, moda y otras medidas de tendencia central

4. Medidas de tendencia central

Tema 1.- Correlación Lineal

Curva de Lorenz e Indice de Gini Curva de Lorenz

TEMA III. REPRESENTACION GRAFlCA

2.1. Introducción Análisis exploratorio Análisis exploratorio para variables con muchas modalidades

Histograma del puntaje de vocabulario y la aproximación por una curva gaussiana.

A qué nos referimos con medidas de dispersión?

UNIDAD 4: MEDIDAS DESCRIPTIVAS: Medidas de dispersión

Hoja 6: Estadística descriptiva

Departamento de Medicina Preventiva y Salud Publica e Historia de la Ciencia. Universidad Complutense de Madrid. SPSS para windows.

DISTRIBUCIÓN NORMAL CAPÍTULO 16

Estadística. Conceptos de Estadística. Un individuo o unidad estadística es cada uno de los elementos que componen la población.

Estadística: conceptos básicos y definiciones.

TRATAMIENTO ESTADÍSTICO

Estadística descriptiva: problemas resueltos

Análisis de Datos CAPITULO 3: MEDIDAS DE VARIABILIDAD Y ASIMETRÍA

18 Experimentos aleatorios. Sucesos y espacio muestral. Frecuencia y probabilidad de un suceso.

Clase 2: Estadística

Matemáticas 2.º Bachillerato. Intervalos de confianza. Contraste de hipótesis

EJERCICIOS ESTADÍSTICA DESCRIPTIVA

DEPARTAMENTO DE MATEMÁTICAS. IES GALLICUM

Tema 5. Medidas de posición Ejercicios resueltos 1

MEDIDAS DE TENDENCIA CENTRAL

Transformaciones de variables

Estadística para la toma de decisiones

MEDIDAS DE RESUMEN. Medidas de Tendencia Central Medidas de Dispersión. Rafael Díaz Sarmiento, M.D., E.S.O., E.C. Las Palmas de Gran Canario, España

UNIDAD 4: MEDIDAS DE TENDENCIA CENTRAL

Definiciones generales

FICHA DE REPASO: ESTADÍSTICA

INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 29 de Abril de 2016

PRIMER ENCUENTRO. Licenciatura en Enseñanza de la Matemática Mg. Lucía C. Sacco

Teorema Central del Límite (1)

Contenidos mínimos Criterios de evaluación Ejemplos de preguntas

Transcripción:

Universidad Nacional Autónoma de Nicaragua UNAN-Managua Curso de Estadística Profesor: MSc. Julio Rito Vargas Avilés. Estudiantes: FAREM-Carazo UNIDAD I Estadística Descriptiva Quien tiene un libro y no lo lee, no se diferencia de aquel que no sabe leer Año académico: II Semestre 2010

HISTORIA DE LA ESTADÍSTICA La estadística surgió como una necesidad del Estado: el censo y su descripción política, geográfica y económica. En el siglo XVII y XVIII nace la probabilidad aplicada a los juegos de azar que ejerce una fuerte influencia sobre la estadística. En el XIX empieza a aplicarse a cuestiones sociales. Y actualmente se aplica a la administración, ingeniería, biología, economía, periodismo, política,... 2

Para qué sirve la estadística? Estadística: Ciencia que reúne, organiza, presenta, analiza e interpreta datos para ayudar a tomar mejores decisiones. La Ciencia se desarrolla observando hechos, formulando leyes que los explican y realizando experimentos para validar o rechazar dichas leyes Los modelos que crea la ciencia son de tipo determinista o aleatorio (estocástico) La Estadística se utiliza como tecnología al servicio de las ciencias donde la variabilidad y la incertidumbre forman parte de su naturaleza Ciencia cuyo objetivo es la obtención y el análisis de datos mediante el uso de medios matemáticos y herramientas informáticas. 3

Definición La Estadística es la Ciencia de la Sistematización, recogida, ordenación y presentación de los datos referentes a un fenómeno que presenta variabilidad o incertidumbre para su estudio metódico, con objeto de Deducir las leyes que rigen esos fenómenos, y poder de esa forma hacer previsiones sobre los mismos, tomar decisiones u obtener conclusiones. 4

Objetivos de la Estadística Descriptiva Poner de manifiesto las características más relevantes de los datos y sintetizarlas en unos pocos parámetros o estadísticos y o mediante las gráficas adecuadas. 5

Método científico y estadística Plantear hipótesis Diseñar experimento Obtener conclusiones Recoger datos y analizarlos 6

Población y muestra Población : es el conjunto sobre el que estamos interesados en obtener conclusiones (hacer inferencia). Generalmente es demasiado grande para poder obtenerlo. Muestra : es un subconjunto suyo al que tenemos acceso y sobre el que realmente hacemos las observaciones (mediciones) Debería ser representativo Esta formado por miembros seleccionados de la población (individuos, unidades experimentales). 7

Tipos de variables Cualitativas Si sus valores (modalidades) no se pueden asociar naturalmente a un número (no se pueden hacer operaciones algebraicas con ellos) Nominales: Si sus valores no se pueden ordenar Sexo(M/F), Religión(Católico/Protestante/Ateo), Nacionalidad, Fumar (Sí/No) Ordinales: Si sus valores se pueden ordenar Mejoría a un tratamiento, Grado de satisfacción, Intensidad del dolor(nada, poco, mucho, intenso) Cuantitativas o Numéricas Si sus valores son numéricos (tiene sentido hacer operaciones algebraicas con ellos) Discretas: Si toma valores enteros Número de hijos, Número de cigarrillos, Num. de cumpleaños Continuas: Si entre dos valores, son posibles infinitos valores intermedios. Altura, Peso, salario, Dosis de medicamento administrado, edad 8

Es buena idea codificar las variables como números para poder procesarlas con facilidad en un computador. Es conveniente asignar etiquetas a los valores de las variables para recordar qué significan los códigos numéricos. Sexo (Cualit: Códigos arbitrarios) 1 = Hombre 2 = Mujer Raza (Cualit: Códigos arbitrarios) 1 = Blanca 2 = Negra,... 3 = Mestiza Felicidad Ordinal: Respetar un orden al codificar. 1 = Muy feliz 2 = Feliz 3 = Infeliz Se pueden asignar códigos a respuestas especiales como 0 = No sabe 99 = No contesta... Estas situaciones deberán ser tenidas en cuentas en el análisis. Datos perdidos ( missing data ) 9

EJEMPLO Suponga que decide llevar a cabo un estudio del costo de la comida en los restaurante de una gran ciudad. A 50 restaurantes citadinos se les consultó sobre el precio promedio de sus platos y se obtuvieron los siguientes resultados. 10

EJEMPLO Precio del plato en 50 restaurantes citadinos 50 38 43 56 51 36 25 33 41 44 34 39 49 37 40 50 50 35 22 45 44 38 14 44 51 27 44 39 50 35 31 34 48 48 30 42 26 35 32 63 36 38 53 23 39 45 37 31 39 53 11

Precio del plato en 50 restaurantes de la ciudad 14 22 23 25 26 27 30 31 31 32 33 34 34 35 35 35 36 36 37 37 38 38 38 39 39 39 39 40 41 42 43 44 44 44 44 45 45 48 48 49 50 50 50 50 51 51 53 53 56 63 12

Variable Precio en gráfico Tallo-hoja Gráfico de Tallo y hoja El diagrama de tallo y hojas. Es una técnica estadística para representar un conjunto de datos. Cada valor numérico se divide en dos partes. El o los dígitos principales forman el tallo y los dígitos secundarios las hojas. Los tallos están colocados a lo largo del eje vertical, y las hojas de cada observación a lo largo del eje horizontal. Frecuencia Tallo y & Hoja 1.00 1 4 5.00 2 23567 21.00 3 011234455566778889999 13.00 4 0123444455889 8.00 5 000011336 1.00 6 3 Ancho del tallo: 10(decenas) Cada hoja: 1 caso(s)

Representación gráfica de las distribuciones de frecuencias Histograma: Un histograma consiste en una serie de rectángulos cuyo ancho es proporcional al alcance de los datos que se encuentran dentro de una clase y cuya altura es proporcional al número de elementos que caen dentro de la clase.

Representación gráfica de las distribuciones de frecuencias Polígono de frecuencias: Para construir un polígono de frecuencias señalamos éstas en el eje vertical y los valores de las variables que estamos midiendo en el eje horizontal, del mismo modo como lo hicimos con el histograma. Polígono de frecuencias A continuación, graficamos cada frecuencia de clase trazando un punto sobre su punto medio y conectamos los resultantes puntos sucesivos con una línea recta para formar un polígono

Representación gráfica de las distribuciones de frecuencias Gráfico de Curva Normal con Histograma de frecuencias. Muestra el comportamiento de los datos y que tan próximo están de una distribución normal. En el ejemplo que nos ocupa puede verse que hay datos por encima de normal. Así mismo hay datos que no alcanzan llegar a línea normal.

Rango Calcular el rango es determinar la longitud numérica que existe entre el dato de menor valor y el de mayor valor. Restar el dato menor del dato mayor de la muestra y se obtiene el rango. Rango = Máximo - Mínimo 17

La pregunta que estamos analizando ya tiene sus datos ordenados, ahora determinar a simple vista cuales son los datos mayor y menor respectivamente: Dato Mayor(Máx) $ 63.00 Dato Menor(Min) $ 14.00 18

DISTRIBUCIÓN DE FRECUENCIAS Se organiza en filas y columnas: Columna 1: El nombre de la variable que se está analizando. Columna 2: Las veces que se repiten los datos con las mismas características de la variable, se le llama frecuencia. Variable Frecuencia 19

DISTRIBUCIÓN DE FRECUENCIAS Cuando la variable es numérica, se trata de valores y si éstos son más de 10 datos diferentes, es conveniente hacer grupos para administrarlos con eficiencia. A cada grupo de datos se le llama Intervalo o clase. Intervalos Frecuencia 20

DISTRIBUCIÓN DE FRECUENCIAS Intervalos Frecuencia Un intervalo es como un rango, tiene un dato mayor y un dato menor y el estilo de representación puede ser de varias maneras; la más generalizada es: DatoMenor pero menos que DatoMayor o 21

DISTRIBUCIÓN DE FRECUENCIAS La información en cada intervalo debe ser única. Para determinar el número de intervalos para una distribución, se calcula con la información del valor del Rango. C= Rango/10=49/10 5 Un intervalo es similar al rango, el cual tiene un dato mayor y un dato menor, solo que la distancia entre ellos recibe el nombre de Amplitud o ancho del intervalo o ancho de clase y se recomienda que se constante. Intervalos Frecuencia 14 18 1 19 23 2 24 28 3 29 33 5 34 38 12 39 43 8 44 48 8 49 53 9 54 58 1 59 63 1 22

DISTRIBUCIÓN DE FRECUENCIAS Se sugiere que una distribución de frecuencias no debe tener menos de 5 intervalos, ni más de 15. Si no se sigue esta convención, la interpretación de los datos puede ser demasiado condensada o muy dispersa y en ambos casos los resultados aunque estén bien, no son objetivos y puede afectar la toma de decisiones. 23

DISTRIBUCIÓN DE FRECUENCIAS Intervalos Frecuencia Determinar el número de intervalos que sirva a una muestra se basa en la experiencia o sentido común de la persona que va a generar la distribución de frecuencias. Intervalo 1 Frec. 1 Intervalo 2 Frec. 2 Intervalo 3 Frec. 3 Intervalo 4 Frec. 4 Intervalo 5 Frec. 5 Intervalo 6 Frec. 6 24

Tablas de frecuencia Exponen la información recogida en la muestra de manera inteligente: Frecuencias absolutas: Contabilizan el número de individuos de cada modalidad. Frecuencias relativas (porcentajes unitarios): contabilizan el número de indiviiduos dividido por el total. Frecuencias acumuladas absolutas y relativas: Acumulan las frecuencias absolutas y relativas. Son especialmente útiles para calcular cuantiles (como veremos más adelante). 25

Parámetros y estadísticos Parámetro: Es una cantidad numérica calculada sobre una población. La altura media de los individuos de un país. La idea es resumir toda la información que hay en la población en unos pocos números (parámetros). Estadístico: Es una cantidad numérica calculada sobre una población. La altura media de los que estamos en este aula. Somos una muestra ( representativa?) de la población. Si un estadístico se usa para aproximar un parámetro también se le suele llamar estimador. 26

Estadísticos de forma intuitiva 27

Posición Dividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos. Cuantiles, percentiles, cuartiles, deciles,... Centralización Indican valores con respecto a los que los datos parecen agruparse. Media, mediana y moda Dispersión Indican la mayor o menor concentración de los datos con respecto a las medidas de centralización. Desviación típica, varianza, coeficiente de variación, rango Forma Asimetría Apuntamiento o curtosis Estadísticos 28

Estadísticos de posición Se define el cuantil de orden a como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada a. Casos particulares son los percentiles, cuartiles, deciles, quintiles,... 29

Percentil de orden k = cuantil de orden k/100 La mediana es el percentil 50. El percentil de orden 15 deja por debajo al 15% de las observaciones. Por encima queda el 85%. Cuartiles: Dividen a la muestra en 4 grupos con frecuencias similares. Primer cuartil = Percentil 25 = Cuantil 0,25. Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana. Tercer cuartil = Percentil 75 = cuantil 0,75. 30

CALCULO DE PERCENTILES Precio de plato en 50 restaurantes de la ciudad 14 22 23 25 26 27 30 31 31 32 33 34 34 35 35 35 36 36 37 37 38 38 38 39 39 39 39 40 41 42 43 44 44 44 44 45 45 48 48 49 50 50 50 50 51 51 53 53 56 63 P Min = 14 ; Max =63; Q 1 = 34; Q 3 = 45 ; Q 2 = Mn = 39 Li Pn 100 finf f percentil c p: percentil a calcular n. número de datos f inf : suma de frec. Inferiores al percentil F percentil : frecuencia del percentil Li : limite inferior de la clase del percentil Alcance intercuartil = Q 3 - Q 1

34 34.125 0.125 34 12 11 12.5 34 1 Q 39 39.25 0.25 39 8 23 25 39 2 Q Fa 1 3 6 11 23 31 39 48 49 50 45 44.81 0.81 44 8 31 37.5 44 3 Q

Fr OJIVA 1 0.75 0.50 0.25 Recorrido o rango intercuartílico 0 P25 P50 P75 Q1 Q2 Q3 mediana P100 x 33

Ejemplos: El 5% de los restaurantes tiene un precio demasiado bajo. Qué precio se consideran demasiado bajo? Percentil 5 o cuantil 0,05. 2.5 1 p5 19 19 0.75 19.75 $20 2 Qué precio es superado sólo por el 25% de restaurantes? Percentil 75. 37.5 31 Q3 44 44 0.81 44.81 8 El 90% de los precios son normales. Entre qué valores se encuentran los precios extremos? Entre el percentil 5 y el 95. Entre qué valores se encuentran la mitad de precios normales de la muestra? Entre 1º y 3º cuartil (Q 1 y Q 3 ). 45 34

Medidas de Centralización Añaden unos cuantos casos particulares a las medidas de posición. Son medidas que buscan posiciones (valores) con respecto a los que los datos muestran tendencia a agruparse. Media ( mean ) Es la media aritmética (promedio) de los valores de una variable. Suma de los valores dividido por el tamaño muestral. Media de {2, 2, 3, 7} es (2+2+3+7)/4 = 3,5 Conveniente cuando los datos se concentran simétricamente con respecto a ese valor. Muy sensible a valores extremos. Centro de gravedad de los datos. 35

MEDIDAS DE CENTRALIZACIÓN DE DATOS AGRUPADOS Media Aritmética: para calcular la media aritmética de datos agrupados en una distribución de frecuencias, asumimos que cada clase esta representada por el punto medio de la clase (marca de clase). x x fx n 16 1 21 2 26 3... 611 50 16 1 21 2... 611 50 1995 50 x 39.9 f : frecuencia de cada clase x : marca de clase o valor medio fx: frecuencia por el valor medio de la clase fx: es la suma de los productos fx n: número total de frecuencias o de datos. Intervalos x f fx 14 18 16 1 16 19 23 21 2 42 24 28 26 3 78 29 33 31 5 155 34 38 36 12 432 39 43 41 8 328 44 48 46 8 368 49 53 51 9 459 54 58 56 1 56 59 63 61 1 61

Medidas de Centralización Mediana ( median ) Es un valor que divide a las observaciones en dos grupos con el mismo número de individuos (percentil 50). Si el número de datos es par, se elige la media de los dos datos centrales. Mediana de 1, 2, 4, 5, 6, 6, 8 es 5 Mediana de 1, 2, 4, 5, 6, 6, 8, 9 es (5+6)/2 = 5.5 Es conveniente cuando los datos son asimétricos. No es sensible a valores extremos. Mediana de 1, 2, 4, 5, 6, 6, 800 es 5. La media es 117,7! Moda ( mode ) Es el(los) valor(es) donde la distribución de frecuencia alcanza un máximo. 37

Altura mediana 38

Medidas de Centralización Mediana :La mediana es el valor por debajo se encuentran la mitad de los datos y por encima la otra mitad. Como los datos se han organizados en distribuciones de frecuencias se ha perdido algo de información. Por lo usaremos la siguiente fórmula. Me n Li 2 f c 25 23 Me 39 5 39 1.25 40.25 8 Li : Limite inferior de la clase que contiene a la mediana. n : es el número de datos f mediana :frecuencia de la clase mediana f acum : es el valor de la frecuencia acumulada en las clase que preceden a la clase que contiene a la mediana. c: es el valor del tamaño de la clase mediana. f mediana acum Intervalos x f Fa 14 18 16 1 1 19 23 21 2 3 24 28 26 3 6 29 33 31 5 11 34 38 36 12 23 39 43 41 8 31 44 48 46 8 39 49 53 51 9 48 54 58 56 1 49 59 63 61 1 50

Medidas de Centralización Moda:La moda para datos agrupados se encuentra en la clase con mayor frecuencia. El problema de la moda es que puede haber más de una clase que la contenga. Mo Li 1 c 7 Me 34 5 34 8.75 40 42.75 4 Li : Limite inferior de la clase que contiene a la moda. c: es el valor del tamaño de la clase modal 1 : diferencia entre las frecuencias de la clase modal y la clase contigua inferior a la clase modal. 2 :diferencia entre las frecuencia de la clase modal y la clase contigua superior a la clase modal. 1 2 Intervalos x f Fa 14 18 16 1 1 19 23 21 2 3 24 28 26 3 6 29 33 31 5 11 34 38 36 12 23 39 43 41 8 31 44 48 46 8 39 49 53 51 9 48 54 58 56 1 49 59 63 61 1 50

Relación entre la media, la mediana y la moda Cuando los datos son sesgados es mejor emplear la Md

Propiedades, ventajas y desventajas de la media Propiedades: La suma de las diferencias entre las media muestral y el valor de cada observación es cero. La media de una constante es la constante. Si todas las observaciones x i se multiplican por una constante a, la X también se debe multiplicar por ese mismo valor constante.

Propiedades, ventajas y desventajas de la media Si se somete a una variable estadística X a un cambio de origen y escala, Y = a + bx, la media aritmética de dicha variable X varía en la misma proporción. La media de la suma de dos variables es igual a la suma de sus medias.

Propiedades, ventajas y desventajas de la media Ventajas: Emplea en su cálculo toda la información disponible. Se expresa en las mismas unidades que la variable en estudio. Es el centro de gravedad de toda la distribución, representando a todos los valores observados. Es una valor único.

Propiedades, ventajas y desventajas de la media Se trata de un concepto familiar para la mayoría de las personas. Es útil para llevar a cabo procedimientos estadísticos como la comparación de medias de varios conjuntos de datos.

Propiedades, ventajas y desventajas de la media Desventajas: Se ve adversamente afectada por valores extremos, perdiendo representatividad. Si el conjunto de datos es muy grande puede ser tedioso su cálculo manual. No se puede calcular para datos cualitativos. No se puede calcular para datos que tengan clases de extremo abierto, tanto superior como inferior.

Ventajas y desventajas de la mediana Ventajas: Fácil de calcular si el número de observaciones no es muy grande. No se ve influenciada por valores extremos, ya que solo influyen los valores centrales. Fácil de entender.

Ventajas y desventajas de la mediana Se puede calcular para cualquier tipos de datos cuantitativos, incluso los datos con clase de extremo abierto. Es la medida de tendencia central más representativa en el caso de variables que solo admiten la escala ordinal.

Ventajas y desventajas de la mediana Desventajas: No utiliza en su cálculo toda la información disponible. No pondera cada valor por el número de veces que se ha repetido. Hay que ordenar los datos antes de determinarla.

Ventajas y desventajas de la moda Ventajas: No requiere cálculos. Puede usarse para datos tanto cuantitativos como cualitativos. Fácil de interpretar. No se ve influenciada por valores extremos. Se puede calcular en clases de extremo abierto.

Ventajas y desventajas de la moda Desventajas: Para conjuntos pequeños de datos su valor no tiene casi utilidad, si es que de hecho existe. Solo tiene significado en el caso de una gran cantidad de datos. No utiliza toda la información disponible. No siempre existe, si los datos no se repiten.

MEDIDAS DE VARIABILIDAD Varianza S 2 ( Variance ): Mide el promedio de las desviaciones (al cuadrado) de las observaciones con respecto a la media. S _ Sean 2, 2, 3, 7: X 3. 5 2 2 2 2 (2 3.5) (2 3.5) (3 3.5) (7 3.5) 4. 25 1 2 4 S 2 1 n i ( x i x) 2 Es sensible a valores extremos (alejados de la media). Sus unidades son el cuadrado de las de la variable. Desviación típica o estandar ( standard deviation ) Es la raíz cuadrada de la varianza. Tiene las misma dimensionalidad (unidades) que la variable. S S 2 S 4.25 2.06 52

VARIABILIDAD PARA DATOS AGRUPADOS 2 2 fx Varianza S 2:. S 2 fx n 1 Intervalos x x 2 f fx fx 2 14 18 16 256 1 16 256 19 23 21 441 2 42 882 n S S 2 2 (1995) 84165 50 50 1 84165 79600.5 50 1 2 24 28 26 676 3 78 2028 29 33 31 961 5 155 4805 34 38 36 1296 12 432 15552 S 2 93.15 S 9.65 39 43 41 1681 8 328 13448 44 48 46 2116 8 368 16928 49 53 51 2601 9 459 23409 54 58 56 3136 1 56 3136 59 63 61 3721 1 61 3721 1995 84165 53

Centrados en la media y a una desviación típica de distancia tenemos más de la mitad de las observaciones (izq.) A dos desviaciones típicas las tenemos a casi todas (dcha.) 54

Coeficiente de variación Es la razón entre la desviación típica y la media. Mide la desviación típica en forma de qué tamaño tiene con respecto a la media También se la denomina variabilidad relativa. Es frecuente mostrarla en porcentajes Si la media es 80 y la desviación típica 20 entonces CV=20/80=0,25=25% (variabilidad relativa) CV S x Es una cantidad adimensional. Interesante para comparar la variabilidad de diferentes variables. Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan más dispersión en peso que en altura. No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una cantidad fijada arbitrariamente Por ejemplo 0ºC 0ºF Los ingenieros electrónicos hablan de la razón señal/ruido (su inverso). 55

Medidas de Forma: Asimetría Coeficiente de Asimetría de Pearson: Fácil de calcular e interpretar. Cálculo: ASP o Interpretación: 3 X Md s = 0, X=Md Simétrica ASP > 0, X>Md Asimétrica Positiva < 0, X<Md Asimétrica Negativa

Medidas de Forma: Asimetría Coeficiente de Asimetría de Fisher: No es de fácil cálculo, pero si su interpretación. ASF ASF n i1 k i1 x i ns M X i 3 ns 3 x 3 3 f i Datos NO agrupados Datos Agrupados

Asimetría o sesgo Una distribución es simétrica si la mitad izquierda de su distribución es la imagen especular de su mitad derecha. En las distribuciones simétricas media y mediana coinciden. Si sólo hay una moda también coincide. La asimetría es positiva o negativa en función de a qué lado se encuentra la cola de la distribución. La media tiende a desplazarse hacia las valores extremos (colas). Las discrepancias entre las medidas de centralización son 58

Medidas de Forma: Asimetría o Interpretación: ASF = 0, Simétrica > 0, Asimétrica Positiva < 0, Asimétrica Negativa

Medidas de Forma: Kurtosis Miden si los valores de la distribución están más o menos concentrados alrededor de los valores medios de la muestra (zona central de la distribución). Se definen tres tipos de distribución según su grado de Kurtosis:

Medidas de Forma: Kurtosis Leptocúrtica: grado de concentración elevado. Mesocúrtica: grado de concentración medio alrededor de los valores centrales de la variable. Platicúrtica: grado de concentración reducido.

Medidas de Forma: Kurtosis CK CK n i1 k i1 x i ns M X i 4 4 X ns 4 3 4 f i 3 Datos No Agrupados Datos Agrupados Interpretación: =0 Mesocúrtica CK >0 Leptocúrtica <0 Platicúrtica

Apuntamiento o curtosis (kurtosis) Frecuencia Frecuencia La curtosis nos indica el grado de apuntamiento (aplastamiento) de una distribución con respecto a la distribución normal o gaussiana. Es adimensional. Platicúrtica: curtosis < 0 Mesocúrtica: curtosis = 0 Leptocúrtica: curtosis > 0 Los gráficos poseen la misma media y desviación típica, pero diferente grado de apuntamiento o curtosis. 160 300 400 140 120 200 300 100 200 80 100 100 60 40 45 48 51 54 57 60 63 66 69 72 75 78 81 84 0 27 37 45 53 61 69 77 85 93 32 41 49 57 65 73 81 89 99 0 3 27 37 47 57 67 77 87 97 108 16 32 42 52 62 72 82 92 102 138 Platicúrtica Mesocúrtica Leptocúrtica 63

Medidas de dispersión Miden el grado de dispersión (variabilidad) de los datos, independientemente de su causa. Amplitud o Rango ( range ): La diferencia entre las observaciones extremas. 2,1,4,3,8,4. El rango es 8-1=7 Es muy sensible a los valores extremos. Rango intercuartílico ( interquartile range ): Es la distancia entre el primer y tercer cuartil. Rango intercuartílico = P 75 - P 25 Parecida al rango, pero eliminando las observaciones más extremas inferiores y superiores. No es tan sensible a valores extremos. 64

Desigualdad de Chebyshev (1821-1894) Si un conjunto de datos posee una varianza pequeña no existirán "muchos valores" alejados de la media. Precisemos: sea el intervalo alrededor de la media: x k x x k i A S S 2 2 1 n i ( x i 1 2 ( xi x) fi n del i dentro entorno 0 x) 2 f i 1 2 ( xi x) fi n del i fuera entorno 0 65

Demostración: S 2 1 n ( x del i fuera entorno i x) 2 f i 1 n k 2 del i fuera entorno S 2 f i k 2 S 2 1 n f i del i fuera entorno 1 n fi del i fuera entorno 1 k 2 La frecuencia relativa de los datos que caen fuera del intervalo de centro media y radio k veces la varianza es igual o menor que 1/k 2 66

67 i i i i y x y x dy d 0 ) ( 2 ) ( 2 x x n y ny y x y x i i i i i i i i 1 0 2 2 La desviación típica es menor a todas las desviaciones cuadráticas respecto a cualquier promedio m

Add your company slogan www.jrvargas.wordpress.com LOGO