Medidas descriptivas. Introducción



Documentos relacionados
2.2. Estadísticos de tendencia central

TEMA 1. ESTADÍSTICA DESCRIPTIVA

ESTADISTICA UNIDIMENSIONAL

Trata de describir y analizar algunos caracteres de los individuos de un grupo dado, sin extraer conclusiones para un grupo mayor.

Tema 7 DISTRIBUCIONES CONTINUAS DE PROBABILIDAD. X- μ. f(x) = e para - < x < Z 2. . e para - < z <

Medidas de Tendencia Central

ESTADÍSTICA DESCRIPTIVA

Qué es la estadística?

Preguntas más Frecuentes: Tema 2

MEDIDAS RESUMEN: Numéricas y Gráficas. Ejemplo.

ESTADÍSTICA DESCRIPTIVA

Estadística Descriptiva

ESTADÍSTICA. Estadística: Es una rama de la matemática que comprende Métodos y Técnicas que se emplean

Repaso...Último Contenidos NM 4

Tema 2. Medidas descriptivas de los datos

CLAVES DE CORRECCIÓN GUÍA DE EJERCITACIÓN FACTORES Y PRODUCTOS PREGUNTA ALTERNATIVA Nivel

ORGANIZACIÓN DE LOS DATOS.

INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA.

MEDIDAS DE TENDENCIA CENTRAL

Guía 1 Matemática: Estadística NM 4

Pre-PAES 2016 Media aritmética, moda y mediana.

Slide 1. Slide 2. Slide 3. Universidad Diego Portales Facultad de Economía y Negocios. Capítulo 3 Estadística Descriptiva: Métodos Numéricos

T ema 8 ESTIMACIÓN. Conceptos previos. Población y muestra:

Intervalo de confianza para µ

TEMA 1. ESTADÍSTICA DESCRIPTIVA

Importancia de las medidas de tendencia central.

Análisis de datos en los estudios epidemiológicos II

Ingeniería Industrial. Curso Departamento de Matemática Aplicada II. Universidad de Sevilla. Lección 5. Series.

DISTRIBUCIONES DE PROBABILIDAD. DISTRIBUCIÓN DE PROBABILIDAD BINOMIAL.

2.- Estudio Poblacional y Muestral Univariante

X X. ... n. Medidas de tendencia Central Estadígrafos de tendencia central.

Estimador Es la regla o procedimiento, expresado en general por medio de una fórmula, que se utiliza para deducir la estimación.

Tema 6: Distribuciones Muestrales

Tema 1 Estadística descriptiva: Medidas de centralización y dispersión

PROGRESIONES ARITMÉTICAS.-

Medidas de Tendencia Central

Ejemplos y ejercicios de. Análisis Exploratorio de Datos. 2 Descripción estadística de una variable. Ejemplos y ejercicios.

TEMA IV. 1. Series Numéricas

Fórmulas Estadísticas. Recuerde: Hay k Categorías; n Datos en una muestra, N datos en una población.

GUIAS ÚNICAS DE LABORATORIO DE FÍSICA I ASPECTOS PRELIMINARES INTRODUCCIÓN AL CÁLCULO DE INCERTIDUMBRE EN LAS MEDICIONES

Cálculo de límites Criterio de Stolz. Tema 8

Técnicas experimentales de Física General 1/11

Intervalos de confianza para la media

Estadística teórica (aspectos formales y normativos) y aplicada (aplicación a un campo concreto)

ESTIMACIÓN POR INTERVALOS DE CONFIANZA

OPCIÓN A EJERCICIO 1_A

8. INTERVALOS DE CONFIANZA

Tema 1 Estadística descriptiva - II: Medidas de centralización y dispersión

Tema 7 (IV). Aplicaciones de las derivadas (2). Representación gráfica de curvas y fórmula de Taylor

TEMA 6. INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA

Introducción a las medidas de dispersión.

TEMA 19 Cálculo de límites de sucesiones*

MEDIDAS DE DISPERSIÓN.

Test de Kolmogorov Smirnov Patricia Kisbye El test chi-cuadrado en el caso continuo

Unidad N 2. Medidas de dispersión

Sucesiones. Se denomina sucesión a una función cuyo dominio es el conjunto de los números naturales.

2 Conceptos básicos y planteamiento

Asignatura: TRATAMIENTO DE DATOS CON ORDENADOR Curso TEORÍA Y EJEMPLOS DEL TEMA 2

Una sucesión es un conjunto infinito de números ordenados de tal forma que se puede decir cuál es el primero, cuál el segundo, el tercero, etc.

Ejercicios y Talleres. puedes enviarlos a

Medidas de tendencia central

Estadístico. Parámetro

EL CONTRASTE DE HIPOTESIS: Esquemas y ejemplos

R-SQUARED RESID. MEAN SQUARE (MSE) σˆ 2 ADJUSTED R-SQUARED STANDARD DEVIATION σ ˆ

OPCIÓN A EJERCICIO 1_A x 1 0 1

) se obtiene un valor específico del estimador que recibe el nombre de estimación del parámetro poblacional θ y lo notaremos por = g ( x 1

Problemas de Estimación de Una y Dos Muestras. UCR ECCI CI-1352 Probabilidad y Esradística Prof. M.Sc. Kryscia Daviana Ramírez Benavides

ANEXO B. Se define como Regresión al estudio de la fuerza, consistencia o grado de asociación de la

Resumen de fórmulas estadísticas y funciones en Excel

Polinomio de una sola variable. , llamaremos polinomio de la variable x a toda expresión algebraica entera de la forma:

Ejercicios y Talleres. puedes enviarlos a

CAPÍTULO I. Conceptos Básicos de Estadística

SESION 15 DISTRIBUCIONES DE MUESTREO

Señales en Tiempo Discreto

DETERMINACION DEL COSTO POR ALUMNO EGRESADO DE EDUCACION PRIMARIA

14. Técnicas de simulación mediante el método de Montecarlo

4 Contrastes del Chi 2 de bondad del ajuste

Hacia dónde tienden los datos? Se agrupan en torno a un valor? o, se dispersan? Su distribución se parece a alguna distribución teórica?

Teorema del límite central

9 SUCESIONES. LÍMITES DE SUCESIONES

Diferencial Total. se define. en el punto x

EJERCICIOS RESUELTOS TEMA 8

Prácticas de Matemáticas I y Matemáticas II con DERIVE 136

MINITAB y MODELOS DE REGRESIÓN

Prácticas de Matemáticas I y Matemáticas II con DERIVE-5 138

Estadística Aplicada a las ciencias Sociales Examen Febrero de 2008 segunda semana

SOLUCIÓN EXAMEN I PARTE II

Cálculo de límites Criterio de Stolz. Tema 8

Figura 10. No se satisface el supuesto de linealidad.

UNIDAD III DESCRIPCIÓN DE UN CONJUNTO DE DATOS. 1. Medidas de resumen descriptivas. 2. Medidas de tendencia central Moda

Tema 7: Estimación por intervalos de confianza.

Aptitud Matemática 5 RPTA.: E SUCESIONES RESOLUCIÓN RESOLUCIÓN RESOLUCIÓN RESOLUCIÓN RESOLUCIÓN RESOLUCIÓN ; ; ; ; ; ;

3. Las medidas de centralización

11 I N F E R E N C I A E S T A D Í S T I C A I (INTERVALOS DE CONFIANZA)

TEMA 7. ESTIMACIÓN Estimación puntual. Propiedades deseables de los estimadores Introducción y definiciones Estimadores Insegados

MEDIDAS DE RESUMEN. Jorge Galbiati Riesco

Series Numéricas. Una forma de definir e es a través de la suma: ! + 1 1! + 1 2! + 1 3! + 1 4! n. cuyo límite es e, es decir:

Topografía 1. II semestre, José Francisco Valverde Calderón Sitio web:

Transcripción:

Medidas descriptivas Itroducció Los feómeos que se observa sometidos al azar o suele ser costates, por lo que será ecesario que juto a ua medida que idique el valor alrededor del cual se agrupa los datos, se dispoga de ua medida que haga referecia a la variabilidad que refleje dicha fluctuació. E este setido puede examiarse varias características, siedo las más comues: la tedecia cetral de los datos, la dispersió o variació co respecto a este cetro, los datos que ocupa ciertas posicioes, la simetría de los datos y la forma e la que los datos se agrupa. Figura 1: Medidas represetativas de u cojuto de datos estadísticos 1

A lo largo de este tema, y siguiedo este orde, iremos estudiado los estadísticos que os va a orietar sobre cada uo de estos iveles de iformació: valores alrededor de los cuales se agrupa la muestra, la mayor o meor fluctuació alrededor de esos valores, os iteresaremos e ciertos valores que marca posicioes características de ua distribució de frecuecias así como su simetría y su forma. Medidas de cetralizació Depediedo del tipo de variable se puede cosiderar diferetes medidas. Media Aritmética La media aritmética de ua variable estadística es la suma de todos sus posibles valores, poderada por las frecuecias de los mismos. Es decir, si la tabla de valores de ua variable X es X i f i x 1 1 f 1......... x k k f k la media es el valor que podemos escribir de las siguietes formas equivaletes: x = x 1 f 1 + + x k f k = 1 (x 1 1 + + x k k )= 1 Si los datos o está ordeados e ua tabla, etoces kx x i i x = x 1 + + x Hemos supuesto implícitamete e la defiició de media que tratábamos co ua variable X discreta. Si la variable es cotiua y se utiliza tablas co itervalos se tiee que cambiar los valores de x i por las marcas de clase correspodietes c i. E geeral, la media aritmética obteida a partir de las marcas de clase c i, diferirá de la media obteida co los valores reales, x i. Es decir, habrá ua perdida de precisió que será tato mayor cuato mayor sea la diferecia etre los valores reales y las marcas de clase, o sea, cuato mayores sea las logitudes a i, de los itervalos. Proposició: 2

La suma de las diferecias de la variable co respecto a la media es ula, es decir, X (x i x) =0 Demostració: Basta desarrollar el sumatorio para obteer X (x i x) =(x 1 x)+ +(x x) =(x 1 + + x ) x = x x =0 Ejemplo Obteer las desviacioes co respecto a la media e la siguiete distribució y comprobar que su suma es cero. Solució: l i 1 l i i 0-10 1 10-20 2 20-30 4 30-40 3 l i 1 l i i x i x i i x i x (x i x) i 0-10 1 5 5-19 -19 10-20 2 15 30-9 -18 20-30 4 25 100 +1 +4 30-40 3 35 105 +11 +33 P =10 k x P i i =240 k (x i x) i =0 La media aritmética es: x = 1 kx x i i = 240 10 =24 Como se puede comprobar sumado los elemetos de la última columa la suma es 0. Liealidad de la media Si Y = a + bx etoces la correspodiete media de Y es y = a + bx, es decir, el operador media es ua fució lieal. Observacioes 3

No tiee setido su cálculo e variables de tipo cualitativo o omial (media de sí y o...). Icoveietes de la media: Es muy sesible a los valores extremos de la variable: todas las observacioes iterviee e el cálculo de la media, así, la aparició de ua observació extrema hará que la media se desplace e esa direcció. No es recomedable usar la media como medida cetral e las distribucioes muy asimétricas. Depede de la divisió e itervalos e el caso de utilizar tablas estadísticas. Si se cosidera ua variable discreta, por ejemplo el úmero fallos de u sistema, el valor de la media puede o perteecer al cojuto de posibles valores que pueda tomar la variable. Cálculo abreviado Se puede utilizar la propiedad de la liealidad de la media para simplificar las operacioes ecesarias para su cálculo mediate u cambio de orige ydeuidad de medida, e el caso de teer datos co muchos dígitos. Otras tipos de medias E fució del tipo de problema se puede cosiderar varias posibles geeralizacioes de la media aritmética. He aquí alguas de ellas aplicadas a u cojuto de posibles observacioes x 1,...,x. Media geométrica x G = x 1 x 2...x, alterativamete se puede tomar el atilogaritmo de l (x G )= l (x 1)+ +l(x ). Se recomieda su uso cuado se tiee porcetajes, tasas o úmeros ídice; es decir, cuado ua variable preseta variacioes acumulativas. 4

Media armóica Se defie como la iversa de la media de las iversas de las observacioes: Ã 1! x x A = 1 + + 1 1 x = = 1 x 1 + + 1. x Se suele usar cuado se promedia variables como productividades, velocidades o redimietos. Media cuadrática Es la raíz cuadrada de la media aritméticadeloscuadrados de las observacioes: r x 2 x C = 1 + + x 2. Mediaa Se cosidera ua variable X cuyas observacioes ha sido ordeadas de meor a mayor. Llamaremos mediaa, Me, al primer valor de la variable que deja por debajo de sí al 50 % de las observacioes. Por tato, si es el úmero de observacioes, la mediaa correspoderá a la observació que ocupa la posició [/2] + 1 (dode represetamos por [ ] la parte etera de u úmero), si el úmero de datos es impar, y la semisuma de los valores que ocupa las posicioes /2 y /2+1,sielúmerodedatosespar. Etre las propiedades de la mediaa, se puede destacar las siguietes: Como medida descriptiva, tiee la vetaja de o estar afectada por las observacioes extremas, ya que o depede de los valores que toma la variable, sio del orde de las mismas. Por ello es adecuado su uso e distribucioes asimétricas. Es de cálculo rápido y de iterpretació secilla, pero o tiee setido su cálculo e variables de tipo cualitativo o omial, al igual que la media. A diferecia de la media, la mediaa de ua variable es siempre u valor de la variable que se estudia (ej. La mediaa de ua variable úmero de hijos toma siempre valores eteros). El mayor defecto de la mediaa es que tiee uas propiedades matemáticas complicadas, lo que hace que sea muy difícil de utilizar e Iferecia Estadística. 5

Observació E el caso de las variables cotiuas agrupadas e itervalos, el cálculo de la mediaa es algo más complicado. Se supoe que la mediaa se ecuetra e u itervalo dado (l i 1,l i ] y hay que determiar el puto que deja exactamete la mitad de observacioes a u lado y al otro. Mediate u argumeto geométrico se deduce que la mediaa es el valor tal que 2 Me = l i 1 + N i 1 a i, i dode l i 1 es el extremo iferior del itervalo dode se ecuetra el valor de la mediaa, es el tamaño total de la muestra, i es la frecuecia absoluta que aparece e el itervalo dode se ecuetra el valor de la mediaa y a i es la amplitud de dicho itervalo. NOTA: Si se utiliza iterpolació lieal, aplicado el teorema de Thales: CC 0 AC = BB0 AB = i = N 2 i 1 = a i Me l i 1 Me = l i 1 + 6 N 2 i 1 a i i

Ejemplo Sea X ua variable discreta que ha presetado sobre ua muestra las siguietes modalidades: X 2, 5, 7, 9, 12 x = x 1+ +x = 2+5+7+9+12 =7 5 Med =7, ya que es el valor que deja por detrás dos observacioes y por delate otras dos (está e medio de todas las observacioes). Si cambiamos la última observació por otra aormalmete grade, esto o afecta a la mediaa, pero sí a la media: X 2, 5, 7, 9, 125 x = x 1+ +x = 2+5+7+9+125 =29,6 y Me =7. 5 E este caso la media o es u posible valor de la variable (discreta), y se ha visto muyafectadaporlaobservacióextrema.esteohasidoelcasoparalamediaa. Moda Llamaremos moda a cualquier máximo relativo de la distribució de frecuecias, es decir, cualquier valor de la variable que posea ua frecuecia mayor que su aterior y su posterior. De la moda se puede destacar las siguietes propiedades: Es muy fácil de calcular y se puede cosiderar para variables tato cuatitativas como cualitativas. Puede o ser úica. Estadísticos de posició Para ua variable discreta, se defie el percetil de orde k, como la observació, P k, que deja por debajo de sí el k % de la muestra. Esta defiició es semejate a la de la mediaa, pues como cosecuecia de la defiició, es evidete que Me = P 50. Por su propia aturaleza, el percetil puede estar situado e cualquier lugar de la distribució, por lo que o se puede cosiderar como ua medida de tedecia cetral, sio más bie de posició. Los cuartiles, Q l, so u caso particular de los percetiles. Hay 3, y se defie como: 7

Primer Cuartil: Q 1 = P 25. Segudo Cuartil: Q 2 = P 50. Es equivalete a la Mediaa. Tercer Cuartil: Q 3 = P 75. De forma aáloga se puede defiir los deciles como los valores de la variable que divide a las observacioes e 10 grupos de igual tamaño. Más precisamete, defiimos D 1,D 2,...,D 9 como: D i = P 10i, dode i =1,...,9. Los percetiles (que icluye a la mediaa, cuartiles y deciles) tambié so deomiados estadísticos de posició. Al igual que e el caso del cálculo de la mediaa cuado las variables so cotiuas y está agrupadas e itervalos, el cálculo de estos estadísticos de posició es más complicado. Se supoe que el valor se ecuetra e u itervalo dado (l i 1,l i ] yhayquedetermiar el puto que deja exactamete el porcetaje correspodiete de observacioes a u lado y al otro. Mediate u argumeto geométrico se deduce tambié que el percetil es el valor tal que P k = l i 1 + k N 100 i 1 a i. i Ejemplo Dada la siguiete distribució e el úmero de hijos de cie familias, calcular sus cuartiles. x i i N i 0 14 14 1 10 24 2 15 39 3 26 65 4 20 85 5 15 100 =100 Solució: 1. Primer cuartil: =25;Es el primer valor tal que N 4 i >/4=39;luegoQ 1 =2. 2. Segudo cuartil: 2 =50;Es el primer valor tal que N 4 i >/2=65;luegoQ 2 =3. 3. Tercer cuartil: 3 =75;Es el primer valor tal que N 4 i > 3/4 =85;luegoQ 3 =4. 8

Medidas de variabilidad o dispersió Los estadísticos de tedecia cetral o posició idica dóde se sitúa u grupo de putuacioes. Los de variabilidad o dispersió os idica si esas putuacioes o valores está próximos etre sí o si por el cotrario está o muy dispersas. Ua medida razoable de la variabilidad podría ser la amplitud o rago, quese obtiee restado el valor más bajo de u cojuto de observacioes del valor más alto. Es fácil de calcular y sus uidades so las mismas que las de las observacioes origiales, auque posee varios icoveietes: No utiliza todas las observacioes (sólo dos de ellas). Se puede ver muy afectada por algua observació extrema. El rago aumeta co el úmero de observacioes, o bie se queda igual. E cualquier caso uca dismiuye. Existe medidas de dispersió mejores que ésta y se determia e fució de la distacia etre las observacioes y algú estadístico de tedecia cetral. Desviació media Se defie la desviació media como la media de las diferecias e valor absoluto de los valores de la variable a la media, es decir, si teemos u cojuto de observacioes, x 1,...,x,etoces D m = 1 X x i x. Como se observa, la desviació media guarda las mismas dimesioes que las observacioes. La suma de valores absolutos es relativamete secilla de calcular, pero esta simplicidad tiee u icoveiete: desde el puto de vista geométrico, la distacia que iduce la desviació media e el espacio de observacioes o es la atural (o permite defiir águlos etre dos cojutos de observacioes). Esto hace que o sea muy coveiete trabajar co ella cuado se cosidera iferecia estadística. Nota: Como forma de medir la dispersió de los datos se tiee que descartar P 1 (x i x), pues esa suma vale 0, ya que las desviacioes co respecto a la media se puede compesa uas co otras al haber térmios e esa suma que so de sigos distitos. 9

Rago Itercuartílico Se defie como la diferecia etre el tercer y el primer cuartil IQR = Q 3 Q 1 Es preferible usarlo cuado aparece observacioes aómalas (outliers). Variaza y desviació estádar Si las desviacioes co respecto a la media las cosideramos al cuadrado, (x i x) 2, de uevo obteemos que todos los sumados tiee el mismo sigo (positivo). Esta es además la forma de medir la dispersió de los datos de forma que sus propiedades matemáticas so más fáciles de utilizar. Se puede defiir, etoces, dos estadísticos fudametales: La variaza y la desviació estádar (o típica). La variaza, σ 2, se defie como la media de las diferecias cuadráticas de putuacioes co respecto a su media aritmética, es decir σ 2 = 1 X (x i x) 2. Ua fórmula equivalete para el cálculo de la variaza está basada e lo siguiete: σ 2 = 1 = 1 = 1 X (x i x) 2 = 1 X x 2 i 2x i x + x 2 = 1 X x 2 i 2x 2 + x 2 = X x 2 i x 2. X x 2 i 2x 1 X x i + 1 x2 = {z } La variaza o tiee la misma magitud que las observacioes (ej. si las observacioes se mide e metros, lavariazalohaceemetros 2 ) Si queremos que la medida de dispersió sea de la misma dimesioalidad que las observacioes bastará co tomar su raíz cuadrada. Por ello se defie la desviació estádar, σ, como v v σ =+ u σ 2 = t 1 X u (x i x) 2 = t 1 X x 2 i x2. Ejemplo 10

Calcular la variaza y desviació típica de las siguietes catidades medidas e metros: 3,3,4,4,5 Solució: Para calcular dichas medidas de dispersió es ecesario calcular previamete el valor co respecto al cual vamos a medir las diferecias. Éste es la media: La variaza es: σ 2 = 1 X x = 3+3+4+4+5 5 x 2 i x 2 = 32 +3 2 +4 2 +4 2 +5 2 5 = 3,8 metros. 3,8 2 =0,56 metros 2, yladesviacióestádaresσ =+ σ 2 = 0,56 = 0, 748 metros. Las siguietes propiedades de la variaza (respectivamete, desviació típica) so importates a la hora de hacer u cambio de orige y escala a ua variable. E primer lugar, la variaza (respectivamete desviació típica) o se ve afectada si al cojuto de valores de la variable se le añade ua costate. Si además cada observació es multiplicada por otra costate, e este caso la variaza cambia co relació al cuadrado de la costate (respectivamete la desviació típica cambia co relació al valor absoluto de la costate). Esto queda precisado e la siguiete proposició: Proposició Si Y = ax + b etoces σ 2 y = a 2 σ 2 x. Demostració: Para cada observació x i de X, i =1,...,, teemos ua observació de Y que es por defiició.y i = ax i + b. Como y = ax + b,.la variaza de Y es σ 2 y = 1 = 1 X (y i y) 2 = 1 X [(ax i + b) (ax + b)] 2 = X a 2 (x i x) 2 = a 2 σ 2 x. Las cosecuecias del aterior resultado era de esperar: Si los resultados de ua medida so trasladados ua catidad b, la dispersió de los mismos o aumeta. Si estos mismos datos se multiplica por ua catidad a<1, el resultado tederá a cocetrarse alrededor de su media (meor variaza). Si por el cotrario a>1 habrá mayor dispersió. Observacioes. La variaza y la desviació estádar tiee las siguietes propiedades: 11

Ambas so sesibles a la variació de cada ua de las putuacioes, es decir, si ua putuació cambia, cambia co ella la variaza ya que es fució de cada ua de las putuacioes. La desviació típica tiee la propiedad de que e el itervalo (x 2σ; x +2σ) se ecuetra por lo meos el 75 % de las observacioes (es el llamado teorema de Thebycheff). Icluso si teemos muchos datos y estos proviee de ua distribució ormal, podremosllegaral95 % de las observacioes. No es recomedable el uso de ellas, cuado tampoco lo sea el de la media como medida de tedecia cetral, por ejemplo, e datos omiales. U pricipio geeral de la iferecia estadística afirma que si pretedemos calcular de modo aproximado la variaza de ua població a partir de la variaza de ua muestra suya, se tiee que el error cometido es geeralmete más pequeño, si e vez de cosiderar como estimació de la variaza de la població, a la variaza muestral cosideramos lo que se deomia cuasivariaza muestral, s 2, quesecalculacomolaaterior,pero cambiado el deomiador por 1: s 2 = 1 1 X (x i x) 2 = σ2 1. Tipificació La tipificació al proceso de restar la media y dividir etre su desviació típica a ua variable X. De este modo se obtiee ua ueva variable z = X x, σ de media 0 y desviació estádar σ z =1, quesedeomiavariabletipificada. Esta ueva variable carece de uidades y permite hacer comparables dos medidas que e u pricipio o lo so, por aludir a coceptos diferetes. Así, por ejemplo, os podemos pregutar si u elefate es más grueso que ua hormiga determiada, cada uo e relació co su població. Tambié es aplicable al caso e que se quiera comparar idividuos semejates de poblacioes diferetes. Por ejemplo si deseamos comparar el ivel académico de dos estudiates de diferetes Uiversidades para la cocesió de ua beca de estudios, e pricipio sería ijusto cocederla directamete al que posea ua ota 12

media más elevada, ya que la dificultad para coseguir ua buea calificació puede ser mucho mayor e u cetro que e el otro, lo que limita las posibilidades de uo de los estudiate y favorece al otro. E este caso, lo más correcto es comparar las calificacioes de ambos estudiates, pero tipificadas cada ua de ellas por las medias y desviacioes típicasrespectivasdelasotasdelosalumosdecadauiversidad. Coeficiete de Variació E el caso de que el problema sea comparar la variabilidad de dos poblacioes co medidas diferetes (variables diferetes) se puede cosiderar u coeficiete adimesioal queeselcoeficiete de variació. Se defie del siguiete modo (como u porcetaje): CV = σ x 100. Observacioes: Sólo se debe calcular para variables co todos los valores positivos. Todo ídice de variabilidad es esecialmete o egativo. Las observacioes puede ser positivas o ulas, pero su variabilidad debe ser siempre positiva. De ahí que sólo se deba trabajar co variables positivas, de modo que x>0. No es ivariate ate cambios de orige. Es decir, si a los resultados de ua medida le sumamos ua catidad positiva, b>0, para teer Y = X +b, etoces CV Y >CV X, ya que la desviació estádar o es sesible ate cambios de orige, pero sí la media. Lo cotrario ocurre si restamos (b <0) CV Y = σ y y = σ x x + b < σ x x = CV X Es ivariate a cambios de escala. Si multiplicamos X por ua costate a, para obteer Y = ax, etoces CV Y = σ Y y = σ ax ax = aσ x ax = CV X Nota: Es importate destacar que el coeficiete de variació sirve para comparar las variabilidades de dos cojutos de valores (muestras o poblacioes), mietras que si deseamos comparar a dos elemetos de cada uo de esos cojutos, es ecesario usar los valores tipificados. 13

Ejemplo Dada la distribució de edades (medidas e años) e u colectivo de 100 persoas, obteer: La variable tipificada Z, los valores de la media y variaza de Z, el coeficiete de variació de Z. x i i 2 47 7 32 15 17 30 4 =100 Solució: Se costruye la siguiete tabla auxiliar para realizar los cálculos Para calcular la variable tipificada x i i x i i x 2 i i 2 47 94 188 7 32 224 1568 15 17 255 3825 30 4 120 3600 =100 693 9181 Z = X x, σ x partimos de los datos del euciado. Será ecesario calcular e primer lugar la media y desviació típica de la variable origial (X = años). A su vez los valores tipificados so x = 693 =6,93 años 100 σ 2 x = 9181 100 6,932 =43,78 años 2 σ x = p 43,78 = 6,6 años z 1 = 2 6,93 = 0,745 6,6 z 2 = 7 6,93 =0,011 6,6 z 3 = 15 6,93 =1,22 6,6 z 4 = 30 6,93 =3,486 6,6 14

z i i z i i zi 2 i -0.745 47-35.015 26.086 0.011 32 0.352 0.004 1.220 17 20.720 25.303 3.486 4 13.944 48.609 =100 0.021 100.002 z = 0,021 100 0 σ 2 z = 100,002 0 1 100 σ z = 1=1 Nota: Elcoeficiete de variació o se puede usar co variables tipificadas, aquí, por ejemplo, se tedría que CV = σ z z = 1 0. Asimetría y aputamieto Nos vamos a platear averiguar si los datos se distribuye de forma simétrica co respectoauvalorcetral,o sibielagráfica que represeta la distribució de frecuecias es de ua forma diferete del lado derecho que del lado izquierdo. Si la simetría ha sido determiada, podemos pregutaros si la curva es más o meos aputada (larga y estrecha). Este aputamieto habrá que medirlo comparádolo co cierta distribució de frecuecias que cosideramos ormal (o por casualidad es éste el ombre que recibe la distribució de referecia). Coeficiete de asimetría Para saber si ua distribució de frecuecias es simétrica, hay que precisar co respecto a qué. U bue cadidato es la mediaa, ya que para variables cotiuas, divide al histograma de frecuecias e dos partes de igual área. Podemos basaros e ella para, de forma atural, decir que ua distribució de frecuecias es simétrica si el lado derecho de la gráfica (a partir de la mediaa) es la image por u espejo del lado izquierdo (figura 2). 15

Figura 2: Distribucioes de frecuecias simétricas y asimétricas Observació: Si ua variable es cotiua simétrica y uimodal, coicide la media, la mediaa y la moda. Detro de los tipos de asimetría posible, se puede destacar los dos fudametales (figura 3): Figura 3: Asimetría positiva y asimetría egativa 16

Asimetría positiva: Si las frecuecias más altas se ecuetra e el lado izquierdo de la media, mietras que e la parte derecha hay frecuecias más pequeñas (e la cola). Asimetría egativa: Cuado la cola está e el lado izquierdo. Se puede defiir u coeficiete de asimetría. Previamete,setieequedefiir el mometo de orde p N µ p = 1 X x p i, yelelmometocetral de orde p N m p = 1 X (x i x) p, etoces el coeficiete de asimetría se defie como γ 1 = m P 1 3 = (x i x) 3 m 2 m2 σ 3 Apoyádoos e este ídice, se dice que hay asimetría positiva si γ 1 > 0, yquela asimetría es egativa si γ 1 < 0. Se puede observar que es u ídice adimesioal, si uidades de medida. Por otro lado,sucedequedifereciasimportatesetrelamediaylamodaolamediaylamediaa idica asimetría. Coeficiete de curtosis o aputamieto Se defie el coeficiete de curtosis de Fisher como: γ 2 = m 4 σ 3, 4 dode m 4 es el mometo de cuarto orde. Es éste u coeficiete adimesioal, ivariate ate cambios de escala y de orige. Sirve para medir si ua distribució de frecuecias es muy aputada o o. Para decir si la distribució es larga y estrecha, hay que teer u patró de referecia. El patró de referecia es la distribució ormal o gaussiaa para la que se tiee m 4 σ =3, lo que implica que γ 4 2 =0. Depediedo del valor alcazado por γ 2 se puede clasificar ua distribució e leptocúrtica: Siγ 2 > 0 (más aputada que la ormal) platicúrtica: Siγ 2 < 0 (más aplastada que la ormal). 17

Otros tipos de métodos gráficos Diagramas de Cajas (Box-Plots) Los datos puede quedar caracterizados por la mediaa, el primer y el tercer cuartil. Co todos ellos se puede costruir u diagrama e forma de caja Grafico de Cajas 0 10 20 30 40 X Elosextremosdelacajasepoeloscuartiles(1 o y3 o ) y detro de la caja se poe la mediaa. E las patas se poe los siguietes valores: Q 1 1,5(Q 3 Q 1 ) y Q 3 + 18

1,5(Q 3 Q 1 ) respectivamete. Es decir, el primer cuartil más o meos vez y media el rago itercuartílico. Observado la forma de la caja, la posició de la mediaa y la logitud de las patas se obtiee bastate iformació sobre la distribució de los datos, la simetría de los mismos, la dispersió y la tedecia cetral de los mismos. Cuado aparece observacioes aómalas (outliers) se sitúa como putos aislados después de los extremos de las patas. Nota: Se cosidera observacioes otuliers aquellas que está situadas a ua distacia de la media mayor que 3 desviacióes estádar (σ), es decir o mucho mayores que la media o mucho meores. Gráfico de tallo y hojas Es u procedimieto semigráfico para presetar la iformació que resulta adecuado para u úmero pequeño de datos. El procedimieto que se emplea es el siguiete: Se redodea los datos a dos o tres cifras sigificativas Se coloca los datos e ua tabla co dos columas separadas co ua líea. A la izquierda de la líea se poe, formado el tallo, los dígitos de las deceas o de las ceteas (co 3 cifras) y deceas. A la derecha se poe las uidades e ambos casos formado las hojas. Cada tallo defie ua clase y sólo se escribe ua vez. El úmero de hojas represeta la frecuecia de esa clase. Ejemplo: Salida de Statgraphics: DATOS: 114, 125, 114, 124, 142, 152, 133, 113, 172, 127, 135, 161, 122, 127, 134, 147 Stem-ad-Leaf Display for x1: uit = 1,0 1 2 represets 12,0 3 11 344 8 12 24577 19

8 13 345 5 14 27 3 15 2 2 16 1 1 17 2 20

The StatAdvisor --------------- This display shows a frequecy tabulatio for x1. The rage of the data has bee divided ito 7 itervals (called stems), each represeted by a row of the table. The stems are labeled usig oe or more leadig digits for the data values fallig withi that iterval. O each row, the idividual data values are represeted by a digit (called a leaf) to the right of the vertical lie. This results i a histogram of the data from which you ca recover at least two sigificat digits for each data value. If there are aypoitslyigfarawayfrommost of the others (called outside poits), they are placed o separate high ad low stems. I this case, there are o outside poits. Outside poits are illustrated graphically o the box-ad-whisker plot, which you ca access via the list of Graphical Optios. The leftmost colum of umbers are depths, which give cumulative couts from the top ad bottom of the table, stoppig at the row which cotais the media. Diagramas de dispersió Eocasioessetratacodosvariablesalmismotiempo(X, Y ). E u primer aálisis exploratorio se trataría de reflejar posibles relacioes etre las dos variables, por ejemplo lieales. Es decir cuado aumeta los valores de ua tambié lo hace los de la otra de maera lieal. Se puede cosiderar los gráficos de dispersió, dode e abscisas se poe los valores de ua variable (X 2 ) y e ordeadas los de la otra (X 1 ). Cosidero el programa e Statgraphics dode se muestra u ejemplo dode aparece ua relació lieal etre dos variables. 21

Grafico de Dispersio 40 30 x1 20 10 0 5,7 7,7 9,7 11,7 13,7 15,7 x2 Diagramas de datos temporales Por último, se puede cosiderar gráficos de datos temporales. E abcisas se poe los istates de tiempo y e ordeadas los valores de la serie. Se puede observar tedecias(crecietes o decrecietes) e las series, ciclos y comportamietos estacioales. El siguiete ejemplo es el de u ídice medido durate todos los días de u mes. 190 p 170 x 150 130 110 0 4 8 12 16 t 22