Estadística Descriptiva Itroducció Se defie alguos coceptos básicos para ua compresió ituitiva de la Estadística. Se itroduce los primeros coceptos sobre el uso y maejo de datos uméricos, que permite distiguir y clasificar las características e estudio, orgaizar y tabular las medidas obteidas mediate la costrucció de tablas de frecuecias y, por último, cosiderar los métodos para elaborar ua image que sea capaz de mostrar gráficamete uos resultados. Qué es la Estadística? Cuado coloquialmete se habla de Estadística, se suele pesar e ua relació de datos uméricos presetada de forma ordeada y sistemática. Esta idea es la cosecuecia del cocepto popular que existe sobre el térmio y que cada vez está más extedido debido a la ifluecia de uestro etoro, ya que hoy día es casi imposible que cualquier medio de difusió, periódico, radio o televisió, o os aborde diariamete co cualquier tipo de iformació sobre accidetes de tráfico, ídices de crecimieto de població, turismo, tedecias políticas, etc. Sólo cuado os adetramos e u mudo más específico como es el campo de la ivestigació de las Ciecias Sociales, Medicia, Biología, Psicología,... empezamos a percibir que la Estadística o sólo es algo más, sio que se covierte e la úica herramieta que, hoy e día, permite dar luz y obteer resultados, y por tato beeficios, e cualquier tipo de estudio, cuyos movimietos y relacioes, por su variabilidad itríseca, o pueda ser abordadas desde la perspectiva de las leyes determiistas. Podríamos, desde u puto de vista más amplio, defiir la Estadística como la ciecia que estudia cómo debe emplearse la iformació y cómo dar ua guía de acció e situacioes prácticas que etraña icertidumbre. La Estadística se ocupa de los métodos y procedimietos para recoger, clasificar, resumir, hallar regularidades y aalizar los datos, siempre y cuado la variabilidad e icertidumbre sea ua causa itríseca de los mismos; así como de realizar iferecias a partir de ellos, co la 1
fialidad de ayudar a la toma de decisioes y e su caso formular prediccioes. Podríamos por tato clasificar la Estadística e Descriptiva, cuado los resultados del aálisis o pretede ir más allá del cojuto de datos, e Iferecial cuado el objetivo del estudio es derivar las coclusioes obteidas a u cojuto de datos más amplio. Estadística Descriptiva: Describe, aaliza y represeta u grupo de datos utilizado métodos uméricos y gráficos que resume y preseta la iformació coteida e ellos. Estadística Iferecial: Apoyádose e el cálculo de probabilidades y a partir de datos muestrales, efectúa estimacioes, decisioes, prediccioes u otras geeralizacioes sobre u cojuto mayor de datos. Defiicioes Básicas S establece a cotiuació alguas defiicioes de coceptos básicos como so: elemeto, població, muestra, caracteres, variables, etc., a las cuales se hace referecia cotiuamete a lo largo del curso. Elemetos. Població. Caracteres Idividuos o elemetos: persoas u objetos que cotiee cierta iformació que se desea estudiar. Població: cojuto de idividuos o elemetos que cumple ciertas propiedades comues. Muestra: subcojuto represetativo de ua població. Parámetro: fució defiida sobre los valores uméricos de características medibles de ua població. Estadístico: fuciódefiida sobre los valores uméricos de ua muestra. Co relació al tamaño de la població, ésta puede ser: Fiita, como es el caso, por ejemplo, del úmero de persoas que se coecta a u servidor de Iteret e u día; Ifiita, si, por ejemplo, se estudia el mecaismo aleatorio que describe la secuecia de caras y cruces obteida e el lazamieto repetido de ua moeda al aire. Caracteres: propiedades, rasgos o cualidades de los elemetos de la població. Estos caracteres se puede dividir e cualitativos y cuatitativos. Modalidades: diferetes situacioes posibles de u carácter. Las modalidades debe ser a la vez exhaustivas y mutuamete excluyetes: cada elemeto posee ua y sólo ua de las 2
modalidades posibles. Clases: cojuto de ua o más modalidades e el que se verifica que cada modalidad perteece a ua y sólo ua de las clases. Ejemplo Cosideramos la població formada por todos los estudiates de la Uiversidad Carlos III (fiita). La altura media de todos los estudiates es el parámetro µ. Elcojutoformadopor los alumos de la Diplomatura e Estadística es ua muestra de dicha població y la altura media de esta muestra, x, es u estadístico. Orgaizació de los datos Variables estadísticas Cuado hablemos de variable haremos referecia a u símbolo (X,Y,A,B,...) que puede tomar cualquier modalidad (valor) de u cojuto determiado, que llamaremos domiio de la variable o rago. E fució del tipo de domiio, las variables las clasificamos del siguiete modo: Variables cualitativas cuado las modalidades posibles so de tipo omial. Por ejemplo, ua variable de color A { rojo, azul, verde } Variables cuatitativas ordiales so las que, auque sus modalidades so de tipo omial, es posible establecer u orde etre ellas. Por ejemplo, si estudiamos la llegada a la meta de u corredor e ua competició de 20 participates, su clasificació C es tal que C {1 o, 2 o, 3 o,...,20 o }. Otro ejemplo de variable cuatitativa ordial es el ivel de dolor, D, quesufreupaciete ate u tratamieto médico: D { iexistete, poco iteso, moderado, fuerte }. Variables cuatitativas so las que tiee por modalidades catidades uméricas co las que podemos hacer operacioes aritméticas. Detro de este tipo de variables podemos distiguir dos grupos: Discretas, cuado o admite siempre ua modalidad itermedia etre dos cualesquiera de sus modalidades. U ejemplo es el úmero de caras X, obteidoeellazamietorepetido deuamoeda.esobvioquecadavalordelavariableesuúmeroaturalx N. Cotiuas, cuado admite ua modalidad itermedia etre dos cualesquiera de sus modalidades, por ejemplo, el peso X de u iño al acer. E este caso, los valores de las variables 3
so úmeros reales, es decir, X R. Ocurre a veces que ua variable cuatitativa cotiua por aturaleza, aparece como discreta. Este es el caso e que hay limitacioes e lo que cociere a la precisió del aparato de medida de esa variable, por ejemplo, si medimos la altura e metros de persoas co ua regla que ofrece dos decimales de precisió, podemos obteer C {..., 1.50, 1.51, 1.52, 1.53,... }. E realidad lo que ocurre es que co cada ua de esas medicioes expresamos que el verdadero valor de la misma se ecuetra e u itervalo de radio 0,005. Por tato cada ua de las observacioes de X represeta másbieuitervalo queuvalor cocreto. Tal como hemos citado ateriormete, las modalidades so las diferetes situacioes posibles que puede presetar la variable. A veces, éstas so muy umerosas (por ejemplo, cuado ua variable es cotiua) y coviee reducir su úmero, agrupádolas e ua catidad iferior de clases. Estas clases debe ser costruidas de modo que sea exhaustivas e icompatibles, es decir, cada modalidad debe perteecer a ua y sólo ua de las clases. Tablas Estadísticas Cosideremos ua població estadística de idividuos, descrita segú u carácter o variable C cuyas modalidades ha sido agrupadas e u úmero k de clases, que deotamos mediate c 1,c 2,...,c k.paracadauadelasclasesc i, i =1,...,k, se puede cosiderar las siguietes magitudes: Frecuecia absoluta de la clase c i es el úmero, i, de observacioes que preseta ua modalidad perteeciete a esa clase. Frecuecia relativa de la clase c i es el cociete, f i, etre las frecuecias absolutas de dicha clase y el úmero total de observacioes, es decir, f i = i Obsérvese que f i es el tato por uo de observacioes que está e clase c i. Multiplicado por 100 represeta el porcetaje e % de la població que comprede esa clase. Frecuecia absoluta acumulada N i, se calcula sobre variables cuatitativas o cuatitativas ordiales, y es el úmero de elemetos de la població cuya modalidad es iferior o 4
equivalete a la modalidad c i : N i = 1 + 2 +...+ i = Frecuecia relativa acumulada, F i, se calcula sobre variables cuatitativas o cuatitativas ordiales, siedo el tato por uo de los elemetos de la població que está e algua de las clases y que preseta ua modalidad iferior o igual a la c i, es decir, F i = N i = 1 + 2 +...+ i ix = f 1 + f 2 +...+ f i = f j, j=1 como todas las modalidades so exhaustivas e icompatibles ha de ocurrir que kx j = 1 + 2 +...+ k =, o lo que es lo mismo, j=1 kx f j = j=1 kx j=1 P k j = j=1 j ix j=1 j = =1. Llamaremos distribució de frecuecias al cojuto de clases juto a las frecuecias correspodietes a cada ua de ellas. Ua tabla estadística sirve para presetar de forma ordeada las distribucioes de frecuecias. Su forma geeral es la siguiete: Modalidades Frec. Absolutas Frec. Relativas C i f i c 1 1 f 1 = 1 c j j f j = j c k k f k = k 1 Modalidades Frec.Abs.Acum. Frec.Rel.Acum C N i F i c 1 N 1 = 1 F 1 = N 1 = f 1 c j N j = 1 +...+ j F j = N j = f j c k N k = F k =1 5
Ejemplo Calcular los datos que falta e la siguiete tabla: l i 1 li i f i N i 0 10 60 f 1 60 10 20 2 0,4 N 2 20 30 30 f 3 170 30 100 4 0,1 N 4 100 200 5 f 5 200 Solució: Sabemos que la última frecuecia acumulada es igual al total de observacioes, luego = 200. Como N 3 = 170 y 3 =30, etoces N 2 = N 3 3 =170 30 = 140. Además al ser 1 =60, teemos que 2 = N 2 1 =140 60 = 80. Por otro lado podemos calcular 4 teiedo e cueta que coocemos la frecuecia relativa correspodiete: f 4 = 4 = 4 = f 4 =0,1 200 = 20. Así: N 4 = 4 + N 3 = 20 + 170 = 190. Este último cálculo os permite obteer 5 = N 5 N 4 =200 190 = 10. Al haber calculado todas las frecuecias absolutas, es imediato obteer las relativas: Escribimos etoces la tabla completa: f 1 = 1 = 60 200 =0,3 f 3 = 3 = 30 200 =0,15 f 5 = 5 = 10 200 =0,05 l i 1 l i i f i N i 0 10 60 0,3 60 10 20 80 0,4 140 20 30 30 0,15 170 30 100 20 0,1 190 100 200 10 0,05 200 200 6
Elecció de las clases E cuato a la elecció de las clases, debe seguirse los siguietes criterios e fució del tipo de variable que estudiemos: Cuado se trate de variables cualitativas o cuatitativas ordiales, las clases c i será de tipo omial. E el caso de variables cuatitativas, existe dos posibilidades. Si la variable es discreta, las clases será valores uméricos x 1,...,x k. Si la variable es cotiua las clases vedrá defiidas mediate lo que se deomia itervalos. E este caso, las modalidades que cotiee ua clase so todos los valores uméricos posibles coteidos e el itervalo, el cual viee ormalmete defiido de la forma [l i 1,l i )={x : l i 1 x<l i } obie(l i 1,l i ]={x : l i 1 <x l i }. E estos casos llamaremos amplitud del itervalo a las catidades a i = l i l i 1 y marca de clase c i, a u puto represetativo del itervalo. Si éste es acotado, tomamos como marca de clase al puto más represetativo, es decir, el puto medio del itervalo, c i = l i+l i 1. La 2 marca de clase o es más que ua forma abreviada de represetar u itervalo mediate uo de sus putos. Por ello hemos tomado como represetate al puto medio del mismo. Esto está pleamete justificado si recordamos que cuado se mide ua variable cotiua como el peso, la catidad co cierto úmero de decimales que expresa esta medició, o es el valor exacto de la variable, sio ua medida que cotiee cierto margedeerror, yportatorepreseta atodo u itervalo del cual ella es el cetro. E el caso de variables cotiuas, la forma de la tabla estadística es la siguiete: M. clase Frec. Abs. Frec. Rel. F. Abs. Ac. F. Rel. Ac. C i f i N i F i l 0 l 1 c 1 1 f 1 = 1 / N 1 = 1 F 1 = f 1.................. l j 1 l j c j j f j = j / N j = N j 1 + j F j = F j 1 + f j.................. l k 1 l k c k k f k = k / N k = F k =1 1 Elecció de itervalos para variables cotiuas A la hora de seleccioar los itervalos para las variables cotiuas se platea varios problemas, como so el úmero de itervalos a elegir y sus tamaños respectivos. La otació más def comú que usaremos para u itervalo será l j 1 l j (l j 1,l j ] 7
El primer itervalo, l 0 l 1, podemos a cerrarlo e el extremo iferior para o excluir la def observació más pequeña, l 0 : l 0 l 1 [l 0,l 1 ]. Éste es u coveio que tomaremos e las págias que sigue. El cosiderar los itervalos por el lado izquierdo y abrirlos por el derecho o cambia de modo sigificativo ada de lo que expodremos. El úmero de itervalos, k, a utilizar o está determiado de forma fija y por tato tomaremos u k que os permita trabajar cómodamete y ver bie la estructura de los datos. Como referecia osotros tomaremos ua de los siguietes valores aproximados: si o es muy grade N o itervalos = k 1 + 3,22 log() e otro caso Por ejemplo, si el úmero de observacioes que teemos es =100,ubuecriterioes agrupar las observacioes e k = 100 = 10 itervalos. Si embargo si teemos =1,000,000, será más razoable elegir k =1+3,22 log 20 itervalos, que k = 1000000 = 1000. La amplitud de cada itervalo a i = l i l i 1 se suele tomar costate, cosiderado la observació más pequeña y y más grade de la població (respectivamete l 0 = x mí y l k = x máx ) para calcular la amplitud total, A, delapoblacióa = l k l 0 de forma que la amplitud de cada itervalo sea: a i = a i =1,...,k dode a = A/k. Así la divisió e itervalos podría hacerse tomado: l 0 = x mi l 1 = l 0 + a... l k = x max = l 0 + ka Observació: Podría ocurrir que la catidad a fuese u úmero poco cómodo a la hora de escribir los itervalos (ej. a =10,325467). E este caso, es recomedable variar simétricamete los extremos, l 0 <x mí <x máx <l k,deformaquesetegaquea es u úmero más simple (ej. a =10). Ejemplo Sobre u grupo de =21persoas se realiza las siguietes observacioes de sus pesos, medidos e kilogramos: 8
X x 1,x 2,...,x 21 58 42 51 54 40 39 49 56 58 57 59 63 58 66 70 72 71 69 70 68 64 Agrupar los datos e ua tabla estadística. Solució: E primer lugar hay que observar que si deomiamos X alavariable pesodecada persoa ésta es ua variable de tipo cuatitativa y cotiua. Por tato a la hora ordear los resultados e ua tabla estadística, esto se ha de hacer agrupádolos e itervalos de logitud coveiete. Esto os lleva a perder cierto grado de precisió. Para que la pérdida de iformació o sea muy relevate seguimos el criterio de utilizar k = 21 itervalos (o so demasiadas las observacioes). E este puto podemos tomar bie k =4obiek =5. Arbitrariamete se elige ua de estas dos posibilidades. Por ejemplo, vamos a tomar k =5. Lo siguiete es determiar la logitud de cada itervalo, a i i =1,...,5. Lomáscómodo es tomar la misma logitud e todos los itervalos, a i = a (auqueestootieeporquéser ecesariamete así), dode l 0 = x mí =39 l 5 = x máx =72 A = l 5 l 0 =72 39 = 33 a = A 5 = 33 5 =6,6 Etoces, tomaremos k =5itervalos de logitud a =6,6 comezado por l 0 = x mí =39 y termiado e l 5 =72: l i 1 l i c i i f i N i F i i =1 39 45,6 42,3 3 0,1428 3 0,1428 i =2 45,6 52,2 48,9 2 0,0952 5 0,2381 i =3 52,2 58,8 55,5 6 0,2857 11 0,5238 i =4 58,8 65,4 62,1 3 0,1428 14 0,6667 i =5 65,4 72 68,7 7 0,3333 21 1 21 1 Otra posibilidad a la hora de costruir la tabla, y que os permite que trabajemos co catidades más simples a la hora de costruir los itervalos, es la siguiete. Como la regla para 9
elegir l 0 y l 5 o es muy estricta podemos hacer la siguiete elecció: a 0 = 7 A 0 = a 0 5=35 d = A 0 A =35 33 = 2 l 0 = x mí d 2 =39 1=38 l 5 = x máx + d 2 =72+1=73 ya que así la tabla estadística o cotiee decimales e la expresió de los itervalos, y el exceso d, cometido al ampliar el rago de las observacioes desde A hasta A 0,serepartedel mismo modo a los lados de las observacioes meores y mayores: Itervalos M. clase f.a. f.r. f.a.a. f.r.a. l i 1 l i c i i f i N i F i i =1 38 45 41,5 3 0,1428 3 0,1428 i =2 45 52 48,5 2 0,0952 5 0,2381 i =3 52 59 55,5 7 0,3333 12 0,5714 i =4 59 66 62,5 3 0,1428 15 0,7143 i =5 66 73 69,5 6 0,2857 21 1 21 1 10
Frequecy Tabulatio for x1 -------------------------------------------------------------------------------- Lower Upper Relative Cumulative Cum. Rel. Class Limit Limit Midpoit Frequecy Frequecy Frequecy Frequecy -------------------------------------------------------------------------------- at or below 0,0 0 0,0000 0 0,0000 1 0,0 6,25 3,125 2 0,0200 2 0,0200 2 6,25 12,5 9,375 14 0,1400 16 0,1600 3 12,5 18,75 15,625 20 0,2000 36 0,3600 4 18,75 25,0 21,875 32 0,3200 68 0,6800 5 25,0 31,25 28,125 24 0,2400 92 0,9200 6 31,25 37,5 34,375 5 0,0500 97 0,9700 7 37,5 43,75 40,625 3 0,0300 100 1,0000 8 43,75 50,0 46,875 0 0,0000 100 1,0000 above 50,0 0 0,0000 100 1,0000 -------------------------------------------------------------------------------- Mea = 20,8248 Stadard deviatio = 7,52962 The StatAdvisor --------------- This optio performs a frequecy tabulatio by dividig the rage of x1 ito equal width itervals ad coutig the umber of data values i each iterval. The frequecies show the umber of data values i each iterval, while the relative frequecies show the proportios i each iterval. You ca chage the defiitio of the itervals by pressig the alterate mouse butto ad selectig Pae Optios. You ca see the results of the tabulatio graphically by selectig Frequecy Histogram from the list of Graphical Optios. 11