PRÁCTICA 4: Descripción de datos 1. Caracterice las siguientes variables y clasi quelas como cualitativas o cuantitativas. Si son cualitativas en ordinales y nominales y si son cuantitativas en discretas o continuas. En cada caso de na los valores que puede tomar la variable. (a) Raza (b) Fecha de nacimiento (c) Presión sanguínea sistólica (d) Cociente intelectual (e) Recuento de glóbulos blancos (f) Peso (g) Plan de salud médico (h) Número de hijos 2. Calcule la media, la mediana, el modo, el rango, la varianza, el desvío estándar, el coe ciente de variación y los cuartiles en las siguientes poblaciones. Conjunto 1: longitudes del fémur de hembras apomícticas del á do Pemphiqus populi-transversus, medidas en mm x 10 1 : 3.8 3.6 4.3 3.5 4.3 3.3 4.3 3.9 4.3 3.8 3.9 4.4 3.8 4.7 3.6 4.1 4.4 4.5 3.6 3.8 4.4 4.1 3.6 4.2 3.9 Conjunto 2: número de plantas de Carex acca halladas en 500 parcelas. (archivo: plantas.xls) n o de plantas por parcela 0 1 2 3 4 5 6 7 8 frecuencia 181 118 97 54 32 9 5 3 1 3. Gra que utilizando el lenguaje R y de acuerdo al tipo de variables los siguientes conjuntos de datos por medio de un grá co de barras, un diagrama sectorial, un histograma y/o un diagrama de cajas. Conjunto 3: número de casos de cuatro tipos de operación quirúrgica realizada el año pasado en un cierto hospital general. (archivo: operacion.xls) Tipo de operación Casos Torácica 20 Huesos y articulaciones 45 General 98 Neurocirugía 23 1
Conjunto 4: ancho interorbital de una muestra de palomas en mm.( archivo: anchopalomas.xls) 12.2 12.9 11.8 11.9 11.6 11.1 12.3 12.2 11.8 11.8 10.7 11.5 11.3 11.2 11.6 11.9 13.3 11.2 10.5 11.1 12.1 11.9 10.4 10.7 10.8 11 11.9 10.2 10.9 11.6 10.8 11.6 10.4 10.7 12 12.4 11.7 11.8 11.3 11.1 4. En el archivo ganado.xls, se muestran los porcentajes de grasa de la leche de 120 vacas Ayrshire de 3 años, seleccionados al azar de un libro de registro de ganado canadiense. Utilizando el lenguaje R realice un análisis descriptivo a través de parámetros y representaciones grá cas 5. Se ha medido el perímetro craneal (en centímetros) a niños de edad comprendida entre los dos y tres años en dos grupos de 11 niñas y 17 niños. Se sabe que la suma de los perímetros craneales en los niños es de 739.5 cm. y se ha obtenido la gura 1. Figura 1 Responda a las siguientes preguntas justi cando en cada caso: (a) Determine el promedio en el grupo de los niños. (b) Establezca aproximadamente el valor de los cuartiles y las medianas en ambos grupos. (c) Existen puntos atípicos? Sí existen determine cuál o cuáles son. (d) Clasi que a la variable que se está analizando y determine otro grá co que la pueda representar. 2
6. En la siguiente tabla se muestran las medias y las desviaciones típicas de cuatro poblaciones: Población K L M N x 198.5 198.1 193 193.4 9.7 3.9 4.6 8.1 Sus grá cas (NO respectivamente) son las que se ven en la gura 2. Identi que cada población con una grá ca. Figura 2 7. En la siguiente tabla se muestran las características de cuatro poblaciones: K L M N medianas iguales medianas iguales medianas distintas medianas distintas varianzas similares varianzas distintas varianzas distintas varianzas iguales simétrica simetrica asimetrica simétrica vasrios valores atípicos pocos valores atípicos pocos valores atípicos pocos valores atípicos Sus grá cas (NO respectivamente) son las que se observan en la gura 3. Identi que cada población con una grá ca. 3
Figura 3 8. Explique los siguientes conceptos: estadística, estadística descriptiva, estadística inferencial, bioestadística, variable aleatoria (v.a.), v.a. cuantitativa, v.a. cualitativa, población, población nita, población in nita, muestra, v.a. discreta, v.a. continua y análisis de exploración de datos. 9. El archivo de datos pig.xls describe el peso inicial y la ganancia en peso de un grupo de cerdos que fue dividido en cuatro subgrupos. A cada uno de estos grupos se le asignó un dieta diferente. Se registró también la edad de cada animal. (a) Describa las variables edad, peso inicial y ganancia mediante grá cos de caja e histogramas. Realice los mismos grá cos para los subgrupos que quedan determinados de acuerdo a la variable DIETA. Interprete. (b) Obtenga los parámetros descriptivos de esas variables para cada subgrupo. 10. Para los siguientes conjuntos de datos obtenga un diagrama de dispersión y calcule el coe - ciente de correlación. Conjunto 6: Se midió la longitud de la nervadura principal y la longitud del peciolado en 10 hojas de hiedra.(archivo: hiedra.xls) Nervadura 76.5 70.5 81.5 82 67.5 67 86 76.5 66.5 64 Peciolado 27 34.5 33.5 37 32.5 35.5 42 41 44 38 Conjunto 7: En un conjunto de 12 ejemplares de Lebistes reticulatus (PETERS) de 44 días de edad se midió la longitud total (longtotal) y la distancia entre la punta del hocico y el borde anterior de la aleta dorsal (long). (archivo: long.xls) 4
longtotal 17 18 18 18 18 18 18 19 19 20 21 21 long 8 8 8 8 8 8 8 9 9 9 9 10 Conjunto 8: En un lote de 16 capullos se midieron las longitudes d 1 y d 2 :(archivo:capullos.xls) d 1 19.2 18 18.9 19.9 18.1 17.5 21.2 19.7 19.5 18 20 21 19.5 20 19 18 d 2 18.8 18 20 20.5 18.8 21.4 22.6 19.6 15 18 20.5 20.5 18 21 20 17.5 11. El archivo de datos fatness1.txt contiene las variables sexo (0: femenino, 1: masculino), altura (en cm.), peso(en kg), longitud de la circunferencia de la pierna (en cm), índice de obesidad en una escala de 1 a 5. Resuelva los incisos siguientes utilizando el lenguaje R. (a) Abra el archivo y veri que la estructura de los datos (b) Convierta en factores a las variables sexo e índice de obesidad (c) Asigne nombre a los niveles de sexo. (d) Obtenga una distribución de frecuencias de sexo e índice de obesidad (e) Construya un diagrama de barras para sexo e índice de obesidad (f) Obtenga una descripción de las variables continuas (g) Realice un histograma para peso (h) Realice una tabla cruzando las variables categóricas del archivo fatness. (i) Realice un boxplot para la altura (j) Construya un boxplot para la altura de acuerdo al índice de obesidad. Idem para el peso. (k) Utilice la función plot y realice un diagrama de cajas para el peso de acuerdo al índice de obesidad, cuyo título sea Diagrama de cajas para el peso, el nombre del eje x sea Indice de obesidad y el nombre del eje y sea peso en kg.. (l) Realice un diagrama de dispersión para peso vs. altura y peso vs. longitud dispuestos en una la y dos columnas colocándole etiquetas a los ejes. (m) Construya la gura 4 5
Figura 4. 12. Utilizando el lenguaje R genere y gra que conjuntos de datos con cada una de las distribuciones especi cadas a continuación. Calcule el promedio, el desvío estándar y la asimetría. Establezca conclusiones a partir de los grá cos. Compare en cada caso la esperanza y la varianza de sus datos con las de la distribución que usó para generarlos. (a) b(500; 0:1); b(50; 0:1): (b) b(500; 0:5); b(50; 0:5): (c) 300 datos con P (5) y 300 con P (2): (d) 300 datos con G(0:6) y 300 con G(0:1): 6