ANÁLISIS EXPLORATORIO TRABAJOS DE APLICACIÓN INFORMÁTICA EJERCICIO N 1: Realice un análisis exploratorio utilizando el archivo que incluya las siguientes etapas a) Confección de tablas de distribución de frecuencias b) Cálculo de medidas resumen d) Representación gráfica de frecuencias DISTRIBUCIONES DE PROBABILIDAD EJERCICIO N 1: Resuelva los ejercicios del práctico n 5 empleando las funciones para calcular probabilidades y cuantiles de Infostat ESTIMACIÓN DE PARÁMETROS Y PRUEBA DE HIPÓTESIS EJERCICIO N 1: (Aplicaciones sobre intervalos de confianza) Se dispone de observaciones de perímetro de cabezas de ajo blanco, para bulbos obtenidos en dos campañas (1998 y 1999). Se desean estimar los parámetros distribucionales del variable diámetro (calibre) ya que dicha variable es utilizada en la clasificación de los ajos. La clasificación tipifica 3 tamaños: Grande, si el calibre es mayor que 7, Mediano si el calibre está entre 5 y 6, y Chico para calibres menores a 4. El perímetro es igual al producto del diámetro por el número = 3.1416. Utilice los datos registrados, disponibles en el archivo Ajoblanc.idb2, y realice las siguientes actividades: a) Realice una estadística descriptiva para el calibre para las campañas 1988 y 1999. b) Compare mediante un diagrama de densidad de puntos la distribución de calibres en ambas campañas. Utilizando el menú Estadísticas> Inferencia basada en una muestra > Intervalos de confianza, obtenga los intervalos de confianza para la media en ambas campañas. Utilizando el menú Estadísticas> Inferencia basada en dos muestras > prueba T, Compare los valores medios poblaciones del calibre entre el año 1988 y1999. De acuerdo a estos resultados hubo un cambio significativo de tamaño de un año a otro? Utilizando el menú Datos> Categorizar genere una variable que indique a que categoría de ajo pertenece cada caso según los criterios de clasificación enunciados en la presentación del problema. Utilizando el menú Estadísticas> Datos categorizados>tablas de contingencia,
genere una tabla de clasificación cruzada que muestre las frecuencias de las categorías de tamaño en los distintos años. Utilizando las opciones de tablas de contingencias genere porcentajes de cada categoría por año. c) Grafique, mediante un diagrama de tortas los porcentajes en que cada categoría de tamaño está representada en cada año. EJERCICIO N 2: (Aplicación sobre el cálculo del tamaño de muestra) En un laboratorio un investigador conduce un ensayo para estudiar características del hongo Phytophtora infestans. Los siguientes estadísticos corresponden a una muestra de 20 colonias del hongo, donde se midió la longitud de esporas (en micrones): μ =40 y s=6. Se desea estimar por intervalo de confianza la longitud media de las esporas, de modo que la amplitud del intervalo represente un 10% de la media muestral. Qué número de colonias se deberían tomar al construir el intervalo para μ con una confianza del 90%? Para responder al interés del investigador, utilice el menú Estadísticas > Cálculo del tamaño muestral > Para estimar una media con una precisión deseada. Tenga en cuenta: En la ventana Tamaño muestral para..., se debe activar la solapa Estimar una media En el panel Criterio para la obtención del tamaño muestral se deberá activar la opción correspondiente al criterio que se desea usar, elegir el nivel de confianza para el intervalo e ingresar el valor de referencia para el criterio indicado. En Cota superior para la varianza, se debe ingresar el valor de varianza para la variable en estudio. Luego de ingresar los valores requeridos, se debe pulsar la tecla <Enter>. Completada la información en el campo Tamaño muestral requerido aparecerá el cálculo de n. EJERCICIO N 3: (Cálculo de la probabilidad del error de tipo II) Se cree que la ganancia de peso promedio bajo una dieta experimental es de 140 gramos. Si se prueba la siguiente hipótesis: H0: μ=140 y H1: μ 140, usando una muestra de 36 individuos y sabiendo que la desviación estándar es de 15 gramos a) Obtenga la probabilidad de aceptar la hipótesis nula cuando en realidad el aumento de peso promedio es de 143 gramos. Utilice un =0.05. b) Realice el cálculo de error de tipo II para el siguiente contraste H0: μ=140 y H1: μ>140. Utilice un =0.05. c) Compare los resultados obtenidos anteriormente y escriba una conclusión. A continuación se da un ejemplo para el cálculo de la probabilidad asociada a un error de tipo II, utilizando aplicaciones de Infostat Suponga el contraste de hipótesis H0: = 50 H1: > 50, y que dicha hipótesis fue aceptada cuando en realidad la verdadera media era 52. Este resultado conduce a pensar en la probabilidad de cometer un error de tipo II.
Suponga conocer que la variable aleatoria estudiada, se distribuye como una normal con varianza s 2 =100 y que se trabajó con una muestra aleatoria de tamaño 25. Para calcular la probabilidad del Error de tipo II, previamente se debe delimitar la región de no rechazo bajo la hipótesis nula (H0: μ=50) y luego calcular el área correspondiente a dicha zona bajo la distribución con μ=52 (que es la distribución correcta). Para ello se pueden utilizar los siguientes procedimientos: 1) Graficación de la distribución de X y delimitación de la región de rechazo. La región de rechazo queda definida por los valores de X ³c, donde c es el punto crítico elegido de manera tal que P( X ³c μ=50)=a; esto es, la probabilidad de observar valores de medias muestrales mayores o iguales al punto crítico cuando la H0 es verdadera (es decir μ=50), es igual a a. Tomando a=0.05, el punto crítico (c) puede ser obtenido en InfoStat de la siguiente manera: Nota: si X se distribuye normal media = 50 (como se postula en la H0) y varianza = 100, por el Teorema Central del Límite sabemos que el estadístico X se distribuirá normal con media μ=50 y varianza 100/25=4. Para delimitar la región de rechazo en El evento está definido por valores... activar la opción Mayores o iguales que..., aparecerá automáticamente el punto crítico c, ya que InfoStat reporta por defecto el cuantil 0.95 de la distribución al activar dicha opción. Luego, para estos datos, c=53.28 es el punto crítico que delimita las regiones de rechazo y aceptación. Al presionar aceptar se visualizará la distribución y el área sombreada correspondiente a la probabilidad del evento rechazar H0 verdadera. Así, en este ejemplo la región crítica corresponde a los puntos muestrales para los cuales X ³53.28. Nota: si se desean obtener regiones críticas de otro tamaño (un a distinto al 5%) se deberá primero utilizar el menú Probabilidades y cuantiles para obtener los puntos críticos (cuantiles) que necesita ingresar en El evento está definido por valores... En el menú Aplicaciones Didácticas Gráficos de funciones de densidad continuas, generar la distribución del estadístico X bajo la hipótesis nula. Esto es, una normal con media = 50 y varianza = 4. 2) Cálculo del Error de tipo II. Considere ahora el problema de calcular b, asumiendo H0: μ=50 y H1: μ>50, n=25, varianza 100 y =0.05 para una prueba unilateral. Recordar que =P( x región de aceptación de H0/H1 verdadera), esto es la probabilidad asociada al evento el estadístico pertenece a la región de aceptación dado que la hipótesis alternativa es verdadera. Luego, en este ejemplo, =P( x < 53.28/μ=52). Para obtener el valor de en InfoStat se podrían seguir los siguientes pasos: Sobre la gráfica anterior generar la distribución del estadístico X bajo la hipótesis alternativa. Es decir graficar una densidad normal con parámetros media = 52 y varianza = 4. Para lograr esto se deberá Clonar la serie gráfica existente y cambiar el parámetro media ingresando 52, tarea realizada desde la ventana Herramientas gráficas. En Evento activar la opción <= y en el campo escribir 53.28. La porción sombreada de esta distribución corresponde a b. Se puede leer debajo del título del gráfico, el valor de la probabilidad de error de tipo II como p(evento)=0.7405.
COMPARACIÓN DE POBLACIONES EJERCICIO N 1: Para estudiar el efecto de la polinización artificial sobre el peso promedio de las semillas obtenidas, se efectuó un experimento sobre 10 plantas. La mitad de cada planta fue polinizada artificialmente y la otra mitad no. Se pesaron las semillas de cada mitad por separado, registrándose de cada planta un par de observaciones. El archivo poliniza.xls contiene los valores registrados en el estudio a) Realice un contraste que permita comparar las medias bajo ambos tratamientos b) Interprete los resultados obtenidos y concluya sobre recomendar o no el uso de la polinización artificial. EJERCICIO N 2: Para evaluar el crecimiento (medido en peso seco) de plantines de repollo sometidos a dos condiciones hídricas, una con riego no restringido (la capacidad de campo) y la otra con riego restringido (una vez cada 15 días), ocho equipos de trabajo obtuvieron datos para ambas condiciones. Cada dato, aportado por un equipo de trabajo corresponde al peso seco promedio de 50 plantas. Los datos se encuentran en la base riego.xls. a) Es la diferencia de peso seco entre condiciones de riego estadísticamente significativa, para un nivel de significación del 5%? EJERCICIO N 3: Dos lotes de pollos de la misma raza y edad fueron alimentados durante 30 días con dos tipos diferentes de alimento balanceado. Los aumentos de peso, en gramos, fueron: BalanceadoA 329 363 298 243 391 333 369 432 440 397 409 350 BalanceadoB 353 405 372 345 377 409 428 421 357 372 409 367 datos disponibles en pollos.xls. a) Pruebe si existen diferencias estadísticamente significativas entre los aumentos de peso promedio en los dos lotes. Trabaje con un nivel de significación de 5%. b) Estime la diferencia entre las medias de los tratamientos, con una confianza del 95%. Recomendaría algún balanceado? REGRESIÓN EJERCICIO N 1: Para estudiar la relación entre la biomasa y el ph en un medio de cultivo, se midió la biomasa (gr) para valores de ph entre 3 y 7, registrándose 45 mediciones. Los datos se encuentran en el archivo RegLin.xls. a) Realice un análisis de regresión lineal e interprete los resultados.
b) Realice un gráfico con las bandas de confianza y las de predicción. c) Estudie los supuestos que validan la prueba. d) Elabore un breve informe en el que se detallen: 1) La variable dependiente y la variable independiente 2) El modelo propuesto 3) Las hipótesis que se contrastaron 4) La decisión sobre H 0 y en qué se basa dicha decisión 5) El modelo ajustado y su interpretación 6) Interpretación de las bandas de confianza y de predicción EJERCICIO N 2: El archivo agua.idb2 contiene datos sobre disponibilidad de agua en un cultivo de soja en los distintos perfiles de suelo hasta una profundidad de 60cm a los 100 días desde la emergencia. La disponibilidad de agua se expresa en milímetro de lámina de agua. El propósito de este estudio es cuantificar como cambia la disponibilidad de agua con la profundidad del perfil analizado en un cultivo de soja. a) Realice un diagrama de dispersión. b) Ajuste un modelo de regresión lineal simple. c) Interprete los coeficientes del modelo estimado. d) Calcule el contenido promedio de agua en un perfil que se toma a los 50 cm de profundidad. e) Verifique los supuestos. EJERCICIO N 3: Se desea estudiar cuáles de las siguientes variables: edad, colesterol e índice de masa corporal sirven para explicar el valor de la presión diastólica. Los datos de este problema se encuentran en el archivo. EDAD PRESION COLES.xls. Realice un análisis de regresión para responder las siguientes cuestiones. a) Cuál de las variables consideradas sirve para predecir la presión diastólica? b) Se cumplen los supuestos de la regresión? c) La recta tiene una pendiente significativa? d) Es bueno el ajuste lineal? ANÁLISIS DE LA VARIANZA EJERCICIO N 1: Para comparar 4 cultivares de maíz se realiza un ensayo bajo un diseño completamente aleatorizado con 10 parcelas experimentales por tratamiento. Al final del ensayo se registra el rendimiento en cada parcela. El objetivo es analizar posibles diferencias entre los rendimientos promedio de los cultivares. Los datos se encuentran en el archivo Híbridos.idb2. a) Obtenga gráficos apropiados para explorar el comportamiento de los residuos con el fin de analizar los supuestos que validan el análisis. b) Realice un análisis de la varianza y una prueba a posteriori de Fisher.
c) Elabore un breve informe en el que se detallen: i. Los tratamientos que se compararon, la variable analizada y el número de repeticiones ii. Las hipótesis que se contrastaron iii. La decisión sobre H 0 y en qué se basa dicha decisión iv. Una conclusión derivada de la comparación entre las medias v. Una representación gráfica de las medias de los tratamientos, que incluya letras para identificar las diferencias observadas. EJERCICIO N 2: En un experimento factorial es de interés estudiar la incidencia del factor riego con tres niveles (100, 150 y 200 mm.) y del factor insecticida con dos niveles (con y sin insecticida), sobre la producción de tomate. Los 3x2=6 tratamientos de interés surgen del cruzamiento de ambos factores, es decir cada nivel de un factor se asocia con cada uno de los niveles del otro factor para definir un tratamiento. Los tratamientos resultantes se asignan a las unidades experimentales según un diseño completamente aleatorizado. Cada uno de los tratamientos se evaluó una sola vez, es decir los tratamientos no están repetidos. En estos experimentos, no se puede evaluar la interacción, pero se conoce por experiencias previas que no hay interacción entre los efectos de riego e insecticida. La variable observada es el rendimiento. Los datos son los siguientes: Con insecticida Sin insecticida Riego 100mm 26.69 24.85 Riego 150mm 29.16 26.93 Riego 200mm 31.50 29.72 Actividades 1. Especifique los tratamientos 2. Identifique la estructura de parcelas 3. Identifique la variable respuesta 4. Escriba el modelo correspondiente a un ANAVA para un DCA con arreglo factorial de tratamientos 5. Establezca las hipótesis que se contrastan mediante el ANAVA 6. Realice un ANAVA 7. Realice comparaciones múltiples si lo cree necesario 8. Haga una representación gráfica 9. Interprete el ANAVA y las comparaciones de medias provistas en la siguiente salida 10. Concluya acerca de los resultados obtenidos EJERCICIO N 3: En las grandes ciudades, los lodos que surgen del tratado de los efluentes son generalmente vertidos en suelos de regiones periféricas a las mismas. En un estudio ambiental sobre contaminación con zinc (Zn) debida a esta práctica, se realizó un ensayo para comparar los efectos de efluentes procedentes
de tres ciudades sobre los niveles de Zn en hortalizas producidas en regiones periféricas. Se tomaron 36 macetones con plantas de una hortaliza y en un diseño completamente aleatorizado, se asignaron los tratamientos a los macetones. Los tratamientos surgieron de un arreglo factorial del factor cualitativo procedencia del lodo adicionado a la maceta, al que se denominará ciudad con tres niveles (A, B y C) y el factor cuantitativo cantidad de lodo adicionado, denominado lodo, con tres niveles (0.5, 1 y 1.5 kg. por unidad). Luego, se cosecharon los tomates producidos y se les midió el contenido de Zn, en partes por millón (ppm), obteniéndose los promedios pormaceta como variable respuesta. Los datos son los siguientes: Actividad Iodo Ciudad A Ciudad B Ciudad C 0.5 20.70 31.37 33.10 0.5 25.77 37.55 16.23 0.5 34.67 30.97 17.26 0.5 34.50 21.69 23.55 1.0 27.66 42.98 19.26 1.0 29.25 49.72 23.36 1.0 29.58 49.62 25.14 1.0 30.41 48.35 21.54 1.5 37.80 73.56 22.02 1.5 32.18 69.31 21.36 1.5 40.97 79.88 20.48 1.5 35.80 71.95 14.85 a) Especifique las unidades experimentales b) Especifique los tratamientos c) Identifique la estructura de parcelas d) Escriba el modelo correspondiente a un ANAVA para un DCA con arreglo factorial de tratamientos e) Establezca las hipótesis que se contrastan mediante el ANAVA f) Realice un ANAVA g) Haga una representación gráfica h) Interprete el ANAVA y las comparaciones de medias provistas en la siguiente salida
i) Concluya acerca de los resultados obtenidos