LADE/LADE-DER CURSO 2005/2006 EXAMEN DE ESTADÍSTICA II 04 de septiembre de 2006 PROBLEMAS (tiempo: 1 hora 40 minutos) 1. PROBLEMA 1 Una empresa de máquinas tragaperras tiene que decidir entre 3 posibles localizaciones (L1, L2 o L3) para una de sus máquinas. Para ver en que sitio juegan más personas coloca durante una semana una máquina en cada uno de las 3 localizaciones. El número de personas (y) que juega en cada una de las 3 localizaciones en la semana es: Lunes Martes Miércoles Jueves Viernes Sábado Domingo y i L1 235 138 256 220 343 453 162 258,143 L2 210 112 232 196 317 430 139 233,714 L3 243 149 276 230 352 454 174 268,286 y j 229,333 133 254,667 215,333 337,333 445,667 158,333 y 253,381 7 donde y i j1 y ij /7 3 y j i1 y ij /3 3 y i1 7 j1 y ij /21 Empleando este conjunto de datos se ha estimado un modelo de análisis de varianza de un factor (la localización) obteniéndose los siguientes resultados: ANOVA Table for usuarios by localizacion Analysis of Variance ----------------------------------------------------------------------------- Source Sum of Squares Df Mean Square F-Ratio P-Value ----------------------------------------------------------------------------- Between groups 4421,24 2 2210,62 0,19 0,8282 Within groups 208862,0 18 11603,4 ----------------------------------------------------------------------------- Total (Corr.) 213283,0 20 Se pide: a. Plantee el modelo para estudiat la influencia de la localización sobre el número de personas que juega en la máquina tragaperras. En base a la tabla ADEVA anterior qué se puede decir sobre el efecto de la localización sobre el número de usuarios de la máquina tragaperras? Sea y ij el número de usuarios de la máquina tragaperras situada en la localización i el día j. El modelo será: y ij i u ij con i 1,...,3, j 1,...,7 y siendo i el promedio de usuarios de la máquina en la localización i y u ij perturbaciones aleatorias. Suponemos que u ij son variables aleatorias que se distribuyen independientemente N0, 2. Empleando la tabla ADEVA que se proporciona en el enunciado se puede contrastar la hipótesis nula H 0 : 1 2 3 de que la localización no influye en el número medio de ususarios de la máquina tragaperras. Como F 0,19 y con un p valor 0,8282 no podemos rechazar la hipótesis nula. b. Plantee un modelo de dos factores teniendo en cuenta tanto la localización como el 1
día de la semana. Calcule la tabla ADEVA correspondiente. En este nuevo modelo contraste si la localización afecta al número medio de usuarios de la máquina 0,05. Sea y ij el número de usuarios de la máquina tragaperras situada en la localización i el día j. El modelo será: y ij i j u ij con i 1,...,3, j 1,...,7 y siendo el promedio de usuarios de la máquina, i el efecto incremental de la localización i con respecto al nivel medio, j el efecto incremental debido al día j y u ij perturbaciones aleatorias. Suponemos que u ij son variables aleatorias que se distribuyen independientemente N0, 2 y que i 0y j 0. Para obtener la tabla ADEVA necesitamos la Variabilidad Explicada por el día (la Variabilidad Explicada por la localización y la Variabilidad Total las tenemos en la tabla ADEVA del modelo de un factor). Los efectos incrementales serán: j y j y : 1 24,048 2 120,381 3 1,286 4 38,048 5 83, 7 2 VEdia 3 j j1 208725,486 Tabla ADEVA: Fuente SC gl Varianza F Localización 4421,24 2 2210,62 194,66 Día 208725,486 6 34787,581 3063,36 Residual 136,274 12 11,356 Total 213283 20 Como F 194,66 F 2,12;0,05 3,89 rechazamos la hipótesis nula H 0 : 1 2 3 0 de que la localización no influye en el número medio de ususarios de la máquina tragaperras. c. Obtiene las mismas conclusiones en el apartado a) y en el b) respecto al efecto de la localización? A qué se debe el resultado obtenido? En el modelo sólo con el factor localización no se rechaza la hipótesis nula de que la localización no afecta al número de usuarios. La inclusión del factor día produce una enorme reducción de la Variabilidad no explicada o residual lo que nos permite captar las diferencias entre localizaciones. Por ello en el modelo de 2 factores se rechaza la hipótesis nula de que la localización no afecta al número de usuarios de la máquina. d. Al estimar el modelo de dos factores con Statgraphics se ha obtenido la siguiente tabla: 2
Multiple Range Tests for usuarios by dia Method: 95,0 percent Bonferroni dia Count LS Mean Homogeneous Groups M 3 133,0 X D 3 158,333 X J 3 215,333 X L 3 229,333 X X 3 254,667 X V 3 337,333 X S 3 445,667 X Contrast Difference +/- Limits D - J *-57,0 10,5664 D - L *-71,0 10,5664 D - M *25,3333 10,5664 D - S *-287,333 10,5664 D - V *-179,0 10,5664 D - X *-96,3333 10,5664 J - L *-14,0 10,5664 J - M *82,3333 10,5664 J - S *-230,333 10,5664 J - V *-122,0 10,5664 J - X *-39,3333 10,5664 L - M *96,3333 10,5664 L - S *-216,333 10,5664 L - V *-108,0 10,5664 L - X *-25,3333 10,5664 M - S *-312,667 10,5664 M - V *-204,333 10,5664 M - X *-121,667 10,5664 S - V *108,333 10,5664 S - X *191,0 10,5664 V - X *82,6667 10,5664 * denotes a statistically significant difference. Existen diferencias significativas en el número medio de usuarios de la máquina tragaperras según el día de la semana? Hay algun día de la semana en que se utilice especialmente la máquina? Empleando la tabla ADEVA del apartado b) como F 3063,36 F 6,12;0,05 3 rechazamos la hipótesis nula H 0 : 1... 7 0dequeeldíadelasemanano influye en el número medio de ususarios de la máquina tragaperras. De los resultados de la tabla anterior se puede concluir que existen diferencias significativas en el número medio de usuarios de cada día de la semana cuando se comparan dos a dos. El día de la semana en que el número medio de usuarios es mayor es el sábado. 2. En una editorial quieren hacer un estudio de las variables que influyen en las ventas de un libro. Para ello estudian el modelo y 0 1 x 1 2 x 2 1 3 logx 2 4 x 3 5 logx 4 u donde toman el número de libros vendidos y (en miles de libros) de autores no-nóveles y hacen la regresión en función de: x 1 número de páginas del libro. x 2 número de libros vendidos en la última novela de ese autor. x 3 edad del autor. x 4 gasto en publicidad en miles de euros. x 5 tipo de novela (0novela histórica, 1 novela fantástica, 2novela policiaca, 3novela de amor, 4 otro tipo de novela) 3
Tomando 37 observaciones de los libros publicados el año anterior, se ha obtenido el siguiente modelo estimado, donde la cantidad entre paréntesis es la desviación típica del parámetro estimado. y 5.460 0.345 x 1 0.0014 x 2 1 34.895 logx 2 8.974 x 3 9.75 logx 4 0.12 0.25 0.007 12.22 5.85 2.13 s 2 R 36.12 R 2 0.89 a. Es significativo el parámetro 0? cómo se interpreta que sea negativo? Solución: t 0 0 s 5.460 0.12 0 45.5 que es claramente significativo, por lo que rechazamos que 0 0. Esto es debido a que la población no es representativa de los valores de las variables explicativas cercanos al cero, no hay muestras con 0 libros vendidos, autores con 0 años, novelas de 0 páginas,... b. Para estudiar la importancia del número de páginas se estudia el modelo alternativo: y 5.649 24.805 logx 2 6.790 x 3 12.27 logx 4 1.12 6.92 2.58 4.23 s 2 R 42.12 R 2 0.82 Son individualmente significativos los parámetros relativos al número de páginas? Son significativos de forma conjunta? Solución: t 1 t 2 1 s 1 0.345 0.25 1.38 2 s 2 0.0014 0.007 0.2 ambos parámetros no son significativos, por lo que no podemos rechazar que sean cero. Para realizar el contraste conjunto H 0 : 1 2 0 sabemos que R F 2 nr R 2 r /r 1 R 2 nr /n k 1 F r,nk1 por lo que 0.89 0.82/2 F 1 0.89/37 5 1 9.86 como F 2,31,0.05 3.32 9.86, rechazamos H 0 y las dos variables son conjuntamente significativas. c. Interpretar el resto de los parámetros del modelo. Estudiar si son significativos o no. 4
Solución: t 3 t 4 t 5 3 s 3 34.895 12.22 2.85 4 s 4 8.974 5.85 1.54 5 s 5 9.75 2.13 4.57 Las tres variables influyen de forma positiva en el número de ejemplares vendidos, aunque la edad del autor no parece ser una variable significativa. Cuando la última novela vendida por el autor aumenta un 1% sus ventas, y el resto de las variables permanece constante, la novela actual aumenta en promedio 34.895 unidades su número de ventas. Cuando el autor aumenta en una unidad sus años, y el resto de las varaibles permanece constante, las ventas de la novela aumenta en 8.974 unidades. Finalmente, cuando se aumenta en un 1% el gasto en publicidad de la novela, las ventas de la novela aumentan en 9.75 d. Si queremos estudiar si el tipo de novela es significativo o no, explicar qué modelo debemos estudiar describiendo las nuevas variables. cuál debe ser la variable de referencia si estoy interasada en saber si las ventas son distintas para las novelas hitóricas y las novelas fantásticas? Solución: Debemos definir las variables 1 novela histórica z 1 0 no es novela histórica z 2 z 3 z 4 1 novela fantástica 0 no es novela fantástica 1 novela policiaca 0 no es novela policiaca 1 otro tipo de novela distinta de las anteriores 0 un tipo de novela como las anteriores El modelo que se debe estudiar es y 0 1 x 1 2 x 2 1 3 logx 2 4 x 3 5 logx 4 1 z 1 2 z 2 3 z 3 u tomando como valor de referencia "otro tipo de novela". Si lo que queremos es ver si hay diferencia entre z 1 y z 2, debemos tomar como valor de referencia z 1, estudiar el modelo 5
y 0 1 x 1 2 x 1 2 3 logx 2 4 x 3 5 logx 4 2 z 2 3 z 3 z 4 4 u y ver si el parámetro 2 es significativo. La otra alternativa es tomar como valor de referencia z 2, estimar el modelo y 0 1 x 1 2 x 2 1 3 logx 2 4 x 3 5 logx 4 1 z 1 3 z 3 z 4 4 u y ver si el parámetro 1 es significativo 6