frecuencia El fichero electricidad.sgd contiene información sobre 14 variables relativas a la energía eléctrica consumida en los 50 estados de los EEUU, conjuntamente con Washington, D.C., durante los primeros 11 meses de 013 (entre Enero y Noviembre). El fichero contiene 51 * 11 = 561 filas. Las dos primeras variables representan el mes (a Enero le corresponde el 1 y a Noviembre el 11) y el estado, mientras que el significado de las otras 1 variables queda claro por su nombre y sus unidades están reflejadas debajo del mismo. 1. Contesta las siguientes cuestiones rellenando los huecos. a) (0.5 puntos) La media de los Ingresos Industriales mensuales considerando todos los estados y los 11 meses fue 107063 10 3 $, mientras que la media de los Ingresos Industriales mensuales en el estado de California (CA) fue 43778 10 3 $. b) (0.5 puntos) Dibuja un histograma para el Precio Promedio Industrial. Qué cola de la distribución es más larga, la derecha o la izquierda? Histogram a 300 50 00 150 100 50 0 0 10 0 30 40 Precio Prom edio Industrial La derecha.
c) (0.5 puntos) Considera el mes de Marzo (3er mes). Qué Precio Promedio Doméstico fue superado por el 80% de los estados? 9.6 céntimos/kwh. d) (0.5 puntos) Qué porcentaje de estados tuvieron un Precio Promedio Doméstico superior a los 15 céntimos/kwh en Marzo? 17.65 %.. (0.75 points) Considera la variable Precio Promedio Doméstico, se puede asumir Normalidad tanto en las 11 observaciones de New Hampshire (NH) como en las 11 de Hawái (HI) según el test de la Chi-cuadrado? Utiliza α = 0.05 y clases equiprobables. New Hampshire p-valor contraste Chi-cuadrado Conclusiones 0,1315 Como el p-valor es mayor que 0.05 sigue una distribución normal Hawái 0,5913 Como el p-valor es mayor que 0.05 sigue una distribución normal P(Precio Promedio Domestico >17) 0,041488 1 3. La gran distancia geográfica entre New Hampshire y Hawái y sus grandes diferencias climatológicas hacen que podamos considerar las muestras de precios de la energía en New Hampshire y Hawái independientes. Considera el Precio Promedio Doméstico, tiene la misma variabilidad en New Hampshire y Hawái? (α = 0.05) Datos de la muestra n NH = 11 s NH = 0,114385 n HW = 11 s HW = 0,195867 H0 H1 Tipo de contraste σ NH = σ HW σ NH σ HW Dos poblaciones Varianza (desviación) bilateral p-valor Conclusiones 0,409551 Como p-valor >0.05 no podemos rechazar H0 y por tanto podemos asumir igualdad de varianzas
4. (0.5 puntos) Construye un intervalo de confianza al 95% para la diferencia de medias entre el Precio Promedio Doméstico en Hawái y el Precio Promedio Doméstico en New Hampshire. Datos de la muestra Extremo inferior Extremo superior n NH = 11-0.95-0.516 X NH = 16.4136 s NH = 0,114385 n HW = 11 X HW = 37,0155 s HW = 0,195867 5. (0.5 puntos) Podemos afirmar que la media del Precio Promedio Domestico en New Hampshire es superior a 16, céntimos/kwh? (α = 0.05) Datos de la muestra n NH = 11 X NH = 16.4136 s NH = 0,114385 H0 H1 Tipo de contraste μ NH = 16, μ NH > 16, Una población Media Unilateral p-valor Conclusiones 0,0313187 Como p-valor <0.05 rechazamos H0 y por tanto podemos afirmar que el precio medio es superior a 16,. 6. El concentrado de zumo de naranja congelado se envasa en bricks de 6 onzas (fichero orangejuice.sdg). Una vez se han rellenado los bricks, debe comprobarse que no hay fisuras en la base para evitar fugas de líquido cuando se haya descongelado. Disponemos de datos relativos al número de bricks defectuosos en 30 muestras de 50 unidades (variable D_trial) que vamos a utilizar para construir un gráfico np que luego utilizaremos con otras 4 muestras. Importante: utiliza 5 cifras decimales a lo largo de este problema. a) (0.5 puntos) Escribe los límites de control del gráfico np definitivo y el las muestras que eliminaste, caso de que eliminaras alguna. Gráfico np Período #1-30 LSC: +3,0 19,019 sigma 6
Línea 10,407 Central 4 LIC: -3,0 1,795 sigma 0 fuera de límites Estimados Período #1-30 np 10,4074 Media Sigma,87074 Se han eliminado las muestras 15,1, y 3. b) (0.5 puntos) Cuál es la proporción de bricks defectuosos cuando el proceso trabaja en condiciones de control?. 10.4074/50=0.081 c) (0.5 puntos) Cuál es el máximo número de bricks defectuosos permitidos en una muestra bajo control? 19 d) (0.5 puntos) Las observaciones de la variable D new se utilizan para monitorizar el proceso a partir de nuevas muestras de tamaño 50. Qué muestras están fuera de control, caso de que haya alguna?. Ninguna. e) (0.5 puntos) Los bricks se empaquetan en cajas de 0, cuál es la probabilidad de que una caja tenga, al menos, 5 bricks defectuosos? Sea X~Bin(0, 0.081) P(X>=5)=0. 40583 7. El fichero regression1.sgd contiene los valores de una variable Y de desempeño de una empresa en función de 4 variables cuantitativas denominadas (INDICADOR 1, INDICADOR, INDICADOR 3 e INDICADOR 4). 1. (0 puntos) Es conveniente transformar los datos para construir un modelo de regresión? En caso afirmativo indica qué transformación realizas sobre cada variable.
Vemos que si es necesario transformar, ya que cuando no transformamos hay heterocedasticidad. Mirando los distintos gráficos de dispersión, la mejor transformación posible es utilizar logaritmos tanto en la variable independiente como en la dependiente. Para ello basta observar el segundo recuadro de la primera fila.. (1 punto) Realiza las cuatro regresiones simples a partir de las variables explicativas cuantitativas. Escribe los modelos correctamente con t- estadísticos, indica si las respectivas variables son significativas, el coeficiente R y cuál es el mejor modelo. INDICADOR 1 log(y) = 1,9416 + 0,80877*log(INDICADOR 1) T estadistico = 15,8087, como es mayor que en valor absoluto la variable es significativa. R-cuadrada = 66,3053 porciento
Rediduo Estudentizado Gráfico de Residuos log(y) = 1,9416 + 0,80877*log(INDICADOR 1) 4 0 - -4 3 3,4 3,8 4, 4,6 5 predicho log(y) El grafico de residuos es adecuado ya que no presenta ninguna estructura. INDICADOR log(y) =,537 + 0,41765*log(INDICADOR ). T estadistico = 7,07675, como es mayor que en valor absoluto la variable es significativa. R-cuadrada = 8,81 porciento. INDICADOR 3 log(y) = 0,933951 + 0,513491*log(INDICADOR 3). T estadistico = 9,71033, como es mayor que en valor absoluto la variable es significativa. R-cuadrada = 4,6094 porciento. INDICADOR 4 log(y) =,54 + 0,468169*log(INDICADOR 4). T estadistico = 6,18994, como es mayor que en valor absoluto la variable es significativa. R-cuadrada = 3,1771 porciento. El Mejor modelo es el primero porque todas las variables son significativas y presenta el R-cuadrado más alto. 3. (0.75 puntos) Realiza la regresión múltiple con las variables que sean significativas en los modelos simples. Escríbela correctamente con t- estadísticos e indica si el modelo es mejorable. En caso de que lo sea, explica qué problema aparece. log(y) = 1,1955 + 0,633866*log(INDICADOR 1) + 0,118*log(INDICADOR ) + 0,133796*log(INDICADOR 3) - 0,015851*log(INDICADOR 4)
Rediduo Estudentizado T-estadistico Indicador 1= 10,0794, es significativa T-estadistico Indicador = 0,8001, NO es significativa T-estadistico Indicador 3=,4968, es significativa T-estadistico Indicador 4= -0,089055, NO es significativa Tenemos un problema de multicolinealidad ya que todas las variables independientes eran significativas en la regresión simple y ahora dos de ellas (la y la 4) han dejado de serlo. El modelo es mejorable ya que presenta variables no significativas. 4. (0.75 puntos) A la vista de los resultados de los apartados anteriores, realiza la mejor regresión múltiple para explicar Y en función de las variables cuantitativas. Escríbela correctamente con t-estadísticos, realiza su diagnosis y analízala explicando el impacto de las variables independientes sobre la variable respuesta. log(y) = 1,17757 + 0,634488*log(INDICADOR 1) + 0,108388*log(INDICADOR ) + 0,13407*log(INDICADOR 3) T-estadistico Indicador 1= 10,194, es significativa T-estadistico Indicador =,9934, es significativa T-estadistico Indicador 3=,5156, es significativa La diagnosis es adecuada ya que el grafico de residuos contra predichos no presenta estructuras. Gráfico de Residuos 4 0 - -4,7 3, 3,7 4, 4,7 5, 5,7 predicho log(y) Cuando Indicador 1 aumenta un 1%, y los otros dos indicadores permanecen constantes, Y aumenta un 0.634488% Cuando Indicador aumenta un 1%, y los otros dos indicadores permanecen constantes, Y aumenta un 0.108388% Cuando Indicador 3 aumenta un 1%, y los otros dos indicadores permanecen constantes, Y aumenta un 0.13407%
5. (0.75 puntos) En el modelo que has ajustado en el apartado anterior introduce la variable Tipo que toma el valor 1 si la empresa está ubicada en España y 0 si está en el extranjero. Escribe la regresión correctamente con t- estadísticos. Indica si existen diferencias el desempeño debido a la ubicación y por qué. log(y) = 1,00537 + 0,44113*Tipo + 0,61956*log(INDICADOR 1) + 0,10894*log(INDICADOR ) + 0,140898*log(INDICADOR 3) Si existen diferencias significativas porque el valor T asociado a la variable tipo es 13,18. 6. (0.5 puntos) Cuánto mejor es el desempeño en España que en el extranjero? Un 4.41%