Análisis de la Varianza
|
|
|
- Miguel Gómez Araya
- hace 10 años
- Vistas:
Transcripción
1 Análisis de la Varianza 1. En una fábrica de automóviles se utiliza una misma planta para el ensamblaje de tres modelos distintos (A,B y C). Para determinar si los modelos reciben el mismo tratamiento, se ha realizado un control de calidad a una muestra tomada para cada modelo. El número de defectos encontrados para cinco vehículos del modelo A son 5,4,6,6 y 7; para seis vehículos del modelo B son 7,8,6,7,6 y 5; y para ocho vehículos del modelo C: 9,7,8,9,10,11,10 y 10. Contrastar si existen diferencias en el tratamiento que se da a los distintos modelos. 2. Una empresa debe elegir entre cinco procedimientos para fabricar un cierto producto químico. Se sospecha que existen diferencias entre ellos aunque pequeñas. Para detectar estas diferencias se pretende realizar un experimento a gran escala con el mismo número de observaciones en cada grupo. Para determinar este tamaño muestral se ha realizado un experimento piloto con 6 observaciones de cada método y los resultados (medias de cada grupo) han sido los siguientes: y la varianza residual ŝ 2 R = METODO Media (a) Cúal debe ser el tamaño muestral del experimento a gran escala para que el contraste deanálisis dela varianzasea significativo conα = 0.01si el coeficiente dedeterminación es igual al del experimento piloto?. (b) Dar un intervalo de confianza (α = 0.05) para la previsión del rendimiento realizado mediante el método D (Nota: Se pide un intervalo para una observación, no para la media.). (c) El método A es el procedimiento habitual y el método D es el que se sospecha proporciona mejor rendimiento. Una hipótesis que se pretende contrastar es H 0 : µ D = µ A, frente a la hipótesis alternativa H 1 : µ D > µ A. Qué condición debe cumplir la diferencia entre las medias muestrales de los dos métodos para rechazar H 0 con α = 0.01? 3. Se ha realizado un experimento para estudiar el efecto de un único factor con I niveles en la variable respuesta y con un número diferente de observaciones en cada tratamiento: n 1,n 2,...,n I siendo el total n = n 1 + n n I. Llamando y ij a la observación j del tratamiento i, i = 1,...,I, j = 1,2,...,n i e ȳ i la media del tratamiento i. Se desea estimar la media general cuál de los dos estimadores siguientes y = I n i y ij i=1 j=1 n, ỹ = I ȳ i i=1 tiene mínima varianza? Realiza la comprobación para el caso I = 5, con n i = 3,2,3,5,6 el número de observaciones en cada tratamiento. Asumir que las observaciones son independientes y que se cumple la hipótesis de homocedasticidad. 1 I
2 4. Considere la comparación de dos tratamientos en poblaciones normales. Demuestre que el contraste t para comparar dos medias es análogo al contraste de la F en Análisis de la Varianza (suponga n 1 = n 2 ). 5. Cinco tipos (A, B, C, D y E) de material sintético se han sometido a un ensayo de desgaste. Para cada tipo de material la prueba se repitio 6 veces. El desgaste medio y la desviación típica corregida en cada caso es la siguiente: (a) Contrastar (α = 0.05) la hipótesis A B C D E media x i d. típica ŝ i frente a la hipótesis alternativa, H 0 : µ A = µ B = µ C = µ D = µ E H 1 : Alguna media es distinta a las demás. (b) Indicar con nivel de confianza 0.95 el material con desgaste menor y qué materiales tienen desgaste medio, distinto. (c) Obtener un intervalo de confianza con α = 0.01 para la varianza del error experimental. 6. Se desea comprobar el efecto de un tratamiento térmico sobre la resistencia de un nuevo material. Se han tomado 15 probetas y se han asignado al azar a los tres tratamientos T 1, T 2 y T 3 obteniendo como medida de resistencia superficial los valores siguientes: T 1 T 2 T (a) Contrastar mediante el test de análisis de la varianza si existen diferencias significativas entre los tratamientos térmicos (α = 0.01). (b) La temperatura del tratamiento 2 es la media de las temperaturas de los otros dos tratamientos. Si la relación entre la resistencia y la temperatura es lineal, es de esperar que la media del tratamiento 2 verifique : H 0 : µ 2 = 1 2 (µ 1 + µ 3 ). Hacer el contraste bilateral de esta hipótesis con α = (Nota.- Usar la distribución de y 2 (y 1 +y 3 )/2, donde y i es la media de los datos correspondientes al tratamiento T i ). 7. En el modelo de análisis de la varianza para contrastar la igualdad de medias de I grupos, con n 1,n 2,...,n I observaciones en cada grupo; indicar, justificando la respuesta, si ȳ, ȳ i y e ij son independientes. Calcular los coeficientes de correlación. 2
3 8. Explicar detalladamente la descomposición de la variabilidad en el modelo básico de análisis de la varianza para comparar I tratamientos. Obtener el estadístico F de contraste, indicando en cada paso las hipótesis utilizadas. 9. Demostrar que en el modelo para la comparación de las medias de K tratamientos con el mismo número de observaciones, la varianza residual estimada (ŝ 2 R ) es igual a la media de las varianzas muestrales corregidas de cada tratamiento. Utilizando esta relación, demostrar que el estimador ŝ 2 R es insesgado y obtener su distribución de probabilidad. Suponer que se cumplen las hipótesis de normalidad, independencia y homocedasticidad, y dar por demostrado que la varianza muestral corregida ŝ 2, en una muestra aleatoria simple de tamaño n de una distribución normal, es un estimador centrado de la varianza de la distribución σ 2, y que (n 1)ŝ 2 /σ 2 se distribuye como una χ 2 con n 1 grados de libertad). 10. Explicar la descomposición de la variabilidad en el modelo básico de comparación de K tratamientos (modelo con un factor ). Demostrar que si todos los tratamientos tienen la misma media VE χ 2 σ 2 K 1. Indicar en cada paso las hipótesis requeridas. Nota.- Tener en cuenta que si X 1,X 2,...,X n son variables aleatorias independientes con distribución normal de media µ y varianza σ 2, y X = X i /n, n ( ) 2 Xi X χ 2 n 1 σ. i=1 11. Un fabricante sospecha que los lotes de materia prima recibidos de un proveedor difieren significativamente de su contenido en calcio. Elige al azar 5 lotes diferentes y un químico hace cinco determinaciones del contenido en calcio de cada lote. Los resultados obtenidos han sido Lote 1 Lote 2 Lote 3 Lote 4 Lote La tabla de análisis de la varianza se proporciona a continuación. Comparar mediante el método de Bonferroni las medias de los cinco tratamientos con nivel de significación total α T = Análisis de la varianza Fuente Variabilidad g.l. Var. Media F Nivel crítico Lote Residuos Total
4 4
5 Diseño de experimentos 1. En una planta piloto se obtiene un nuevo producto mediante un proceso químico. Con el fin de mejorar el rendimiento se emplean dos catalizadores distintos y se trabaja con tres temperaturas diferentes. Los resultados del experimento son Temperatura Catalizador A B (a) Contrastar si los factores Temperatura y Catalizador tienen efectos significativos. (α = 0.05) (b) Qué tratamiento se debe utilizar para obtener el mayor rendimiento, si se desea garantizar una probabilidad de error tipo I total, α T = 0.03? 2. Se pretende estudiar el efecto que produce los factores (1) Porcentaje de algodón (10%, 20% y 30%) (2) Tipo de confección (A y B) en la resistencia al desgaste de ciertos tejidos de fibra sintética. Se ha realizado el siguiente diseño con tres replicaciones 10% 20% 30% A B (a) Construir la tabla de Análisis de la Varianza y contrastar la influencia de los dos factores y la presencia de la interacción. (b) Hacer un contraste de diferencia de medias y decidir el tratamiento más adecuado para conseguir la mayor resistencia al desgaste. 3. Cierto Organismo Público (O.P.) encargado de certificar la composición de aleaciones de metales preciosos, debe seleccionar entre dos Laboratorios al más capacitado para la realización de futuros análisis de gran precisión. Para tomar la decisión les somete a la siguiente prueba: Prepara tres aleaciones A, B y C que contienen proporciones distintas de oro. De cada una de ellas envía cuatro muestras a cada uno de los dos laboratorios. Así pues, cada laboratorio recibe un lote de 12 muestras (codificadas) ordenadas aleatoriamente sin conocer como han sido obtenidas. Los resultados recibidos por el O.P. son (entre paréntesis las medias de las casillas): 1
6 Aleac. A Aleac. B Aleac. C Lab. I (11.02) (10.99) (11.02) Lab. II (10.955) (10.97) (11.01) (a) Determinar si existen diferencias entre los resultados de los laboratorios y si éstos han encontrado diferencias entre las aleaciones. (b) Aceptando que los datos cumplen la hipótesis de normalidad, indicar si podemos aceptar queverificanelrestodelashipótesisdelmodeloyencasonegativoquemedidassedeben adoptar para analizar los datos. (c) Realizar un test de razón de varianzas para contrastar que las varianzas de los dos laboratorios son iguales, sabiendo que las tres aleaciones tienen composición distinta. Interpretar el resultado. (d) El O.P. conoce exáctamente el porcentaje en oro de la aleación A (11 %), de la B (11.02 %) y de la C (11.04 %). Con esta información comparar los resultados de los laboratorios. 4. Complete la tabla ADEVA siguiente y diga de que diseño se trata. Suma de Cuad. G.L. Varianzas Factor Factor Factor 3 10 Int. Segundo orden Int. Tercer orden 0.25 TOTAL Se ha realizado un diseño factorial sin replicación con tres factores A,B,C con 5, 5 y 4 niveles respectivamente. Si la interacción de tercer orden es nula, obtener la descomposición de la variabilidad e indicar los grados de libertad de cada término. 6. Para estudiar el efecto de tres factores (A,B,C) en el tiempo de fraguado del hormigón se ha realizado un experimento factorial completo a dos niveles con tres replicaciones (24 datos en total). Los resultados de la estimación han sido: Media A B AB C AC BC ABC Teniendo en cuenta que la varianza residual obtenida es ŝ 2 R significativos para un nivel de significación α = = 18.8, indicar qué efectos son 2
7 7. Una característica de la calidad de la gasolina es su índice de octanos. Una refinería de petróleo tiene cinco fórmulas que pueden emplearse para la obtención de gasolina con plomo o sin plomo. (a) Para determinar que fórmula proporciona mayor índice de octanos, con cada una de ellas se ha repetido 10 veces en el laboratorio el proceso de fabricación de gasolina con plomo. Si el coeficiente de determinación del análisis de la varianza de los resultados es igual a 0.20, contrastar con α = 0.05 si existen diferencias entre las cinco fórmulas para este tipo de gasolina. (b) Los valores medios (ȳ i ) para cada fórmula son: Fórmula Media Contrastar con α = 0.05 que fórmulas proporcionan índices de octanos significativamente distintos y cuales no. (c) Debido a los problemas medio-ambientales gran parte de la producción futura debe estar libre de plomo. Para determinar que fórmula de las anteriores produce mejores resultados en cuanto al índice de octanos, se realizo un diseño experimental similar al anterior (cinco fórmulas, 10 observaciones en cada fórmula) para la obtención de gasolina sin plomo. El coeficiente de determinación en este caso es igual a 0.25 y el índice medio para cada fórmula es, Fórmula Media Contrastar (α = 0.05) si existe interacción entre los factores tipo de gasolina (con y sin plomo) y fórmula. 8. Para estudiar la influencia de la temperatura y la presión sobre el rendimiento de un proceso químico se ha realizado un experimento con 5 valores de presión y 4 valores de temperatura. Los resultados se muestran en la tabla siguiente. Temperatura Medias 1 65,58 96,71 124,20 156,63 110, ,32 101,5 130,37 161,38 114,89 Presión 3 74,42 99,81 134,63 160,59 117, ,24 104,11 138,42 166,96 122, ,61 112,14 143,58 170,68 126,50 Medias 73,24 102,85 134,24 163,19 118,38 (a) Considere solamente el efecto de la presión y estudie si es significativo (α = 0,05), sabiendo que las varianzas muestrales corregidas para los datos correspondientes a cada presión son ŝ 2 1 = 149,85;ŝ2 2 = 164,62;ŝ2 3 = 143,95;ŝ2 4 = 145,11;ŝ2 5 = 154,94. 3
8 (b) Incorpore el efecto de la temperatura en un modelo adecuado para los datos. Interprete el resultado. (c) Calcule un intervalo de confianza al 95% para la varianza del error experimental de los modelos de los dos apartados anteriores. Interprete las diferencias. 9. Se desea estudiar la fuerza de percusión de una perforadora en función de la VELOCIDAD de giro (baja y alta) y de un coeficiente mecánico que denominaremos RATIO (0.15, 0.30, 0.45 y 0.60). Se ha experimentado en las ocho posibles combinaciones de ambos factores, replicando cada experimento dos veces. Los resultados se muestran en la tabla siguiente Media Vel. Baja Vel. Alta Media Las variabilidades explicadas por el RATIO, la VELOCIDAD y la interacción RAT x VEL son respectivamente 925, y 418,75 y la Variabilidad Total es (a) Completa la tabla de análisis de la varianza e indica qué efectos son significativos para α = (b) Interpreta el resultado, indicando cómo influye el RATIO y la VELOCIDAD en la fuerza de la perforadora. Dibuja el gráfico que permite interpretar la interacción. Proporciona el intervalo de confianza para la media de la combinación RATIO 0.30, y VELOCIDAD baja. (c) Cada tratamiento tiene dos observaciones, llamando D ij = Y ij1 Y ij2, al valor absoluto de la diferencia de estas observaciones, demuestra que D 2 ij 2σ 2 χ2 1 y que SD 2 = 2 4 i=1 j=1 D2 ij es un estimador centrado de la varianza del modelo factorial. 16 (d) Supón que la varianza de las observaciones a velocidad baja es σ 2 1 y de las observaciones a velocidad alta es σ 2 2. Utilizando el resultado del apartado 3, realiza el siguiente contraste con nivel de significación 0.05, H 0 : σ 2 1 = σ2 2 H 1 : σ 2 1 σ2 2 4
9 10. Cuando un lenguaje de alto nivel es compilado, el tiempo de ejecución depende del compilador. Un ingeniero de software desea comparar tres compiladores (A, B y C), para ello ha seleccionado 5 programas muy distintos, cada uno de los cuales ha sido compilado por los tres compiladores. Los tiempos de CPU se proporcionan a continuación: Medias A B C Medias La variabilidad total es , y las variabilidades explicadas por el tipo de compilador y tipo de programa son y , respectivamente. Da un intervalo de confianza (95%) para la diferencia de las medias entre los dos compiladores más rápidos. 11. Se ha realizado el análisis de la varianza de un diseño con un único factor a 10 niveles con 6 observaciones para cada nivel. El nivel crítico que muestra la tabla ADEVA es p = Los niveles críticos de los contrastes individuales de igualdad de medias son mayores de 0.05 para todas las parejas excepto para la comparación entre los niveles 3 y 7 que ha sido igual a Es posible este resultado? Qué se puede concluir del análisis? Qué procedimiento sugiere para realizar los contrastes individuales? 12. Se ha realizado un diseño factorial sin replicación con tres factores A,B,C con 5, 5 y 4 niveles respectivamente. Si la interacción de tercer orden es nula, obtener la descomposición de la variabilidad e indicar los grados de libertad de cada término. 13. Sea un diseño factorial con 4 factores a 3, 4, 2 y 5 niveles. Calcular el número de parámetros totales correspondientes a efectos principales e interacciones de orden 2, 3 y Un ingeniero ha estudiado el efecto que tienen 5 niveles de iluminación en una operación de ensamblado. El departamento en el que se ha experimentado tiene cuatro estaciones de trabajo, que representan una fuente potencial de variabilidad. Para cada estación de trabajo y nivel de iluminación se ejecutó la operación de ensamblado, midiendo la holgura en micras. Los resultados fueron: ESTAC. ILUMINACION ȳ i ȳ j ȳ = 99.3 (a) Contrastar (α = 0.05) si la iluminación o la estación de trabajo influye en los resultados del ensamblado. 5
10 (b) Comparar los niveles de iluminación y los niveles de las estaciones de trabajo. Indicar en cada caso cuales se pueden considerar distintos y cuales no. (c) Calcular la varianza teórica del valor medio previsto para cada observación. (d) Explicar por qué no se debe contrastar la hipótesis H 0 : µ 1 = µ 2 =... = µ m del modelo básico de análisis ( de ) la varianza (un factor), mediante contrastes de la t de m Student a cada uno de los pares de muestras Se realiza un experimento para estudiar la influencia de 2 factores en el rendimiento de un proceso, donde el factor que se encuentra a 3 niveles (Alto, medio y bajo) es la temperatura, el otro factor, catalizador, tiene dos niveles: catalizador I y II. Los datos del experimento se muestran en la siguiente tabla: Alto Medio Bajo CI (215.6) (193.6) (393) CII (292.6) (314) (422.3) (Nota: Los números entre parentesis son las medias de las casillas) (a) Contrastar con α = 0.05 que efectos son significativos. Interprete el resultado. (b) Determinar el intervalo con el 99% de confianza para la varianza del error experimental. (c) Dar un intervalo para una observación realizada en condiciones óptimas. Si se realizan 10 experimentos en estas condiciones, determinar el intervalo que con probabilidad igual al 95% contiene a todas ellas. Utilice la aproximación t α g = z α(1 z α +1 ) 1 4g donde g son los grados de libertad de la t y z α el valor de la normal estándar, tal que P(Z z α ) = α 16. Un laboratorio de Análisis Clínicos ha adquirido un nuevo equipo (B) para medir el colesterol en la sangre de los enfermos. Para evaluar si el nuevo equipo está ajustado se decide analizar muestras de 5 enfermos que previamente han sido analizadas con otro equipo (A), dando como resultado Enfermo Media Equipo A Equipo B
11 Contrastar con α = 0.05 existen diferencias entre los dos equipos. 17. Para estudiar el consumo de aceite de un motor se prueban 4 motores distintos con 3 tipos de aceites obteniendo 12 medidas de consumo. Se ha obtenido: Variabilidad explicada por aceite = 100 Variabilidad explicada por motor = 80 Variabilidad Total = 220 Se pide escribir la tabla ADEVA correspondiente, y obtener conclusiones. 18. Para determinar el consumo de energía eléctrica para usos domésticos se ha medido el consumo medio por persona en las distintas estaciones del año en siete comunidades autónomas para 1989, habiéndose obtenido los siguientes resultados: COMUNIDAD INVIERNO PRIMAVERA VERANO OTOÑO MEDIAS MEDIAS (a) Analizar si el factor estación del año es influyente, sabiendo que ŝ 2 y = 1.53.(No considerar el factor Comunidad). (b) Razonar estadísticamente cuál es la estación de mayor consumo y la de menor, utilizando el análisis anterior. Calcular los intervalos de confianza para el consumo medio de cada estación del año. (c) Sabiendo que la variabilidad explicada por el factor comunidad es 23.62, construir una nueva tabla de la varianza, con dos factores, y decidir qué factor es significativo. (d) Utilizar los resultados del apartado anterior para realizar un contraste de igualdad de medias del efecto estación y comparar los resultados con los del apartado 2, justificando las diferencias encontradas. ( NOTA: Utilizar α = 0.05 en todos los contrastes ) 19. Se realiza un experimento para estudiar si la presencia de fluorita reduce el coste de fabricación de clinker de cemento en tres tipos diferentes de mezcla. Los resultados del mismo (en miles de pesetas por Tm) se muestran en la siguiente tabla: 7
12 FLUORITA MI MII MIII y i 0% % % % % y i=1 3 e 2 ij = 10.2 ȳ = 10.3 j=1 (a) Determinar si el tipo de mezcla y el nivel de fluorita añadido influyen significativamente en el coste de fabricación. Se supone que no existe interacción entre los dos factores. (b) Contrastar que porcentaje de fluorita produce el menor coste del clinker. 20. El análisis de la varianza de un diseño en bloques aleatorizados proporciona los siguientes resultados: VT = 232, VE(factor) = 156, VE(bloque) = 15 y VNE = 61. El número de niveles del factor es 5 y el número de bloques 8. Construir la tabla ADEVA. Cuál sería el resultado del análisis si no se tiene en cuenta el efecto de los bloques? Indicar en qué circunstancias es preferible cada uno de los modelos. 21. Se ha realizado un experimento con tres factores, (A, B y C), con 4, 3, y 5 niveles, sin replicaciones. El modelo propuesto no incluye las interacciones de orden 3, por lo que la variabilidad explicada por estas interacciones se pretende utilizar para estimar la varianza residual. Los resultados proporcionan para la variabilidad explicada por las interacciones de orden 3 un valor igual a 234.5; que es muy superior a lo esperado. Debido a ésto se repitió por completo el experimento, obteniéndose para este segundo experimento un valor de (para la variabilidad explicada por la interacciones de orden 3). Proponer un procedimiento para contrastar si se ha producido un cambio significativo en esta variabilidad de uno a otro experimento, indicando las hipótesis en las que se basa el contraste. (Dejar el resultado del contraste indicado en función de los valores críticos de la tabla correspondiente.) 22. En un modelo de análisis de la varianza se ha observado que la desviación típica (ŝ i ) y la media (y i ) de las observaciones de cada tratamiento están relacionadas linealmente, ŝ i = ky i, donde k es una constante. Cuál de las siguientes transformaciones es la más adecuada para corregir la heterocedasticidad? z = logy, z = y 2 o z = ky 23. La oxidación es una etapa de la fabricación de chips y consiste en añadir una capa de óxido sobre la placa silicio (oblea). Se está experimentando con 6 tratamientos (T i ) para seleccionar el que proporciona un mayor espesor de óxido en un mismo tiempo de proceso. Una característica que influye en el espesor es el acabado superficial de la oblea, por lo que se tomaron 5 tipos distintos de acabado (O j ). De cada tipo (O j ) se tomaron 6 obleas y se asignaron aleatoriamente a los tratamientos. En la tabla se proporciona el espesor obtenido en cada oblea y las medias por filas y columnas. 8
13 T 1 T 2 T 3 T 4 T 5 T 6 O O O O O VT = (a) Contrastar si el tipo de oblea y el tratamiento influyen en el espesor del óxido. Elegir el tipo de oblea y tratamiento más adecuado, indicando si son significativamente distintos del resto. (b) Parafijarlosseistratamientos, seseleccionarondostemperaturas(t 1,t 2 )ytrespresiones (p 1,p 2,p 3 ) y se combinaron de forma que T 1 = (t 1,p 1 ), T 2 = (t 1,p 2 ), T 3 = (t 1,p 3 ) T 4 = (t 2,p 1 ), T 5 = (t 2,p 2 ) y T 6 = (t 2,p 3 ). Calcular las variabilidades explicadas por la temperatura, la presión y su interacción (t p). (c) Indicar si sus efectos son significativos, suponiendo nulas las interacciones de los factores O t, O p y O t p. 24. Demostrar que en un modelo de bloques aleatorizados, ˆµ, ˆα i y ˆβ j son independientes. 25. Un centro ha realizado un experimento para mejorar la resistencia a la tensión de ciertos muelles de acero. En una etapa del proceso el muelle caliente se sumerge en aceite templado. Se han estudiado tres factores, A (temperatura del acero antes de la inmersión, con tres niveles), B (temperatura del baño de aceite, dos niveles) y C (concentración de carbono en el acero, dos niveles). El experimento se ha replicado tres veces. En la tabla se muestra la media y la varianza (corregida) para los tres datos de cada tratamiento. A B C y i ŝ 2 i (a) Dar un intervalo del 95 % de confianza para la varianza del error experimental, σ 2. (b) Indicar si los efectos principales de A, B y C son significativamente distintos de cero. 9
14 (c) Dado σ 2, construir un intervalo que cumpla que la probabilidad de que ŝ 2 i (la varianza muestral corregida de un tratamiento) esté contenido en él sea igual a Sustituir σ 2 por su estimador y con ayuda de este intervalo, discutir si se puede rechazar la hipótesis de homocedasticidad de las observaciones. 26. Estimar por máxima verosimilitud los parámetros µ,α i y β j del modelo de bloques aleatorizados. Obtener la distribución de estos estimadores, indicando su media y varianza. 27. Explicar por qué en un modelo de dos factores con interacción es necesario poner las condiciones I α i = 0, i=1 J β j = 0, j=1 I (αβ) ij = 0 para todo j, y i=1 J (αβ) ij = 0 para todo i. j=1 Se podrían haber puesto otras condiciones distintas a las anteriores? Justificar la respuesta. 28. La calidad de un producto químico despues de un largo periodo de almacenamiento depende del conservante empleado y de las características de almacenamiento. Se ha estudiado el efecto de cuatro conservantes distintos (columnas) y cinco almacenamientos (filas) sobre la degradación del producto: Medias Medias La tabla de análisis de la varianza para los datos anteriores es: Suma de Grados de S. Cuadrados Nivel F Cuadrados Libertad Medios Crítico Almacen Conserv Residuos Total (a) Elegir con α = 0.05 el conservante y el almacenamiento que producen menor degradación. (b) El análisis de los residuos muestra como atípica la observación y 54 = Un examen químico confirma el resultado anómalo por lo que se recomienda eliminar la observación. Según el modelo de dos factores sin interacción, la predicción de la observación y IJ (eliminada) es: ŷ IJ = S I (J 1) + S J (I 1) S (I 1)(J 1) 10
15 donde I = 5,J = 4,S I es la suma de las observaciones de la fila I (sin incluir la eliminada), S J es la suma de las observaciones de la columna J (sin incluir la eliminada), y S es la suma de las observaciones restantes no incluidas en la fila I ni en la columna J. Obtener la distribución (media y varianza) del error de predicción e IJ = y IJ ŷ IJ. (c) Cuando, como en el caso anterior, falta una observación se recomienda el siguiente procedimiento: sustituir la observación faltante por su predicción y aplicar los contrastes habituales teniendo en cuenta que los residuos tienen un grado de libertad menos. La nueva descomposición de la variabilidad es: VT=339.63, VE(Conservantes)=166.02, VE(Almacenamiento)= y VNE=9.59. Contestar al apartado 1 con esta modificación e interpretar las diferencias. 29. Una instalación típica de almacenamiento de combustible en una Estación de Servicio (gasolinera) está formada por un tanque enterrado de gran capacidad, al que se encuentran conectados distintos surtidores. La cantidad total de gasolina suministrada en un día se puede determinar midiendo directamente la variación que se ha producido en el tanque de almacenamiento (Y 1j ) o por la suma de los suministros de los distintos surtidores (Y 2j ). La comparación de ambas medidas permite determinar pérdidas en la instalación enterrada y otras anomalías. En el proceso de comparación es necesario tener en cuenta que las medidas están afectadas por errores aleatorios. Durante 20 días se han tomado los valores anteriores en un gasolinera: Día Y 1j 4116,2 5627,0 2820,4 2521,8 2973,5 2834,9 2335,7 2590,8 2182,7 2621,4 Y 2j 4143,6 5632,0 2868,1 2477,7 2955,4 2851,9 2312,7 2630,6 2208,9 2635,9 Día Y 1j 4323,6 1880,7 2131,4 3349,6 2545,0 2247,3 1817,5 1461,3 1646,5 1955,4 Y 2j 4305,4 1877,9 2159,2 3366,7 2566,1 2281,4 1854,6 1461,5 1607,3 1956,4 (a) Llamando D j = Y 1j Y 2j a la diferencia en las medidas de un mismo día, contrastar con α = 0.05 H 0 : µ D = 0 H 1 : µ D 0 donde D j tiene distribución N(µ D,σ D ). Calcular el nivel crítico del contraste aproximando la distribución t de Student por la normal. (b) Los datos anteriores pueden ser analizados mediante un modelo de bloques aleatorizados tomando el tipo de medida (tanque, surtidores) como un factor y los días como bloques. Demostrar con caracter general que en el modelo de bloques aleatorizados si el factor tiene dos niveles la varianza residual cumple: ŝ 2 R = 1 2ŝ2 D donde ŝ 2 D es la estimación de σ2 D del apartado 1. (c) Teniendo en cuenta lo anterior, demostrar que el contraste correspondiente al factor en el modelo de bloques aleatorizados es equivalente al contraste del apartado 1. 11
16 30. Una forma alternativa de la ecuación del modelo para comparar I tratamientos es y ij = µ+τ i +u ij, i = 1,2,...,I; j = 1,2,...,m donde µ es la media global τ 1,τ 2,...,τ I son los parámetros que determinan los efectos de cada tratamiento, cumplen que I i=1 τ i = 0 u ij son variables aleatorias independientes con idéntica distribución normal de media cero y varianza σ 2. (a) Obtener el estimador máximo verosímil de τ i, indicar su distribución de probabilidad, media y varianza. (b) Calcular la esperanza de la variabilidad explicada (VE = m I i=1 τ2 i) cuando los parámetros τ i no son todos nulos. (c) Calcular la correlación entre τ i y un residuo e ij cualquiera (del mismo o diferente tratamiento). Que implicación tiene este resultado en el contraste de análisis de la varianza. 31. Un ingeniero está estudiando métodos para mejorar ciertas propiedades mecánicas de una aleación metálica. Los dos factores que considera más importantes son la cantidad de Manganeso y la temperatura de templado. Se diseña un experimento empleando tres niveles para el factor manganeso y dos para la temperatura, en total 3 2 = 6 tratamientos. Se dispone de 6 hornos diferentes para realizar la fundición. Cada horno requiere un operador y se disponen de seis operadores cada uno de los cuales es capaz de manejar los seis hornos. Diseñar un experimento que con 36 observaciones permita estudiar las diferencias entre los seis tratamientos y que tenga en cuenta el tipo de horno y el operador como variables bloques. Construir la tabla de análisis de la varianza, indicando los grados de libertadad de cada variabilidad, separando en ella el factor manganeso, el factor temperatura y su interacción. (Los bloques y los factores no interaccionan). (Nota: no es necesario indicar en la tabla como se obtienen las distintas variabilidades). 32. Una asociación de consumidores para comprobar la utilidad de ciertos compuestos que según sus fabricantes reducen el consumo de gasolina de los automóviles realizó el siguiente experimento: eligió al azar 9 vehículos nuevos de distintas marcas con cilindrada similar y con cada uno de ellos recorrió tres veces un mismo trayecto con conductores distintos. Además en cada uno de estos tres trayectos empleó un tratamiento diferente para la gasolina: Tratamiento A : Gasolina con Cyber-Gas B : Gasolina con Consumin C : Gasolina sin aditivo Enlatablasiguiente semuestra elconsumo enlitrosdegasolinaencadauno delosrecorridos y el tipo de tratamiento (letra latina). 12
17 Número Conductores Media Vehículo fila 1 15,5 (A) 15,6 (B) 16,6 (C) 15, ,0 (B) 13,3 (A) 13,0 (C) 13, ,8 (B) 13,1 (C) 12,5 (A) 12, ,4 (A) 14,8 (C) 15,0 (B) 14, ,4 (B) 14,3 (A) 14,1 (C) 13, ,6 (C) 15,3 (A) 14,7 (B) 15, ,7 (C) 12,0 (B) 12,0 (A) 12, ,2 (C) 14,0 (B) 15,1 (A) 14, ,6 (A) 13,5 (C) 12,3 (B) 12,80 Media Media Total Columna 13,58 13,99 13,92 13,83 El análisis de los datos se realiza con el siguiente modelo Media de Tratam. A:13,89 B:13,42 C:14,18 y ijk = µ+α i +β j +γ k +u ijk dónde y ijk representa el consumo en litros, µ la media global; α i, i = 1,2,...,9 y β j, j = 1, 2, 3 los efectos correspondientes a los vehículos (filas) y los conductores (columnas). La estimación e interpretación de estos parámetros es similar al modelo de bloques aleatorizados. Además seincluye losparámetrosγ k, k = 1,2,3que miden el efecto delostratamientos (tipo de aditivo) y cumplen 3 k=1 γ k = 0. Por último, u ijk la componente aleatoria son variables aleatorias independientes con distribución normal de media cero y varianza σ 2 para todas las observaciones. (a) Obtener razonadamente los estimadores máximo verosímiles de γ k. (b) La tabla del análisis de la varianza del modelo anterior es Suma de Grados de Cuadrados Libertad Varianza F p-valor Tratamiento 2,67 2 1,31 6,7 0,0091 Vehículo 40,2 8 5,02 25,7 0,0000 Conductor 0, ,438 2,2 0,1428 Residual 2, ,195 Total 46,4 26 Reducen los aditivos el consumo de gasolina? Existen diferencias significativas entre Cyber-gas (A) y Consumin (B)? (Realizar los contrastes con nivel de significación 0.05). (c) Demostrar que el diseño anterior, independientemente de los valores numéricos (y ijk ) obtenidos, es un diseño ortogonal, es decir que cumple: VT = VE(Vehículos) + VE(Conductores) + VE(Tratamientos) + VNE (Nota.- Es suficiente con demostrar la ortogonalidad del vector correspondiente a los tratamientos con respecto a los otros tres). 13
18 33. Un informático quiere comparar los tiempos de ejecución de tres programas realizados en lenguajes diferentes que realizan el mismo proceso. Para hacer la comparación utilizan 4 ordenadores con microprocesadores distintos. Los tiempos requeridos por cada programa en cada ordenador han sido: ORDENADOR PROGRAMA A B C ȳ i 1 1,36 2,23 1,54 1,71 2 0,97 0,70 0,76 0,81 3 1,79 1,74 1,84 1,79 4 0,64 0,69 0,74 0,69 ȳ j 1,19 1,34 1,22 1,25 Existen diferencias significativas en los tiempos requeridos por los 3 programas? 34. Se ha realizado un experimento con dos factores cada uno de ellos con 3 niveles. El 20% de la variabilidad total está explicada por la interacción de los dos factores y el 40% de la variabilidad total es debida a la variabilidad residual. Determinar el número de replicaciones necesarias en cada tratamiento para que la interacción sea significativa con α = (Explicar el procedimiento de cálculo, dejando el resultado indicado en función de las tablas). 35. Un investigador quiere estudiar el efecto de sexo (hombre, mujer) y tipo de formación (ciencias, letras) en el dominio del inglés escrito en profesores universitarios. Para ello analiza el número de incorrecciones gramaticales en artículos científicos enviados a publicación. Para cada combinación de niveles de los factores se han elegido al azar tres profesores. En la tabla se proporciona el número de fallos detectados en artículos de 15 páginas Letras Ciencias Hombre 8, 6, 13 22, 28, 33 Mujer 5, 10, 6 12, 14, 9 Contrastar con nivel de significación 0.05 si los efectos principales y la interacción son significativos. Tener en cuenta que P(F 1,8 5.32) = 0.95, siendo F 1,8 la distribución F con grados de libertad 1 y 8. Interpretar los resultados. 36. Un alumno, como trabajo de la asignatura de estadística, ha comparado tres marcas distintas (A,B,C) de palomitas de maíz precocinadas. Cada marca puede prepararse friendolas en una sartén (método 1) o en el horno microondas (método 2). El alumno ha realizado un diseño factorial completo 3 2 con cinco replicaciones en cada uno de los seis tratamientos. La variable respuesta medida es el porcentaje de granos de maíz que no se han inflado adecuadamente. Los resultados del experimento se muestran en la tabla, en cada tratamiento 14
19 se proporciona la media y entre paréntesis la desviación típica corregida para las cinco replicaciones. Contrastar si la interacción entre los dos factores es significativa. Sartén Horno A B C (1,4) (1,8) (2,5) (1,3) (0,9) (1,3) 37. Se ha realizado un experimento con dos factores, A (temperatura con tres niveles), B (concentración con cuatro niveles). El experimento se ha replicado 5 veces. En la tabla se muestra la media y la varianza (corregida) para los 5 datos de cada tratamiento. Escribir la tabla de análisis de la varianza. A B y i ŝ 2 i Se desea estudiar la influencia de 2 factores en el error de medida de un equipo de visión artificial. Un factor F es la distancia focal, para el que se han fijado 4 niveles y el otro factor L es el nivel de iluminación con 2 niveles. Además se dispone de 2 equipos diferentes para realizar las medidas. Se ha tomado un patrón y se ha medido en las combinaciones indicadas en la tabla, donde y ijk es el error obtenido al situar la distancia focal i, con iluminación j y el equipo k. F L Equipo 1 y 111 y 211 y 311 y 411 y 121 y 221 y 321 y 421 Equipo 2 y 112 y 212 y 312 y 412 y 122 y 222 y 322 y 422 Construir la tabla de análisis de la varianza, que incluya los efectos principales debidos a la distancia focal(f), lailuminación (L) yel equipo, yademáslainteracción F L, suponiendo que son nulas el resto de interacciones. 39. Cierta industria de lentes para gafas desea comparar dos tipos de recubrimiento antireflectante A, B. Los dos tipos tienen idéntico aspecto y prestaciones, pero antes de decidirse por 15
20 uno u otro desean comprobar si el tipo de recubrimiento influye en el desgaste que sufre la lente. Para ello construyen gafas con una lente de cada tipo que distribuyen entre 10 personas seleccionadas al azar que habitualmente utilizan gafas. Al cabo de seis meses miden el desgaste y se obtienen los valores que se indican en la tabla. Persona Lente A Lente B Qué tipo de recubrimiento recomendaría a los fabricantes con el criterio de mínimo desgaste?. 40. Demuestre que enunmodelo enbloques aleatorizados, coni niveles parael factoryj niveles para el bloque, con modelo y ij = µ+α i+ β j +u ij,elvaloresperadodelavariabilidadexplicadaporelfactores: E[VE(α)] = (I 1)σ 2 +J J i=1 α2 i,siendo σ2 la varianza del error experimental. 41. Se desea comprobar si el orden en el que aparecen las preguntas de un examen test influye en resultado obtenido por el alumno. Se han preparado dos examenes, el Test A tiene las preguntas en orden de dificultad creciente y el Test B a la inversa. Se ha elegido una muestra aleatoria de 20 alumnos y se han emparejado según su habilidad, de forma que los dos alumnos de cada pareja han demostrado durante el curso una habilidad similar. De cada pareja, un alumno se ha asignado aleatoriamente al Test A y el otro al Test B. Los resultados finales del ejercicio han sido (cada pareja es una columna) Test A: Test B: Es evidente que las puntuaciones del Test B son mas bajas que las del Test A? 42. El análisis de la varianza de un diseño en bloques aleatorizados proporciona los si-guientes resultados: VT = 129, VE(factor) = 38,5 y VE(bloque) = 82,5. El número de niveles del factor es 4 y el número de bloques 4. Construir la tabla de análisis de la varianza y hacer los contrastes correspondientes con nivel de significación 0,05. 16
21 43. Se ha estudiado la influencia de la cantidad de cierto aditivo en la opacidad de un material plástico que se puede fabricar por tres métodos de extrusión. El objetivo es conseguir el tratamiento con opacidad mínima. Cada tratamiento se ha replicado 5 veces, los valores medios y las desviaciones típicas corregidas para cada caso se proporcionan en la tabla 1. La tabla 2 corresponde al análisis de la varianza. Se ha comprobado que se verifican las condiciones de normalidad y homocedasticidad. Método Aditivo Medias Desv. Típ (TABLA 1) Suma de cuadrad. g.l. Var. F p-valor Extrus Aditivo Interac Residual Total (TABLA 2) (a) A la vista de los resultados de las dos tablas indica qué método de extrusión es aconsejable para conseguir la opacidad mínima. (b) Da un intervalo del 95% de confianza para la opacidad media en las condiciones óptimas. (c) Sea d i = y i1 y i2 la diferencia entre las medias observadas en los dos niveles del factor aditivos para el método de extrusión i. Calcula el valor esperado y la varianza de d i en términos de los parámetros del modelo factorial. (d) Si E(di) = 0 para los tres métodos, obtén la distribución de probabilidad de 5 2 d2 1 +d 2 2 +d 2 3 σ Se ha estudiado el efecto de tres hornos diferentes y dos temperaturas (290 o C y 320 o C) en la duración de cierto componente. Para cada combinación de horno y temperatura se ha replicado el experimento 3 veces. En la tabla siguiente se proporcionan las medias y desviaciones típicas de los datos de cada tratamiento. 17
22 Temperatura o C 290 o C 320 o C Media Desv. T. Media Desv. T. Horno Horno Horno Suma Grados Fuente Cuadrado Libertad Varianza F p-valor Horno Temp H x T Residual Total Seleccionar el horno y la temperatura que proporcionan máxima duración, haciendo los contrastes de igualdad de medias con nivel de significación
23 Modelos de regresión lineal 1. La tabla muestra los mejores tiempos mundiales en Juegos Olímpicos hasta 1976 en carrera masculina para distintas distancias. y: tiempo (sg) x: distancia (m) (a) Estimar la regresión lineal de y sobre x y calcular la varianza residual y el coeficiente de correlación. (b) Obtener intervalos de confianza para la pendiente y varianza residual (α = 0.01). (c) Analizar si la relación lineal es adecuada, transformando las variables si es necesario. (d) Supóngase que en aquellas Olimpiadas hubiera existido una carrera de 500 metros. Estimar el tiempo previsto para el record olímpico en dicha carrera, dando un intervalo de confianza con α = Estimar por mínimos cuadrados los parámetros a y b de la ecuación y = a + bx 2 con la muestra de tres puntos siguientes (y,x) : (3, -1); (4, 0); (6,1). 3. Dada la recta de regresión ŷ = 3+5(x 2) con r = 0.8, sˆ R = 1, construir un intervalo de confianza del 95% para la pendiente si n = Dado el modelo estimado con n = 25 datos, ŷ = 2+3(x 4),ŝ R = 5, con desviación típica del coeficiente de regresión S( ˆβ 1 ) = 0.5, calcular la desviación típica de la predicción del valor medio de y cuando x = Sir Francis Galton(1877) estudió la relación entre la estatura de una persona(y) y la estatura de sus padres (x) obteniendo las siguientes conclusiones: (a) Existía una correlación positiva entre las dos variables. (b) Las estaturas de los hijos cuyos padres medían más que la media era, en promedio, inferior a la de sus progenitores, mientras que los padres con estatura inferior a la media en promedio tenían hijos más altos que ellos, calificando este hecho como de regresión a la media. Contrastar (α = 0.05) estas dos conclusiones con la ecuación ŷ = x resultante de estimar un modelo de regresión lineal entre las variables (en cm.) descritas anteriormente para una muestra de tamaño 100 si la desviación típica (estimada) de ˆβ 1 es La ley de Hubble sobre la expansión del universo establece que dadas dos galaxias la velocidad de desplazamiento de una respecto a la otra es v = Hd, siendo d su distancia y H la constante de Hubble. La tabla proporciona la velocidad y la distancia de varias galaxias respecto a la Via Láctea. Se pide: 1
24 Galaxia Distancia Velocidad (millones años luz) (10 3 Km/s) Virgo Pegaso Perseo Coma Berenices Osa Mayor Leo Corona Boreal Géminis Osa Mayor Hidra Tabla: Distancia y velocidad de desplazamiento de las distintas galaxias a la Via Lactea. Nota: Obsérvese que según el modelo de Hubble la regresión debe pasar por el origen. Tómese 1 año luz = Km/seg x seg = Km. (a) Estimar por regresión la constante de Hubble. (b) Como T = d/v = d/hd = 1/H, la inversa de la constante de Hubble representa la edad estimada del Universo. Construir un intervalo de confianza del 95% para dicha edad. 7. Para establecer la relación entre el alargamiento en mm (Y) producido en un cierto material plástico sometido a tracción y la fuerza aplicada en toneladas por cm 2 (X) se realizaron 10 experimentos cuyos resultados se muestran en la tabla x i y i Tabla: Alargamiento y i (mm) producidos por la fuerza x i (Tm/cm 2 ). (a) Ajustar el modelo de regresión lineal E(Y x) = β 0 + β 1 x y contrastar (α = 0.01) la hipótesis de que, en promedio, por cada Tm/cm 2 de fuerza aplicada es de esperar un alargamiento de 50 milímetros, sabiendo que la desviación típica residual vale (b) Si el límite de elasticidad se alcanza cuando x = 2.2 Tm/cm 2, construir un intervalo de confianza al 95% para el alargamiento medio esperado en ese punto. (c) Teniendo en cuenta que el alargamiento esperado cuando la fuerza aplicada es nula debe ser nulo también, estimar el nuevo modelo E[Y x] = βx con los datos anteriores Cuál es el sesgo del estimador del parámetro de la pendiente si se estima según el modelo del apartado 1? 2
25 8. La ecuación de regresión entre las ventas de un producto y y su precio x es ŷ = x, ŝ R = 2 y ŝ y = 4. Si el número de datos ha sido n = 50, contrastar H 0 : β 1 = 1 frente a la alternativa H 1 : β 1 < Se estudia la relación entre el tiempo de reparación (minutos) de ordenadores personales y el número de unidades reparadas en ese tiempo por un equipo de mantenimiento con los resultados mostrados en la siguiente tabla unidades reparadas tiempo de reparación Se pide: (a) Construir la recta de regresión para prever el tiempo de reparación y utilizarla para construir un intervalo de confianza (α = 0.01) para el tiempo medio de reparación de 8 unidades. (b) Construir un intervalo de confianza (α = 0.01) del tiempo de reparación para un lote de 14 unidades. (c) Si los tiempos de reparación fuesen medias de 10 datos. Cual sería la recta de regresión? 10. Se realiza una regresión múltiple con tres regresores y se encuentra un coeficiente de correlación de 0.5 entre los residuos de la regresión y uno de los regresores. Interpretar este resultado. 11. La matriz de varianzas de tres variables estandarizadas es la siguiente Calcular la ecuación de regresión de la primera variable respecto a las otras dos. 12. Dos variables x 1 y x 2 tienen la siguiente matriz de varianzas ( ) y las regresiones simples con y son ŷ = 0.75x 1 ; ŷ = 0.6x 2. Calcular la regresión múltiple entre y y las dos variables x 1, x 2 sabiendo que la variable y tiene media cero y varianza unidad. 13. Se realiza la regresión entre la variable dependiente y y tres regresores x 1, x 2 y x 3. Posteriormente se decide realizar la regresión entre la variable y y los tres regresores estandarizados. Explicar cuáles son las diferencias entre los resultados de una regresión y otra en cuanto a los coeficientes estimados ˆβ i, los residuos y el coeficiente de determinación, justificando la respuesta. 3
26 14. La matriz de varianzas de las variables X 1, X 2 e Y es Siendo X 1 = 30,X 2 = 40,Y = 100 y el número de datos n = 10. Se pide: (a) Realizar la regresión simple entre Y (variable dependiente) y X 1, dando el intervalo de confianza para la pendiente de la recta con α = Hacer lo mismo con Y y X 2. (b) Realizar la regresión múltiple entre Y (variable dependiente) y X 1,X 2, en desviaciones a la media. (c) Indicar si los coeficientes de la regresión anterior son significativos. (d) Calcular R 2 para los tres modelos, comentar los resultados obtenidos e indicar qué modelo eligiría y por qué. 15. Para establecer la relación entre el voltaje de unas baterías y la temperatura de funcionamiento se han hecho unos experimentos cuyos resultados se muestran en la siguiente tabla Batería Temperatura Voltaje Se pide: (a) Contrastar la hipótesis (α = 0.05) de que no existe relación lineal entre el voltaje y la temperatura. (b) Las lecturas 1,3,5 y 7 fueron realizadas con unas baterías de Cadmio y las 2,4, 6 y 8 con baterías de Zinc. Introducir en el análisis anterior una variable cualitativa que tenga en cuenta los dos tipos de baterías y contrastar si es significativa al 95%. (c) DarunintervalodeconfianzaparaelvoltajedeunabateríadeCadmioquevaatrabajar a 35 centígrados. (Utilizar el modelo estimado en el apartado 2). (d) Comprobar que se cumplen las hipótesis del modelo construido en los apartados anteriores. 16. Cómo disminuirá la varianza teórica de los estimadores ˆβ en el modelo de regresión lineal al replicar las observaciones? (Por replicar se entiende el obtener un nuevo vector Y de la variable respuesta manteniendo las X fijas). 4
27 17. Se ha estimado un modelo de regresión para la estatura (y) de un grupo de adultos y sus estaturas a los 7 (x 1 ) y 14 (x 2 ) años. La desviación típica residual obtenida es 5 cm y la desviación típica del coeficiente de x 1 (estatura a los 7 años) resulta 2.4, siendo este efecto no significativo al 95%. Sin embargo, un segundo modelo de regresión que incluya sólo a esta variable (x 1 ) conduce a una desviación típica residual de 7 cm y a un coeficiente de regresión de 2 con desviación típica de 1. Qué podemos concluir con estos resultados de la correlación entre x 1 y x 2? 18. Se dispone de una muestra de 100 automóviles con información respecto a su consumo (litros/100 km), peso (kg), potencia (CV), tipo de motor (I=inyección, NI=no inyección) y nacionalidad (1=USA, 2=Alemania, 3=Japón, 4=Francia). Escribir la ecuación del modelo de regresión lineal del consumo respecto al resto de las variables e interpretar el significado de cada uno de los parámetros del modelo. 19. Teniendo en cuenta que mediante variables cualitativas cualquier modelo de diseño experimentalpuedeescribirsecomounmodeloderegresión, determinarlamatrizv = X(X T X) 1 X T de proyección y la varianza de un residuo e ij para el modelo básico de análisis de la varianza y ij = µ i +u ij, i = 1,...,I ; j = 1,...,n i Aplicarlo al caso de 3 grupos(i = 3), con5observaciones en el primer grupo, 4 en el segundo y 3 en el tercero. 20. La variable y se relaciona con las variables x 1 y x 2 según el modelo E(y) = β 0 +β 1 x 1 +β 2 x 2 ; no obstante se estima el siguiente modelo de regresión que no incluye la variable x 2 ŷ i = ˆβ 0 + ˆβ 1 x 1i. Justificar en qué condiciones el estimador ˆβ 1 es centrado. 21. Se efectúa una regresión con dos variables explicativas E[y] = β 0 +β 1 x 1 +β 2 x 2. La matriz de varianzas de x 1 y x 2 es [ Cuál de los dos estimadores ˆβ 1 y ˆβ 2 tendrá menor varianza? 22. Se estudia la relación entre los costes de fabricación totales en miles de pesetas (Y), de 25 libros técnicos, la tirada en miles de ejemplares producidos (T) y el número de páginas del libro (N), encontrandose la relación ] Y = T +4N (a) Sabiendo que las desviaciones típicas (sin corregir por grados de libertad) de T y N son 1.5 miles de ejemplares y 200 páginas respectivamente, y ŝ R = 600, calcular un intervalo de confianza del 90% para los efectos de T y N suponiendo que las variables están incorreladas. Interpretar el resultado. 5
28 (b) Si el coeficiente de correlación entre las variables T y N es 0.5, Puede admitirse la hipótesis de que el coste asociado a la tirada es de ptas. cada mil unidades? (α = 0.05). (c) Sabiendo que la desviación típica (sin corregir por grados de libertad) de los costes de fabricación es 2200 miles de pesetas, calcular el coeficiente de correlación múltiple y el estadístico F para contrastar que ambas variables no influyen. Interpretar el resultado. (d) Para estudiar cuánto encarecen los gráficos el precio se introduce en el modelo una variable ficticia Z que toma el valor 1 en libros con gráficos y 0 en el resto, obteniéndose el nuevo modelo estimado siguiente (desviaciones típicas entre paréntesis) Interpretar el resultado. Y = Z + 840T + 3.8N (100) (16) (0.97) 23. Demostrar que el coeficiente de correlación múltiple en el modelo general de regresión es igual al coeficiente de correlación lineal entre la variable observada y y la prevista ŷ. 24. Para 11 provincias españolas se conocen los siguientes datos: Y = número de mujeres conductoras dividido por el número de hombres conductores. X 1 = porcentaje de mujeres que trabajan sobre el total de trabajadores de la provincia. X 2 = porcentaje de población que trabaja en el sector agrícola. Si se denomina X = (1 X 1 X 2 ) a la matriz de regresores (1 es un vector de unos) se sabe que (X T X) 1 = (X T Y) = Se pide: ŝ R = 0.03; n (y i y) 2 = i=1 (a) Estimar el modelo de regresión y realizar los contrastes individuales (α = 0.05). Interpretar la regresión. (b) Calcular el coeficiente de determinación R 2 y realizar el contraste de que las dos variables no influyen mediante el test F (α = 0.05). (c) Se introducen dos nuevas variables en la regresión: X 3 que representa el porcentaje de población que trabaja en los servicios, y X 4 el porcentaje de población que trabaja en otras actividades distintas de agricultura y servicios. Explicar razonadamente cómo será la regresión al introducir estas dos nuevas variables y los efectos de cada una de ellas. 6
29 25. Con los datos de la tabla, se pide: x y (a) Estimar un modelo de regresión simple con y como variable dependiente y x como regresor. Indicar si el modelo es apropiado, justificando la respuesta. (b) Estimar el modelo y realizar el contraste H 0 : β 2 = 0. y i = β 0 +β 1 x i +β 2 x 2 i +u i (c) El resultado de la estimación del modelo que incluye el término x 3 es, ŷ i = x i x 2 i x 3 i (0.05) (0.048) (0.019) (0.010) con ŝ R = (entre paréntesis las desviaciones típicas de los estimadores). Realizar el contraste general de regresión con α = Seleccionar entre los tres el modelo más adecuado, justificando la respuesta. 26. En un modelo de regresión simple se ha obtenido un coeficiente de correlación igual a 0.8. Si el número de observaciones es n = 150, ȳ = 22 y la variabilidad total es 320. Construir un intervalo de confianza al 95% para el valor medio de la variable dependiente (y) cuando x (regresor) es igual a x. (Aproximar la distribución t de Student correspondiente por una distribución normal, si Z N(0,1), P(Z 1.96) = 0.975). 27. En una planta piloto se obtiene un nuevo producto mediante un proceso químico. Con el fin de mejorar el rendimiento se emplean dos catalizadores distintos y se trabaja con tres temperaturas diferentes. Los resultados del experimento son Temperatura Catalizador A B (a) Contrastar si los factores Temperatura y Catalizador tienen efectos significativos. (α = 0.05) (b) Qué tratamiento se debe utilizar para obtener el mayor rendimiento, si se desea garantizar una probabilidad de error tipo I total, α T = 0.03? (c) Estimar y contrastar el modelo de regresión simple entre el rendimiento y la temperatura. Qué conclusiones obtiene? Proponga un modelo de regresión que subsane las deficiencias encontradas. 7
30 28. El modelo de regresion múltiple se puede escribir en notación matricial Y = Xβ +U donde U es el vector de variables aleatorias que cumple las hipótesis de normalidad, independencia y homocedasticidad. Deducir razonadamente la distribución, media y matriz de varianzas del vector de residuos e = Y Xˆβ. 29. La empresa de bebidas gaseosas CIBELES quiere determinar la influencia sobre la presión interna (y i ) en los botes de refresco de dos variables continuas (x 1,x 2 ) y del tipo de bebida (NARANJA=1, LIMON=2 y COLA=3). Para distintos valores de x 1 y x 2 y 20 botes de cadasabor, ha medido la presióninterna. El tipodebebida serepresenta por lasvariables z 1, z 2 y z 3 qué identifican el sabor NARANJA, LIMON y COLA, respectivamente. El modelo estimado de regresión de y con respecto a x 1, x 2, z 2 y z 3 es: donde ŷ = x x z z 3 ; ŝ R = 4.32 (X T X) 1 = (a) Realizar los contrastes individuales con α = 0.01, indicando las variables que influyen significativamente en la presión. Interpretar el resultado explicando el significado de cada parámetro. (b) Si se realiza una regresión entre la presión interna (y i ) y las dos variables continuas x 1 y x 2 se obtiene el siguiente modelo de regresión ŷ = x x 2 ; ŝ R = Contrastar (α = 0.01) conjuntamente que el tipo de bebida no influye. (H 0 : α 2 = α 3 = 0 frente a H 1 : α 2 ó α 3 es distinto de cero). (c) Existe diferencia significativa en las presiones internas de los botes de LIMON y COLA? (α = 0.01) 30. Estimar por máxima verosimilitud los parámetros β 1 y β 2 del modelo y i = β 1 x 1i +β 2 x 2 2i +u i ;u i N(0,σ). En qué condiciones los estimadores obtenidos por máxima verosimilitud son iguales que los obtenidos por mínimos cuadrados? 31. Obtener la relación entre el coeficiente de determinación R 2 y el coeficiente de determinación corregido R 2. Que ventajas presenta el segundo frente al primero? 8
31 32. Con el fin de reducir el tiempo de secado se han realizado 20 ensayos con cementos de distintas características. El ajuste por mínimos cuadrados de la ecuación de regresión entre el tiempo de secado y una de las variables x 1 es ŷ = x 1, ŝ R = 12.8, R 2 = 0.37 (a) Obtener el intervalo de confianza al 95% para el parámetro de la pendiente de la recta e indicar si su efecto es significativo. (b) Incluir en el modelo de regresión otra variable independiente x 2, sabiendo que su varianza muestral es s 2 2 = 9.2, la covarianza entre las dos variables independientes es s 12 = 3.35 y la covarianza entre el tiempo de secado y la nueva variable s 2y = Realizar los contrastes individuales para los parámetros de x 1 y x 2. (c) Un estudio teórico del problema indica que el efecto de las dos variables es igual y que por tanto, la ecuación de regresión debería ser ŷ =ˆb 0 +ˆb 1 (x 1 +x 2 ). Con la información de los apartados anteriores, obtener ˆb 1 y contrastar si la pendiente de la recta es significativamente distinta de cero. 33. En el análisis de regresión simple entre dos variables, se considera como importante desde el punto de vista práctico, una correlación entre las dos variables igual o superior a r = 0.1. Determinar el número mínimo de observaciones con las que se debe estimar el modelo de regresión para que una correlación igual a 0.1, implique que el regresor tiene un efecto significativo sobre la variable dependiente. (Aproximar la distribución t de Student correspondiente por una distribución normal, si Z N(0,1), P(Z 1.96) = 0.975). 34. Interpretar geométricamente el problema de estimación por mínimos cuadrados en regresión múltiple. Demostrar que los residuos del modelo se obtienen mediante la expresión e = PY, donde Y es el vector correspondiente a la variable dependiente y P es una matriz de dimensión n n. Determinar P en términos de la matriz X de los regresores. A partir de la expresión anterior, obtener la distribución de probabilidad de los residuos, la media y la matriz de varianzas. 35. Una de las etapas de fabricación de circuitos impresos requiere perforar las placas y recubrir los orificios con una lámina de cobre mediante electrólisis. Una característica esencial del proceso es el grosor de la capa de cobre. Se han realizado 12 experimentos para evaluar el efecto de 7 variables, X 1 : Concentración de Cobre, X 2 : Concentración de Cloruro, X 3 : Concentración de Ácido, X 4: Temperatura, X 5 : Intensidad, X 6 : Posición y X 7 : Superficie de la placa. Cada variable se ha estudiado a dos niveles. Las condiciones experimentales y los resultados de cada experimento se muestran en la tabla. 9
32 X 1 X 2 X 3 X 4 X 5 X 6 X 7 Y Responder a las siguientes preguntas aplicando el modelo de regresión múltiple, teniendo en cuenta que X T X = 12I 8, donde I 8 es la matriz identidad de 8 8. (a) Estimar el modelo de regresión múltiple y i = β 0 +β 1 x 1i +β 2 x 2i +β 3 x 3i +β 4 x 4i +β 5 x 5i +β 6 x 6i +β 7 x 7i +u i. Obtener la descomposición de la variabilidad del modelo y realizar el contraste H 0 : β 1 = β 2 = β 3 = β 4 = β 5 = β 6 = β 7 = 0 frente a la hipótesis alternativa H 1 : algún β j es distinto de cero. (NOTA.: X T Y = (21.41, 0.03, 0.01, 0.23, 1.69, 2.35, 0.09, 0.19) T ) (b) Realizar cada uno de los contrastes individuales e indicar qué variables tienen efecto significativo. (c) Eliminar del modelo del apartado 1 todas las variables no significativas. Estimar el modelo y contrastar sus coeficientes. Interpretar los resultados del experimento. 36. Una medida crítica de calidad en la fundición de llantas de aluminio por inyección es la porosidad. Se ha realizado un diseño experimental para analizar la porosidad (Y) en función de la temperatura (T) del aluminio líquido y de la presión (P) con que éste se inyecta al molde. Se han realizado n=16 experimentos y el modelo obtenido ha sido ŷ = T P (.048) (.048) (.048) T P TP (.048) (.048) (.068) Entre paréntesis se proporciona la desviación típica estimada para cada uno de las estimaciones de los parámetros del modelo. Además ŝ R = y R 2 = Las condiciones experimentales se eligieron de forma que los cinco regresores utilizados en el modelo están incorrelados. 10
33 (a) Realizar el contraste F general de regresión y los contrastes individuales de todos los coeficientes del modelo, indicando cuál es significativamente distinto de cero. (b) Demostrar que si los regresores estan incorrelados, al eliminar alguno del modelo, las estimaciones de los restantes no varían. Además, si se elimina el regresor j, con parámetro estimado ˆβ j, la variabilidad no explicada del nuevo modelo VNE 1 es igual a VNE 0 + ns 2 jˆβ 2 j, donde VNE 0 es la variabilidad no explicada del modelo con todos los regresores. Obtener ŝ R y R 2 para el modelo que únicamente incluye los parámetros significativos. (c) Determinar en qué condiciones de presión y temperatura la porosidad es mínima según el modelo anterior y dar un intervalo para predicción de la porosidad media en estas condiciones. (Si t es la temperatura medida en grados centígrados ( 0 C) y p la presión en kg/cm 2, T = (t 650)/10 y P = (p 975)/25. En estas unidades se cumple que n i=1 T i = 0, n i=1 P i = 0, n i=1 T2 i = 8, n i=1 P2 i = 8, n i=1 T ip i = 0) 37. Demostrar que cuando todos los regresores están incorrelados, el coeficiente de determinación deunmodeloderegresiónmúltiplecumpler 2 = k j=1 r2 j, dondek esel númeroderegresores y r j el coeficiente de correlación entre el regresor j y la variable dependiente. 38. Explicar el concepto de multicolinealidad en regresión múltiple, cómo se identifica y cuáles son sus efectos sobre (a) los estimadores ˆβ i, (b) los residuos y (c) las predicciones. 39. Demostrar que en un modelo de regresión simple y y el estimador de la pendiente ˆβ 1 son independientes. Utilizar esta propiedad para calcular la varianza de ˆβ 0 = y ˆβ 1 x. 40. Lamasa M deuncristal dehielo depositadoenuna cámaraatemperatura(-5 o C)yhumedad relativa constante crece según la ecuación M = αt β, donde T es el tiempo y α y β son parámetros desconocidos. La relación anterior se linealiza con la transformación logarítmica, estimándose el siguiente modelo logm = logα+βlogt +u donde el término añadido u son los errores experimentales, que se consideran aleatorios e independientes condistribución normal, N(0,σ 2 ). Diezcristalesdelmismo tamañoyformase introdujeron en una cámara, extrayéndose secuencialmente según unos tiempos previamente establecidos. Para determinar la influencia del tipo de cámara, se repitió exáctamente el experimento en una segunda cámara. Los valores de ŝ R para la cámara 1 y 2 son 0.64 y 0.50, respectivamente. Los modelos estimados para cada cámara, X T X y (X T X) 1 son: logm 1 = logT logm 2 = logT (X T X) 1 = X T X = ( ( ) ) 11
34 (a) Contrastar con nivel de significación 0.05 si los dos modelos tienen la misma pendiente. Lo mismo para la ordenada en el origen. (NOTA.- Aceptar que la varianza de los dos modelos es la misma y estimarla como el promedio de las dos varianzas residuales calculadas.) (b) Un modelo de regresión múltiple Y = Xβ + U, se replica, es decir se obtienen dos vectores devariablesrespuesta Y 1,Y 2, paralosmismo regresores (matrizx). Demostrar quesi ˆβ 1 y ˆβ 2 sonlosresultadosdelaestimacióndeβ utilizandoporseparadolavariable Y 1 e Y 2 ; entonces el estimador de β con todos los datos es (ˆβ 1 + ˆβ 2 )/2. (c) Estimar un único modelo con los datos de las dos cámaras. Sabiendo que Y T Y = 306.8, donde Y = logm, dar un intervalo de confianza al 99% para los dos parámetros. 41. El molibdeno se añade a los aceros para evitar su oxidación, pero en instalaciones nucleares presenta el inconveniente de ser el causante de gran parte de los productos radioactivos. Se ha realizado un experimento para determinar el grado de oxidación del acero en función del porcentaje de molibdeno. Además se ha tenido en cuenta el efecto del tipo de refrigerante utilizado (R 1, R 2 ). Los resultados se muestran en la tabla. Molibdeno (%) Refrig. 0.5% 1% 1.5% 2% Medias R R R R Media (a) Escribir un modelo de regresión que incluya el porcentaje de molibdeno y el tipo de refrigerante como regresores; estimar el modelo e indicar qué parámetros son significativos (α = 0.05)). (b) Los experimentos relativos a las dos primeras filas se realizaron en un tipo de instalación y los correspondientes a las dos últimas en otra distinta. Escribir un nuevo modelo que incluya este aspecto. Comprobar que este nuevo regresor está incorrelado con los dos anteriores. Estimar el nuevo modelo. (c) Demostrar que en un modelo con los regresores incorrelados, la eliminación de uno de ellos no influye en el valor de los estimadores ˆβ i,(i 0) restantes. Influye en la varianza residual y en los contrastes? Explicar este efecto en función de que el parámetro β del regresor eliminado sea o no nulo. 42. Demostrar que en un modelo de regresión múltiple estimado por máxima verosimilitud, los residuos cumplen n e j x ij = 0, j=1 donde [x i1, x i2,...,x in, ] es cualquier regresor del modelo. Obtener la distribución conjunta del vector de residuos. Si σ 2 es la varianza teórica de la componente aleatoria del modelo, indicar en que circuntancias la varianza de un residuo es mayor que σ 2. 12
35 43. Se dispone de una muestra de 86 vehículos, de los cuales 31 son japoneses (J), 41 norteamericanos(n)y14europeos(e).lamediaydesviación típicadelconsumo degasolina(enlitros cada 100 Km) para los coches japoneses es y J = ,ŝ J = 1.42, para los norteamericanos y N = ,ŝ N = 1.25 y para los europeos y E = 10.64,ŝ E = (a) Suponiendo que los vehículos escogidos son muestras aleatorias independientes y que pueden aplicarse las hipótesis de normalidad y homocedasticidad, contrastar la hipótesis de que el lugar de fabricación no influye en el consumo de combustible. Existe algún grupo con un consumo significativamente menor que los otros dos? (b) Los coches tienen características muy diferentes (peso, potencia,...) que deben ser tenidas en cuenta para hacer la comparación anterior. Con esa finalidad, se ha ajustado el siguiente modelo de regresión: ŷ = Pot Peso Z J Z E ŝ 2 R = 0.506, R2 = 75.7% donde (X T X) 1 es: 4.791e e e e e e e e e e e e e e e e e e e e e e e e e 2 dónde la variable dependiente es el consumo, Pot (potencia) está expresada en unidades de 100 Cv, el Peso en Toneladas, Z J toma el valor 1 si el coche es japonés y cero en los demás, y Z E toma el valor 1 para los coches europeos y cero en los demás. Realizar el contraste general de regresión para el modelo anterior e interpretar los coeficientes estimados. (c) Con el modelo de regresión anterior realizar los tres contrastes siguientes: (c.1) No existe diferencia en el consumo de los coches japoneses y europeos. (c.2) No existe diferencia en el consumo de los coches japoneses y norteamericanos. (c.3) No existe diferencia en el consumo de los coches europeos y norteamericanos. Comparar los resultados con los obtenidos en el apartado 1, explicar a qué se deben las diferencias y justificar cuál es el modelo más adecuado para hacer las comparaciones. 44. El modelo de regresión múltiple con n observaciones y k + 1 variables independientes (incluyendo la constante β 0 ) se puede escribir en notación matricial como Y = Xβ +U, donde U es el vector de variables aleatorias que cumple las hipótesis de normalidad, independencia y homocedasticidad y la matriz de los regresores X es de dimensión n (k +1). Demostrar que si se transforma linealmente la matriz X, esto es, W = XA, donde A es cualquier matriz cuadrada de dimensión (k + 1) (k + 1) y rango máximo, entonces la regresión de Y con la nueva W proporciona las mismas predicciones y los mismos residuos. Justificar geométricamente este resultado. 13
36 45. La resistencia a la tracción (y) de una aleación metálica en función de la temperatura de templado (x) se ha ajustado con una ecuación de regresión para 30 observaciones resultando: ŷ = x, ŝ R = 15.7, R 2 = 0.43 Se puede concluir con una confianza del 95% que la temperatura de templado tiene efecto significativo en la resistencia a la tracción. 46. En Cosby Creek, una ciudad al sur de las montañas Apalaches, se ha hecho un estudio para determinar cómo el ph y otras medidas de acidificación del agua se ven afectadas durante las tormentas. En concreto se han obtenido 17 datos durante cada una de las tres tormentas monitorizadas para un total de 19 variables, aunque en este análisis se analizarán solo 2, el ph y el denominado Weak Acidity (WA). Se ha estimado el modelo de regresión múltiple del valor ph con respecto a la variable WA y para cada una de las tres tormentas. Las tormentas se representan con las variables ficticias z 1, z 2 y z 3 que identifican respectivamente la tormenta 1, 2 y 3. El modelo estimado de regresión de y con respecto a WA, z 1, z 2 y z 3 es: ph = ,00008WA+0,998z 1 +1,65z 2 (0,000727) (0,4664) (0,4701) 0,005z 1 WA (0,0014) 0,008z 2 WA, R 2 = 0,866 (0,0016) Entre paréntesis las deviaciones típicas estimadas de los estimadores de los parámetros correspondientes. (a) Realice el contraste general de regresión y los contrastes individuales con α = 0, 05 indicando las variables que influyen significativamente en el ph. Interprete el significado de cada parámetro. (b) Proporcione sendos intervalos de confianza al 95% para los parámetros de las interacciones z 1 WA y z 2 WA. Qué conclusiones pueden extraerse? Se puede simplificar el modelo? 47. Dos becarios del Departamento de Ciencias Sociales están interesados en el estudio de la Tasa de Mortalidad Infantil (TMI). Para ello, han recogido en 107 países dicha magnitud así como la alfabetización (A), el PIB y la población (Pob) en cada uno de ellos. Las medias y desviaciones típicas corregidas de estas 4 variables son: TMI A PIB Pob Media DT corregida (a) Si el coeficiente de correlación entre TMI y A vale estime el modelo de regresión simple en el que TMI es la variable respuesta y A la variable explicativa y contraste si la pendiente estimada es significativa. (b) Los becarios han estimado un modelo de regresión múltiple en que la variable dependiente es TMI y las variables independientes son A, PIB y Pob. Observando que la diagnosis del modelo es inadecuada. Estime el modelo de regresión múltiple entre TMI (variable dependiente) y los regresores A, log(pib) y log(pob). Para ello se proporciona: 14
37 ( X X) 1 = ( X Ỹ) = siendo X la matriz de estos 3 últimos regresores en desviaciones a la media e Ỹ el vector respuesta en desviaciones a la media. Son significativos los coeficientes estimados? c. Para el modelo del apartado anterior realice el contraste general de regresión. Encuentra contradicciones entre el resultado de los contrastes individuales del apartado 2 y el del apartado 3? Justifique la respuesta. d. Los países objeto del estudio se pueden clasificar en desarrollados y no desarrollados. Para ello seintroduce lavariablecualitativaz quetomavalor 0si el paísesdesarrollado y 1 si no lo es. El modelo resultante se presenta a continuación: TMI = A 9.6log(PIB)+3.3Z con ŝ 2 R = Todos los coeficientes estimados resultan significativos. Interprete dichos coeficientes y elija de manera razonada el mejor modelo de entre los propuestos en el segundo y cuarto apartados NOTA: Utilice α = 0.05 para todos los contrastes que sean necesarios. 48. Se ha realizado la regresión entre la anchura y la longitud del pie en centímetros con datos de chicos y chicas de cuarto curso de la enseñanza secundaria. En la tabla se proporciona el resultado de la regresión. En el modelo se ha incluido una variable cualitativa que toma el valor 1 si la observación corresponde a una chica y 0 si es a un chico. Interpreta el resultado del análisis. Multiple Regression Analysis Dependent variable: Anch Standard T Parameter Estimate Error Statistic P-Value CONSTANT 4, , , ,0005 Long 0, , , ,0001 Chica -0, , , , Analysis of Variance 15
38 Source Sum of Squares Df Mean Square F-Ratio P-Value Model 4, , ,41 0,0000 Residual 4, , Total (Corr.) 9, R-squared = 48,3994 percent 49. Según la ecuación de los gases ideales, la presión ejercida por un gas a volumen y temperatura constante es proporcional a la masa. Se puede utilizar el siguiente procedimiento para estimar elpesomoleculardeungas. Sealmacenaelgasenunrecipientedevolumenconstante, yseva soltando poco a poco gas, variando la presión, pero manteniendo la temperatura constante. En la tabla adjunta se proporcionan mediciones de la presión (con respecto a la atmosférica) y de la masa del gas para el árgon. Presión (psi) Masa (g) 52 1, , , , , , , , ,5 19 0, , ,21 (a) Para estimar el peso molecular del árgon a partir de los datos, se propone el siguiente modelo de regresión P i = αm i +u i, con u i N(0,σ 2 ). Obtener el estimador de máxima verosimilitud del parámetro α (b) Realizar el contraste H 0 : α = 50 frente a H 1 : α 50 con nivel de significación (c) Para el modelo del apartado 1, obtener un intervalo de predicción para la presión cuando la masa es igual a 1 gramo. (d) Se considera también el modelo alternativo P i = β 0 +β 1 m i +u i con u i N(0,σ 2 ). 16
39 Obtener la varianza del estimador de E[P h m h ], es decir del valor medio de la presión P h para una masa dada m h con ambos modelos. Si el modelo verdadero fuese el del primer apartado, qué efecto tendría sobre la predicción adoptar el modelo alternativo? 50. Se ha estimado un modelo de regresión con dos variables independientes y 150 observaciones obteniéndose la siguiente ecuación: ŷ i = logx logx 2, ŝ 2 R = 2.48 La matriz de varianzas estimada de b = [ β 1, β 2 ] T para el modelo propuesto es ( ) ( ) 1ŝ XT X R = realiza el contraste general de regresión con α = 0.05: 51. En el modelo de regresión H 0 : β 1 = β 2 = 0 H 1 : algún β i es distinto de cero y i = β 0 +β 1 X 1i +β 2 X 2i +u i con las hipótesis habituales, explicar como se contrasta H 0 : β 1 = β 2 H 1 : β 1 β Demostrar que en el modelo de regresión múltiple con k regresores y constante, el estadístico que contrasta H 0 : β 0 = β 1 = β 2 = = β k = 0 frente a H 1 : algún β i 0, si H 0 es cierta es: F = Y T VY Y T (I V)Y n k 1 k +1 F k+1,n k 1 donde V = X(X T X) 1 X T e I es la matriz identidad de dimensión n n. 53. En la tabla siguiente se muestra el resultado de un experimento para relacionar el calor generado en el proceso de endurecimiento del 13 muestras de cemento en función de su composición. Los regresores X i corresponden al porcentaje de 4 componentes de la mezcla. 17
40 Fila Regresores Calor Modelo II X 1 X 2 X 3 X 4 Y Residuo v ii Modelo I Desv. Típ. Parámetros Estimación Estimadas t Constante X X X X Modelo II Desv. Típ. Parámetros Estimación Estimadas t Constante X X Análisis de la Varianza Varia- Grados Fuentes bilidad Lib. Var. F Explic Residual Total Análisis de la Varianza Varia- Grados Fuentes bilidad Lib. Var. F Explic Residual Total En las tablas se proporcionan dos modelos de regresión lineal, con las estimaciones de los parámetros, las desviaciones típicas estimadas de éstos y los estadísticos t de los contrastes individuales. Debajo se incluyen las tablas de análisis de la varianza de cada modelo. (a) Realizar los contrastes H 0 : β i = 0 frente H 1 : β i 0 para los distintos parámetros en los dos modelos. Realizar el contraste conjunto H 0 : β 3 = β 4 = 0 frente H 1 : alguno de los dos es 0. Se puede concluir con éstos datos que X 4 no influye significativamente en el calor Y? (b) Estimar el modelo de regresión simple del calor Y y la variable explicativa X 4 Influye significativamente X 4 en el calor Y? Analizar este resultado e interpretarlo teniendo en cuenta el resultado del apartado anterior. (c) En la tabla superior se muestran los residuos del modelo II y los elementos de la diagonal de la matriz V = X(X T X) 1 X T. Indicar los residuos con mayor y menor varianza, justificando la respuesta. Si se vuelve a repetir los experimentos en estas dos 18
41 condiciones, dar un intervalo para la predicción de los nuevos valores de la variable dependiente (usar α = 0.05). 54. En un estudio de regresión simple con 35 observaciones ha resultado el siguiente modelo ŷ = log(x), ŝ R = 1.2, R 2 = 0.37 Obtener el intervalo de confianza al 95% para el parámetro de la pendiente e indicar si su efecto es significativo.(el percentil de la distribución t de Student con 33 grados de libertad es 2.03) 55. Los datos siguientes corresponden a la pérdida (P) por abrasión en gr/h y su medida de dureza (D) en grados Shore para 15 gomas de caucho de alta resistencia a la tensión (A) y otras 15 gomas de caucho con resistencia a la tensión baja (B): A D A D A P A P B D B D B P B P Escribir el modelo estadístico, indicar los parámetros y explicar el procedimiento de estimación para estudiar con estos datos simultáneamente el efecto de la dureza y de la resistencia a la tensión (alta o baja) en las pérdidas por abrasión. Indicar cómo contrastar con el modelo propuesto que las gomas de caucho con baja resistencia a la tracción tienen por término medio mayor pérdida que las gomas con resistencia a la tracción baja. (Nota.- No se pide ningún cálculo numérico, los datos se presentan para ilustrar y describir el problema de forma precisa). 56. Sea x 1 la altura del tronco de un árbol y x 2 el diámetro del mismo en su parte inferior. El volumen y del tronco de árbol puede ser calculado aproximadamente con el modelo y i = αx 1i x 2 2i +u i, según el cual, el volumen del tronco es proporcional al volumen de un cono con las medidas x 1i,x 2i, siendo α el parámetro (desconocido) de proporcionalidad, más una componente de error aleatorio u i. La tabla siguiente contiene los datos (en metros y metros cúbicos) correspondientes a una muestra aleatoria de 15 troncos de una variedad de pino. 19
42 Obs. x 1i x 2i x 1i x 2 2i y i Obs. x 1i x 2i x 1i x 2 2i y i 1 10,1 0,117 0,14 0, ,8 0,297 1,75 0, ,3 0,13 0,19 0, ,8 0,328 2,90 1, ,4 0,142 0,41 0, ,351 2,60 1, ,9 0,193 0,56 0, ,4 0,376 3,90 1, ,8 0,218 1,13 0, ,389 4,40 2, ,5 0,236 1,09 0, ,4 0,427 5,00 2, ,6 0,257 1,43 0, ,7 0,594 11,2 4, ,9 0,269 1,66 0,722 (a) Estimar α por máxima verosimilitud suponiendo que lasvariables u i tienen distribución normal de media cero, con la misma varianza e independientes. (b) Un tronco tiene una altura de 20 metros y un diametro de 0.25 metros, dar un intervalo de predicción de su volumen (95% de confianza). La varianza residual del modelo es 0,0058. (c) En el análisis de los residuos se observa que la varianza de los errores crece con el volumen del tronco. Para obtener homocedasticidad se propone el siguiente modelo transformado utilizando logaritmos neperianos, logy i = β 0 +β 1 logx 1i +β 2 logx 2i +u i El resultado de la estimación es: Parámetro Estimación β 0-1,45 β 1 1,14 β 2 1,86 y M β = 0,1250 0,0212 0,0317 0,0212 0,0082 0,0051 0,0317 0,0051 0,0042 siendo M β = ŝ 2 R (XT X) 1 (X es la matriz de los regresores transformados según el modelo) La transformación logarítmica del modelo inicial (αx 1i x 2 2i) implicaría que β 1 = 1 y β 2 = 2. Contrastar (nivel de significación 0.05) si estos dos valores son aceptables. (d) Con este modelo, dar un intervalo de predicción (95% de confianza) para el volumen del tronco del apartado 2 si la varianza residual es 0, La cantidad máxima y i de cierto compuesto disuelta en un litro de agua a temperatura x i sigue el modelo de regresión simple, y i = β 0 +β 1 x i +u i, dónde u i cumple las hipótesis de normalidad, homocedasticidad (Var(u i ) = σ 2 ) e independencia. Una muestra de n disoluciones diferentes han proporcionado los valores (y i,x i ). Además se han medido las cantidades disueltas y 1,y 2,...,y m en otra muestra de m disoluciones que se encontraban a la misma temperatura x 0. El valor x 0 es desconocido. Estimar por máxima verosimilitud los parámetros β 0,β 1,σ 2 y x 0 utilizando las n+m observaciones. 20
43 58. Explicar en qué consiste el problema de la multicolinealidad en el modelo de regresión: cómo se detecta, cómo se puede corregir y cuáles son sus efectos. 59. Ciertas propiedades del acero se mejoran sumergiéndolo a alta temperatura (T 0 = 1525 o F) en un baño templado de aceite (t 0 = 95 o F). Para determinar la influencia de las temperaturas del acero y del baño de aceite en las propiedades finales del material se han elegido tres valores de la temperatura del acero y tres del baño de aceite, Temperatura acero (T) 1450 o F 1525 o F 1600 o F y se han realizado los siguientes experimentos: Temperatura aceite (t) 70 o F 95 o F 120 o F x 1i x 2i y i dónde se ha utilizado la siguiente transformación (para simplificar cálculos) Estimar el modelo de regresión x 1i = T i y x 2i = t i y i = β 0 +β 1 x 1i +β 2 x 2i +β 3 x 1i x 2i +u i e indicar qué parámetros son significativos para nivel de significación 0.05, teniendo en cuenta que la desviación típica residual es ŝ R = 9.6. Estimar y contrastar el modelo anterior empleando las variables originales T i y t i. 60. Se ha ajustado un modelo de regresión para estudiar el efecto de la velocidad de corte (x 1 ) y el caudal de refrigerante (x 2 ) en la duración (y) de una herramienta de corte. Las tres variables se han transformado mediante el logaritmo neperiano y el modelo estimado ha sido: logy = 18,30 5,050 logx 1 3,750 logx 2 (1,65) (0,19) (0,34) (entre paréntesis se proporcionan las desviaciones típicas estimadas de los coeficientes estimados del modelo). El número de observaciones es 32 y la desviación típica residual ŝ R = 0,24. Obtener los intervalos de confianza (99%) para los tres parámetros de la ecuación de regresión. El coeficiente de determinación es R 2 = 0,96, realizar el contraste conjunto de los parámetros correspondientes a las dos variables explicativas. 61. Se ha ajustado el siguiente modelo de regresión múltiple con una muestra de 86 vehículos, de los cuales 31 son japoneses, 41 norteamericanos y 14 europeos, dónde la variable dependiente es el consumo, y los regresores: Pot (potencia) está expresada en unidades de 100 Cv, el 21
44 Peso en Toneladas, Z J toma el valor 1 si el coche es japonés y cero en los demás, y Z E toma el valor 1 para los coches europeos y cero en los demás. ŷ = Pot Peso Z J Z E ŝ 2 R = 0.506, R2 = 75.7% 4.791e e e e e e e e e e 2 (X T X) 1 = 3.794e e e e e e e e e e e e e e e 2 Dar el intervalo de confianza para el consumo previsto de un coche norteamericano con una potencia de 120 Cv y 1600 Kg de peso. 62. El modelo de regresión múltiple que relaciona el calor generado en el proceso de endurecimiento (variable dependiente) de 13 muestras de cemento en función de su composición x 1,x 2,x 3 y x 4, es ŷ i = x 1i x 2i x 3i 0.14 x 4i (70.1) (0.74) (0.72) (0.75) (0.71) (entre paréntesis la desviación típica estimada de las estimaciones de los parámetros). Abajo se proporciona el coeficiente de determinación R 2 de los 15 modelos de regresión diferentes que se obtienen según los regresores elegidos. R 2 Variables en el Modelo x x x x x 1,x x 1,x x 1,x x 2,x x 2,x x 3,x x 1,x 2,x x 1,x 2,x x 1,x 3,x x 2,x 3,x x 1,x 2,x 3,x 4 Qué variables influyen significativamente en el calor generado? Justificar la respuesta. Qué modelo seleccionarías para predecir el calor generado? 63. Se desea estudiar la relación entre el sueldo de 100 personas, en función del número de años que llevan trabajando y el sector al que pertenecen, pudiéndose dividir el sector en 22
45 S=servicios, I=industria, A=agricultura. Escribir el modelo de regresión entre el sueldo (variable respuesta) y el resto de las variables. Se estima este modelo de regresión obteniendo una varianza residual ŝ 2 R = Con el objetivo de contrastar si el sector influye en el sueldo se estima otro modelo de regresión que no contiene ninguna variable de sector, para este modelo se obtiene una varianza residual ŝ 2 R = 0.4. Contrastar si el sector influye en el sueldo que perciben los empleados (α = 0.05). 64. En un modelo de regresión múltiple Y = Xβ+U se realiza la transformación de los regresores Z = XA, donde X es la matriz de los regresores, y A una matriz cuadrada de rango máximo. Calcular la estimación de los coeficientes del nuevo modelo Y = Zβ N +U en función de los antiguos. 65. Se ha estimado el siguiente modelo de regresión entre la variable y y los regresores x 1,x 2 y x 3, ŷ = logx logx logx 3, ŝ R = 5.49 Teniendo en cuenta que el número de observaciones es n = 60 y que (X T X) 1 = Dar un intervalo de confianza para los 4 parámetros de la ecuación de regresión y para la varianza del modelo (α = 0.05). 66. Se ha estimado un modelo de regresión múltiple para explicar el consumo de combustible de automóviles en función del peso, la potencia y el lugar de fabricación. La muestra es de 86 vehículos, de los cuales 31 son japoneses (J), 41 norteamericanos (N) y 14 europeos (E). ŷ = Pot Peso Z J Z E, ŝ 2 R = 0.506, R2 = 75.7% 4.791e e e e e e e e e e 2 (X T X) 1 = 3.794e e e e e e e e e e e e e e e 2 La variable dependiente, el consumo, está medida en litros cada 100 km, Pot es la potencia y está expresada en unidades de 100 Cv, el Peso en Toneladas, Z J toma el valor 1 si el coche es japonés y cero en los demás, y Z E toma el valor 1 para los coches europeos y cero en los demás. Realizar el contraste general de regresión y los contrastes individuales para el modelo anterior. Interpretar el resultado. 67. En una muestra de 31 árboles se ha medido la altura (x 1i ), el diámetro del árbol a un metro de altura sobre el suelo (x 2i ) y el volumen de madera del tronco (y i ) y se ha estimado el siguiente modelo de regresión log(y i ) = β 0 +β 1 log(x 1i )+β 2 log(x 2i )+u i. Los resultados se muestran en las tablas siguientes: 23
46 Análisis de regresión múltiple Variable dependiente: Log(Volumen) Regresor Estimación Desviación típica Estadístico t Nivel crítico Ordenada en el origen -6, , ,2917 0,0 Log(Altura) 1, , ,4644 0,0 Log(Diámetro) 1, , ,4316 0,0 Análisis de la varianza Fuente Suma de cuadrados G. de L. Varianzas Cociente F Nivel crítico Modelo 8, , ,19 0,0 Residual 0, ,00662 Total 8, Aproximando el volumen del árbol por el de un tronco cónico, el volumen debe ser proporcional a kx 1i x 2 2i y tomando logaritmos log(k)+log(x 1i )+2log(x 2i ). Realizar los siguientes contrastes de hipótesis con nivel de significación 0,05: { { H0 : β 1 = 1 H 0 : β 2 = 2 H 1 : β 1 1 H 1 : β En la tabla siguiente se presenta la estimación de la regresión entre el resultado en la prueba del salto de longitud de 34 atletas y los tiempos de estos mismos atletas en las pruebas de 100 metros lisos, 110 metros valla, 400 metros y 1500 metros. Coeficientes β i Desv. T. t p-valor Constante X 1 (100 m) X 2 (110 m) X 3 (400 m) -3.39E X 4 (1500 m) -4.47E La variabilidad total de los datos es 4.613, la variabilidad explicada y la variabilidad residual Realizar el contraste general de regresión, e interpretar el resultado del contraste y los contrastes individuales de la tabla. 24
DIPLOMADO EN RELACIONES LABORALES Estadística Asistida por Ordenador Curso 2008-2009
Índice general 6. Regresión Múltiple 3 6.1. Descomposición de la variabilidad y contrastes de hipótesis................. 4 6.2. Coeficiente de determinación.................................. 5 6.3. Hipótesis
SEMINARIOS. (Problemas de exámenes de años anteriores) Estadística. 1º Grado en Informática
SEMINARIOS (Problemas de exámenes de años anteriores) Estadística. 1º Grado en Informática Seminario de Estadística Descriptiva Unidimensional y Bidimensional 1. Se ha realizado un control de calidad en
Muestreo estadístico. Relación 2 Curso 2007-2008
Muestreo estadístico. Relación 2 Curso 2007-2008 1. Para tomar la decisión de mantener un determinado libro como texto oficial de una asignatura, se pretende tomar una muestra aleatoria simple entre los
ESTADISTICA II INGENIERIA INFORMATICA, 3 ER Curso
ESTADISTICA II INGENIERIA INFORMATICA, 3 ER Curso 3 - Septiembre - 2.6 Primera Parte - Test Las respuestas del TEST son las siguientes: Pregunta 2 3 4 5 6 Respuesta C A D C B A Pregunta 7 8 9 2 Respuesta
Experimentos con un solo factor: El análisis de varianza. Jhon Jairo Padilla Aguilar, PhD.
Experimentos con un solo factor: El análisis de varianza Jhon Jairo Padilla Aguilar, PhD. Experimentación en sistemas aleatorios: Factores Controlables Entradas proceso Salidas Factores No controlables
ESTIMACION POR INTERVALOS
ESTIMACION POR INTERVALOS En muchas situaciones, una estimación puntual no proporciona información suficiente sobre el parámetro. Por esta razón se construyen intervalos de confianza en donde el parámetro
Covarianza y coeficiente de correlación
Covarianza y coeficiente de correlación Cuando analizábamos las variables unidimensionales considerábamos, entre otras medidas importantes, la media y la varianza. Ahora hemos visto que estas medidas también
8.1. Introducción... 1. 8.2. Dependencia/independencia estadística... 2. 8.3. Representación gráfica: diagrama de dispersión... 3. 8.4. Regresión...
Tema 8 Análisis de dos variables: dependencia estadística y regresión Contenido 8.1. Introducción............................. 1 8.2. Dependencia/independencia estadística.............. 2 8.3. Representación
ESTUDIO PRELIMINAR DE ALGUNOS FACTORES INFLUYENTES EN EL RENDIMIENTO ACADÉMICO DE ALUMNOS DEL GRUPO EXECUTIVE FISIOTERAPIA
ESTUDIO PRELIMINAR DE ALGUNOS FACTORES INFLUYENTES EN EL RENDIMIENTO ACADÉMICO DE ALUMNOS DEL GRUPO EXECUTIVE FISIOTERAPIA Autores: Noemí Díaz Matas; Carlos Martín Saborido; Raquel Díaz-Meco Conde; Silvia
Tema 12: Contrastes Paramétricos
Tema 1 Tema 1: Contrastes Paramétricos Presentación y Objetivos. Se comienza este tema introduciendo la terminología y conceptos característicos de los contrastes de hipótesis, típicamente a través de
Indicaciones específicas para los análisis estadísticos.
Tutorial básico de PSPP: Vídeo 1: Describe la interfaz del programa, explicando en qué consiste la vista de datos y la vista de variables. Vídeo 2: Muestra cómo crear una base de datos, comenzando por
ANÁLISIS DE DATOS NO NUMERICOS
ANÁLISIS DE DATOS NO NUMERICOS ESCALAS DE MEDIDA CATEGORICAS Jorge Galbiati Riesco Los datos categóricos son datos que provienen de resultados de experimentos en que sus resultados se miden en escalas
6. DISEÑOS FACTORIALES 2 K NO REPLICADOS
6. DISEÑOS FACTORIALES 2 K NO REPLICADOS 6.1 INTRODUCCION El aumentar el numero de factores en un diseño 2 k crece rápidamente el numero de tratamientos y por tanto el numero de corridas experimentales.
Análisis de Regresión Múltiple con Información Cualitativa: Variables Binarias o Ficticias
Análisis de Regresión Múltiple con Información Cualitativa: Variables Binarias o Ficticias Carlos Velasco 1 1 Departamento de Economía Universidad Carlos III de Madrid Econometría I Máster en Economía
TEMA 2. FILOSOFÍA DE LOS GRÁFICOS DE CONTROL. Principios básicos de los gráficos de control. Análisis de patrones.
TEMA 2. FILOSOFÍA DE LOS GRÁFICOS DE CONTROL. Principios básicos de los gráficos de control. Análisis de patrones. La herramienta que nos indica si el proceso está o no controlado o Estado de Control son
ANÁLISIS DE VARIANZA EMPLEANDO EXCEL y WINSTATS
ANÁLISIS DE VARIANZA EMPLEANDO EXCEL y WINSTATS 1) INTRODUCCIÓN El análisis de varianza es una técnica que se puede utilizar para decidir si las medias de dos o más poblaciones son iguales. La prueba se
CORRELACIÓN Y PREDICIÓN
CORRELACIÓN Y PREDICIÓN 1. Introducción 2. Curvas de regresión 3. Concepto de correlación 4. Regresión lineal 5. Regresión múltiple INTRODUCCIÓN: Muy a menudo se encuentra en la práctica que existe una
Diseño Estadístico de Experimentos
Capítulo 3 Diseño Estadístico de Experimentos Una prueba o serie de pruebas en las cuales se introducen cambios deliberados en las variables de entrada que forman el proceso, de manera que sea posible
Metodología. del ajuste estacional. Tablero de Indicadores Económicos
Metodología del ajuste estacional Tablero de Indicadores Económicos Metodología del ajuste estacional Componentes de una serie de tiempo Las series de tiempo están constituidas por varios componentes que,
EXPERIMENTACIÓN. Eduardo Jiménez Marqués
EXPERIMENTACIÓN Eduardo Jiménez Marqués 1 CONTENIDO: 1. Experimentación...3 1.1 Concepto...3 1. Definición...4 1.3 Dificultad...4 1.4 Ventaja...5 1.5 Planificación...5 1.6 Aplicaciones...5 1.7 Metodología...6
PRUEBA DE KOLMOGOROV SMIRNOV (Contraste sobre la forma de la distribución) F(X) es la función de distribución que hipotetizamos.
PRUEBA DE KOLMOGOROV SMIRNOV (Contraste sobre la forma de la distribución) PRUEBAS NO PARAMÉTRICAS F(X) es la función de distribución que hipotetizamos. Fs(X) es la probabilidad o proporción teórica de
TEMA 4: Variables binarias
TEMA 4: Variables binarias Econometría I M. Angeles Carnero Departamento de Fundamentos del Análisis Económico Curso 2011-12 Econometría I (UA) Tema 4: Variables binarias Curso 2011-12 1 / 51 Variables
1 Ejemplo de análisis descriptivo de un conjunto de datos
1 Ejemplo de análisis descriptivo de un conjunto de datos 1.1 Introducción En este ejemplo se analiza un conjunto de datos utilizando herramientas de estadística descriptiva. El objetivo es repasar algunos
Test de hipótesis. Si H0 es cierta el estadístico. sigue una distribución t de Student con n grados de libertad: s n
Un diseño experimental que se utiliza muy a menudo es el de un grupo control y uno de tratamiento. En el caso de que los datos sean cuantitativos y sigan una distribución normal, la hipótesis de interés
ASOCIACIÓN LINEAL ENTRE VARIABLES CUANTITATIVAS: la correlación de Pearson
ASOCIACIÓN LINEAL ENTRE VARIABLES CUANTITATIVAS: la correlación de Pearson 3datos 2011 Análisis BIVARIADO de variables cuantitativas OBJETIVO DETERMINAR 1º) si existe alguna relación entre las variables;
EL ANÁLISIS DE LA VARIANZA (ANOVA) 1. Comparación de múltiples poblaciones
EL ANÁLISIS DE LA VARIANZA (ANOVA) 1. Comparación de múltiples poblaciones Ricard Boqué, Alicia Maroto Grupo de Quimiometría y Cualimetría. Universitat Rovira i Virgili. Pl. Imperial Tàrraco, 1. 43005Tarragona
CAPÍTULO IV METODOLOGÍA PARA EL CONTROL DE INVENTARIOS. En este capítulo se presenta los pasos que se siguieron para la elaboración de un sistema de
CAPÍTULO IV METODOLOGÍA PARA EL CONTROL DE INVENTARIOS En este capítulo se presenta los pasos que se siguieron para la elaboración de un sistema de inventarios para lograr un control de los productos.
Control Estadístico de Procesos
Control Estadístico de Procesos Gráficos de Control Los gráficos de control o cartas de control son una importante herramienta utilizada en control de calidad de procesos. Básicamente, una Carta de Control
Detergente Lavad.1 Lavad.2 Lavad.3 Media A 45 43 51 46.3 B 47 44 52 47.6 C 50 49 57 52 D 42 37 49 42.6. Media 46 43.2 52.2 47.16
3. DISEÑO EN BLOQUES ALEATORIZADOS En muchos experimentos además de que interesa investigar la influencia de un factor controlado sobre la variable de respuesta, como en la sección anterior, existe una
Curso Comparabilidad de resultados
Curso Comparabilidad de resultados Director: Gabriel A. Migliarino. Docente: Evangelina Hernández. Agenda Introducción. n. Protocolos iniciales de comparación de métodos. m * EP9-A2. CLSI. * Comparación
Tema 3. Comparaciones de dos poblaciones
Tema 3. Comparaciones de dos poblaciones Contenidos Hipótesis para la diferencia entre las medias de dos poblaciones: muestras pareadas Hipótesis para la diferencia entre las medias de dos poblaciones:
Estadística con Excel Informática 4º ESO ESTADÍSTICA CON EXCEL
1. Introducción ESTADÍSTICA CO EXCEL La estadística es la rama de las matemáticas que se dedica al análisis e interpretación de series de datos, generando unos resultados que se utilizan básicamente en
Capítulo 7: Distribuciones muestrales
Capítulo 7: Distribuciones muestrales Recordemos: Parámetro es una medida de resumen numérica que se calcularía usando todas las unidades de la población. Es un número fijo. Generalmente no lo conocemos.
REPASO CONCEPTOS BÁSICOS DE ESTADÍSTICA. DISTRIBUCIÓN NORMAL.
REPASO COCEPTOS BÁSICOS DE ESTADÍSTICA. DISTRIBUCIÓ ORMAL. Éste es un breve repaso de conceptos básicos de estadística que se han visto en cursos anteriores y que son imprescindibles antes de acometer
ANÁLISIS ESTADÍSTICO Calculadora Gráfica TI 83 Plus José Carlos Vega Vilca, Ph.D.
UNIVERSIDAD DE PUERTO RICO FACULTAD DE ADMINISTRACION DE EMPRESAS INSTITUTO DE ESTADISTICA ANÁLISIS ESTADÍSTICO Calculadora Gráfica TI 83 Plus, Ph.D. Presentación Este curso ofrece al estudiante, la posibilidad
1.1. Introducción y conceptos básicos
Tema 1 Variables estadísticas Contenido 1.1. Introducción y conceptos básicos.................. 1 1.2. Tipos de variables estadísticas................... 2 1.3. Distribuciones de frecuencias....................
3. ANÁLISIS ESTADÍSTICOS DE LAS PRECIPITACIONES EN EL MAR CASPIO
Análisis estadístico 31 3. ANÁLII ETADÍTICO DE LA PRECIPITACIONE EN EL MAR CAPIO 3.1. ANÁLII Y MÉTODO ETADÍTICO UTILIZADO 3.1.1. Introducción Una vez analizado el balance de masas que afecta al mar Caspio
Calculadora de Tamaño muestral GRANMO
Calculadora de Tamaño muestral GRANMO Versión 7.12 Abril 2012 http://www.imim.es/ofertadeserveis/software-public/granmo/ Entre las distintas ofertas que existen para el cálculo del tamaño muestral, ofrecemos
Problemas de Probabilidad resueltos.
Problemas de Probabilidad resueltos. Problema 1 El profesor Pérez olvida poner su despertador 3 de cada 10 dias. Además, ha comprobado que uno de cada 10 dias en los que pone el despertador acaba no levandandose
TEMA 4: Introducción al Control Estadístico de Procesos
TEMA 4: Introducción al Control Estadístico de Procesos 1 Introducción 2 Base estadística del diagrama de control 3 Muestreo y agrupación de datos 4 Análisis de patrones en diagramas de control 1. Introducción
ESTIMACIÓN. puntual y por intervalo
ESTIMACIÓN puntual y por intervalo ( ) Podemos conocer el comportamiento del ser humano? Podemos usar la información contenida en la muestra para tratar de adivinar algún aspecto de la población bajo estudio
Se podría entender como una matriz de filas y columnas. Cada combinación de fila y columna se denomina celda. Por ejemplo la celda A1, B33, Z68.
Departamento de Economía Aplicada: UDI de Estadística. Universidad Autónoma de Madrid Notas sobre el manejo de Excel para el análisis descriptivo y exploratorio de datos. (Descriptiva) 1 1 Introducción
La relación entre la altura de caída y el tiempo que tarda en rebotar 6 veces una pelota
La relación entre la altura de caída y el tiempo que tarda en rebotar 6 veces una pelota INTRODUCCIÓN En este experimento voy a relacionar el tiempo que tarda una pelota en rebotar 6 veces desde distintas
Clase 8: Distribuciones Muestrales
Clase 8: Distribuciones Muestrales Distribución Muestral La inferencia estadística trata básicamente con generalizaciones y predicciones. Por ejemplo, podemos afirmar, con base a opiniones de varias personas
VECTORES. Módulo, dirección y sentido de un vector fijo En un vector fijo se llama módulo del mismo a la longitud del segmento que lo define.
VECTORES El estudio de los vectores es uno de tantos conocimientos de las matemáticas que provienen de la física. En esta ciencia se distingue entre magnitudes escalares y magnitudes vectoriales. Se llaman
Inferencia Estadística
EYP14 Estadística para Construcción Civil 1 Inferencia Estadística El campo de la inferencia estadística está formado por los métodos utilizados para tomar decisiones o para obtener conclusiones sobre
Tema 5. Análisis de regresión (segunda parte) Estadística II, 2010/11
Tema 5 Análisis de regresión (segunda parte) Estadística II, 2010/11 Contenidos 5.1: Diagnóstico: Análisis de los residuos 5.2: La descomposición ANOVA (ANalysis Of VAriance) 5.3: Relaciones no lineales
Los modelos que permite construir el ANOVA pueden ser reducidos a la siguiente forma:
Ignacio Martín Tamayo 25 Tema: ANÁLISIS DE VARIANZA CON SPSS 8.0 ÍNDICE --------------------------------------------------------- 1. Modelos de ANOVA 2. ANOVA unifactorial entregrupos 3. ANOVA multifactorial
Decisión: Indican puntos en que se toman decisiones: sí o no, o se verifica una actividad del flujo grama.
Diagrama de Flujo La presentación gráfica de un sistema es una forma ampliamente utilizada como herramienta de análisis, ya que permite identificar aspectos relevantes de una manera rápida y simple. El
DETERMINACIÓN DEL VOLUMEN DE PEDIDO.
Lote económico de compra o Lote Optimo DETERMINACIÓN DEL VOLUMEN DE PEDIDO. Concepto que vemos en casi todos libros de aprovisionamiento, habitualmente la decisión de la cantidad a reaprovisionar en las
ESTADISTICA II. INGENIERIA INFORMATICA, 3 ER Curso
ESTADISTICA II INGENIERIA INFORMATICA, 3 ER Curso 26 - Junio - 2.8 Primera Parte - Test Nota : En la realización de este examen sólo esta permitido utilizar calculadoras que, a lo sumo, tengan funciones
Parámetros con la ventana de selección de usuario, reglas, texto y descomposición (IVE)
QUÉ SON CONCEPTOS PARAMÉTRICOS? Los conceptos paramétricos de Presto permiten definir de una sola vez una colección de conceptos similares a partir de los cuales se generan variantes o conceptos derivados
TEMA 5 ESTUDIOS CORRELACIONALES.
TEMA 5 ESTUDIOS CORRELACIONALES. 1. INTRODUCCIÓN. 2. CONCEPTO DE CORRELACIÓN. 3. CASOS EN LOS QUE SE UTILIZA LA INVESTIGACIÓN CORRELACIONAL. 4. LIMITACIONES DE LOS ESTUDIOS CORRELACIONALES 1 1. INTRODUCCIÓN.
Este documento enumera los diferentes tipos de Diagramas Matriciales y su proceso de construcción. www.fundibeq.org
DIAGRAMA MATRICIAL 1.- INTRODUCCIÓN Este documento enumera los diferentes tipos de Diagramas Matriciales y su proceso de construcción. Muestra su potencial, como herramienta indispensable para la planificación
15 ESTADÍSTICA BIDIMENSIONAL
ESTADÍSTICA BIDIMENSINAL EJERCICIS PRPUESTS. Copia y completa la siguiente tabla. A B C Total A B C Total a 4 b c 0 7 Total 7 6 a 4 b c 4 3 0 7 Total 7 6 3 6 a) Qué porcentaje de datos presentan la característica
DE VIDA PARA EL DESARROLLO DE SISTEMAS
MÉTODO DEL CICLO DE VIDA PARA EL DESARROLLO DE SISTEMAS 1. METODO DEL CICLO DE VIDA PARA EL DESARROLLO DE SISTEMAS CICLO DE VIDA CLÁSICO DEL DESARROLLO DE SISTEMAS. El desarrollo de Sistemas, un proceso
Test de Idioma Francés. Manual del evaluador
Test de Idioma Francés Manual del evaluador 1 CONTENIDO Introducción Qué mide el Test de idioma francés? Qué obtienen el examinado y el examinador? Descripción de los factores Propiedades psicométricas
Análisis de los datos
Universidad Complutense de Madrid CURSOS DE FORMACIÓN EN INFORMÁTICA Análisis de los datos Hojas de cálculo Tema 6 Análisis de los datos Una de las capacidades más interesantes de Excel es la actualización
Solución ESTADÍSTICA. Prueba de evaluación contínua 2 - PEC2
Semestre set04 - feb05 Módulos 11-17 Prueba de evaluación contínua 2 - PEC2 Solución Presentación i objetivos Enunciados: descripción teórica de la práctica a realizar Materiales Criterios de evaluación
FISICA I Escuela Politécnica de Ingeniería de Minas y Energía AJUSTE POR MÍNIMOS CUADRADOS
AJUSTE POR MÍNIMOS CUADRADOS Existen numerosas leyes físicas en las que se sabe de antemano que dos magnitudes x e y se relacionan a través de una ecuación lineal y = ax + b donde las constantes b (ordenada
Algunas Distribuciones de Probabilidad
Relación de problemas 7 Algunas Distribuciones de Probabilidad 1. En un hospital se ha comprobado que la aplicación de un tratamiento en enfermos de cirrosis produce una cierta mejoría en el 80 % de los
EL DISEÑO FACTORIAL COMPLETO 2 k
EL DISEÑO FACTORIAL COMPLETO 2 k Joan Ferré Grupo de Quimiometría y Cualimetría Departamento de Química Analítica y Química Orgánica Universidad Rovira i Virgili (Tarragona) INTRODUCCIÓN En el primer artículo
ÍNDICE 1. INTRODUCCIÓN... 4 2. PARTICIPANTES... 5. 2.1. Participantes por sector... 5. 2.2. Participantes por edad... 6
INFORME DE RESULTADOS DEL ESTUDIO DE SATISFACCIÓN DE USUARIOS UNIVERSIDAD DE ALMERÍA 2012 SERVICIO DE PLANIFICACIÓN, EVALUACIÓN Y CALIDAD CALIDAD DE LOS SERVICIOS ENERO 2013 ÍNDICE 1. INTRODUCCIÓN...
capitulo3 MARCO TEÓRICO Para el diseño de la reubicación de los procesos se hará uso de la Planeación
capitulo3 MARCO TEÓRICO Para el diseño de la reubicación de los procesos se hará uso de la Planeación Sistemática de Layout, SLP por sus siglas en inglés. Se hará uso de la simulación para comparar el
Evaluación de la capacidad óptima de medida y alcance de la acreditación de un laboratorio de calibración
Evaluación de la capacidad óptima de medida y alcance de la acreditación de un laboratorio de calibración Fernández Pareja, Mª Teresa [email protected] Departamento de Ingeniería Topográfica y Cartografía
Cómo preparar una licitación con Presto
Cómo preparar una licitación con Presto Especialmente en entornos internacionales El objetivo de este documento/webinar es describir el proceso que puede seguir una empresa constructora para preparar una
MEDICION DEL TRABAJO
MEDICION DEL TRABAJO Habíamos dicho al comenzar el curso que habían 4 técnicas que permiten realizar una medición del trabajo 1 Técnicas Directas: - Estudio de tiempos con cronómetro - Muestreo del trabajo
TEMA 5 VALIDEZ DE LA INVESTIGACIÓN (II): Validez de conclusión estadística
TEMA 5 VALIDEZ DE LA INVESTIGACIÓN (II): Validez de conclusión estadística 1 TAMAÑO DEL EFECTO 2 TAMAÑO DEL EFECTO vel tamaño del efecto es el nombre dado a una familia de índices que miden la magnitud
REGRESION simple. Correlación Lineal:
REGRESION simple Correlación Lineal: Dadas dos variable numéricas continuas X e Y, decimos que están correlacionadas si entre ambas variables hay cierta relación, de modo que puede predecirse (aproximadamente)
Contenido: CARTAS DE CONTROL. Cartas de control C Cartas de control U Cartas de control P Cartas de control NP DIAGRAMA DE PARETTO HISTOGRAMAS
Contenido: CARTAS DE CONTROL Cartas de control C Cartas de control U Cartas de control P Cartas de control NP DIAGRAMA DE PARETTO HISTOGRAMAS TEST DE MEDIANAS CEL: 72488950 1 Antes de querer utilizar cualquier
EJERCICIOS DE MATEMÁTICAS I HOJA 4. Ejercicio 1. Se consideran los vectores
EJERCICIOS DE MATEMÁTICAS I HOJA 4 Ejercicio 1. Se consideran los vectores u 1 = (1, 1, 0, 1), u 2 = (0, 2, 1, 0), u 3 = ( 1, 1, 1, 1), u 4 = (2, 2, 1, 0) de R 4. Expresa, si es posible, los vectores u
Control interno de los métodos de análisis
Aseguramiento de la Calidad Control interno de los métodos de análisis Universidad Nacional Sede Medellín Facultad de Ciencias Escuela de Geociencias Orlando Ruiz Villadiego, Químico MSc. Coordinador Laboratorio
PRÁCTICA 4. Ingeniería Técnica Industrial (2º) - Mecánica.
PRÁCTICA 4. Ingeniería Técnica Industrial (2º) - Mecánica. Profesores: Javier Faulín y Francisco Ballestín 1. Introducción. El objetivo de esta parte es obtener resultados sobre contrastes de hipótesis
MANUAL DE PROCEDIMIENTO PARA LA INSTALACION Y CONTROL DE ECO-CAR
MANUAL DE PROCEDIMIENTO PARA LA INSTALACION Y CONTROL DE ECO-CAR A/ INSTALACION. Para una óptima instalación del dispositivo Eco-car se deben observar las siguientes pautas: 1.- El dispositivo debe estar
Guía de Preparación de Muestras para PLASTICOS para el Software de Formulación de Datacolor
Guía de Preparación de Muestras para PLASTICOS para el Software de Formulación de Datacolor 1. Generalidades 2. Qué se necesita para comenzar? 3. Qué hacer para sistemas opacos y translúcidos? 4. Qué hacer
BASES Y DIMENSIÓN. Propiedades de las bases. Ejemplos de bases.
BASES Y DIMENSIÓN Definición: Base. Se llama base de un espacio (o subespacio) vectorial a un sistema generador de dicho espacio o subespacio, que sea a la vez linealmente independiente. β Propiedades
Circuito RC, Respuesta a la frecuencia.
Circuito RC, Respuesta a la frecuencia. A.M. Velasco (133384) J.P. Soler (133380) O.A. Botina (13368) Departamento de física, facultad de ciencias, Universidad Nacional de Colombia Resumen. Se armó un
Apuntes de Matemática Discreta 9. Funciones
Apuntes de Matemática Discreta 9. Funciones Francisco José González Gutiérrez Cádiz, Octubre de 004 Universidad de Cádiz Departamento de Matemáticas ii Lección 9 Funciones Contenido 9.1 Definiciones y
Tema 2. Espacios Vectoriales. 2.1. Introducción
Tema 2 Espacios Vectoriales 2.1. Introducción Estamos habituados en diferentes cursos a trabajar con el concepto de vector. Concretamente sabemos que un vector es un segmento orientado caracterizado por
Se ha visto anteriormente que la correlación entre dos variables puede ser alta a pesar de que la relación entre las dos sea fuertemente no lineal.
Análisis de los residuos Se ha visto anteriormente que la correlación entre dos variables puede ser alta a pesar de que la relación entre las dos sea fuertemente no lineal. Se pueden utilizar los residuos
Introducción a la Econometría (LE y LADE, mañana) Prof. Magdalena Cladera ANÁLISIS DE REGRESIÓN CON EXCEL Y SPSS
Introducción a la Econometría (LE y LADE, mañana) Prof. Magdalena Cladera ANÁLISIS DE REGRESIÓN CON EXCEL Y SPSS ESTIMACIÓN DE UN MODELO DE REGRESIÓN LINEAL CON EXCEL La Herramienta para análisis Regresión
DEFORMACION DEL ACERO DEFORMACION = CAMBIOS DIMENSIONALES+CAMBIOS ENLA FORMA
DEFORMACION DEL ACERO DEFORMACION = CAMBIOS DIMENSIONALES+CAMBIOS ENLA FORMA Según la norma DIN 17014, el término deformación se define como el cambio dimensional y de forma de un pieza del producto de
Matemáticas 2º BTO Aplicadas a las Ciencias Sociales
Matemáticas 2º BTO Aplicadas a las Ciencias Sociales CONVOCATORIA EXTRAORDINARIA DE JUNIO 2014 MÍNIMOS: No son contenidos mínimos los señalados como de ampliación. I. PROBABILIDAD Y ESTADÍSTICA UNIDAD
ANÁLISIS DESCRIPTIVO CON SPSS
ESCUELA SUPERIOR DE INFORMÁTICA Prácticas de Estadística ANÁLISIS DESCRIPTIVO CON SPSS 1.- INTRODUCCIÓN Existen dos procedimientos básicos que permiten describir las propiedades de las distribuciones:
Puedes descargar este examen en pdf desde esta dirección (busca el enlace Dropbox en la parte inferior de la página):
Univ. de Alcalá. Estadística 2014-15 Dpto. de Física y Matemáticas Grado en Biología. Examen final. Miércoles, 21 de Enero de 2015. Apellidos: Nombre: INSTRUCCIONES (LEER ATENTAMENTE). Puedes descargar
Nombre...Apellidos... Grado en:...grupo:...
ESTADÍSTICA E INTRODUCCIÓN A LA ECONOMETRÍA - Soluciones Estadística- Curso 01/1. 9 de Julio de 01 Nombre...Apellidos... Grado en:...grupo:... 1. Considera la variable aleatoria (v.a.) X cuyos posibles
x 10000 y 8000 x + y 15000 a) La región factible asociada a las restricciones anteriores es la siguiente: Pedro Castro Ortega lasmatematicas.
Pruebas de Acceso a Enseñanzas Universitarias Oficiales de Grado (PAEG) Matemáticas aplicadas a las Ciencias Sociales II - Septiembre 2012 - Propuesta A 1. Queremos realizar una inversión en dos tipos
SISTEMA MONOFÁSICO Y TRIFÁSICO DE C.A Unidad 1 Magnetismo, electromagnetismo e Inducción electromagnética.
SISTEMA MONOFÁSICO Y TRIFÁSICO DE C.A Unidad 1 Magnetismo, electromagnetismo e Inducción electromagnética. A diferencia de los sistemas monofásicos de C.A., estudiados hasta ahora, que utilizan dos conductores
aplicado al Experiencia La gestión de un servicio y, por ende, la
EN PORTADA 6 Sigma aplicado al Experiencia En este artículo vamos a dar una visión más particular sobre la aplicabilidad de 6 Sigma al sector Servicios. Existe abundante literatura al respecto, pero sobre
Control Estadístico del Proceso. Ing. Claudia Salguero Ing. Alvaro Díaz
Control Estadístico del Proceso Ing. Claudia Salguero Ing. Alvaro Díaz Control Estadístico del Proceso Es un conjunto de herramientas estadísticas que permiten recopilar, estudiar y analizar la información
Métodos estadísticos y numéricos Contraste de hipótesis pag. 1 PROBLEMAS RESUELTOS DE CONTRASTE DE HIPÓTESIS
Métodos estadísticos y numéricos Contraste de hipótesis pag. 1 PROBLEMA REUELTO DE CONTRATE DE HIPÓTEI 1 Un investigador quiere contrastar si el peso medio de ciertas hortalizas está en los 1,9 Kg. que
Análisis de la Varianza (ANOVA) de un factor y test a posteriori.
Análisis de la Varianza (ANOVA) de un factor y test a posteriori. Ejercicios Temas 8 y 9 (Resuelto) 1. Problema 5 Se quiere estudiar el efecto de distintas dosis de un medicamento para combatir a los parásitos
Matrices equivalentes. El método de Gauss
Matrices equivalentes. El método de Gauss Dada una matriz A cualquiera decimos que B es equivalente a A si podemos transformar A en B mediante una combinación de las siguientes operaciones: Multiplicar
UNIVERSIDADES DE ANDALUCÍA PRUEBA DE ACCESO A LA UNIVERSIDAD OPCIÓN A
OPCIÓN A (3 puntos) Una imprenta local edita periódicos y revistas. Para cada periódico necesita un cartucho de tinta negra y otro de color, y para cada revista uno de tinta negra y dos de color. Si sólo
Media vs mediana vs moda Cual medida de tendencia central es mas adecuada? MEDIA conveniencias:
Iniciar con las interpretaciones de las medidas MEDIA VS MEDIANA VS MODA CUAL ES LA MEDIDA ADECUADA TAREA MEDIA PONDERADA Actividad de Medidas de Localización Problema 1. El problema de las tasas de delito.
Capítulo 15. Análisis de varianza factorial El procedimiento Modelo lineal general: Univariante
Capítulo 15 Análisis de varianza factorial El procedimiento Modelo lineal general: Univariante Los modelos factoriales de análisis de varianza (factorial = más de un factor) sirven para evaluar el efecto
ANÁLISIS DE LA VARIANZA (ANOVA) José Vicéns Otero Ainhoa Herrarte Sánchez Eva Medina Moral
ANÁLISIS DE LA VARIANZA (ANOVA) José Vicéns Otero Ainhoa Herrarte Sánchez Eva Medina Moral Enero 2005 1.- INTRODUCCIÓN En múltiples ocasiones el analista o investigador se enfrenta al problema de determinar
ORGANIZACIÓN INDUSTRIAL (16691-ECO) PARTE II: MODELOS DE COMPETENCIA IMPERFECTA TEMA 2: EL MONOPOLIO SOLUCIÓN A LOS PROBLEMAS PROPUESTOS
ORGANIZACIÓN INDUSTRIAL (16691-ECO) PARTE II: MODELOS DE COMPETENCIA IMPERFECTA TEMA 2: EL MONOPOLIO 2.1 ANÁLISIS DE EQUILIBRIO 2.2. DISCRIMINACIÓN DE PRECIOS Y REGULACIÓN SOLUCIÓN A LOS PROBLEMAS PROPUESTOS
ANÁLISIS DE DATOS CONTROL DE CALIDAD. Ing. Carlos Brunatti
ANÁLISIS DE DATOS CONTROL DE CALIDAD Ing. Carlos Brunatti Montevideo, ROU, junio 2015 Control de calidad No resulta sorprendente que el hormigón sea un material variable, pues hay muchos factores involucrados
Validación de métodos de ensayo
Validación de métodos de ensayo Validación verificación de que los requisitos especificados son adecuados para un uso determinado Ejemplo: Un procedimiento de medición ordinariamente usado para la medición
