Análisis de la varianza de un factor

Documentos relacionados
Estadísticos muéstrales

H 0 : La distribución poblacional es uniforme H 1 : La distribución poblacional no es uniforme

Lo que nos interesa en el análisis de varianza de una vía es extender el test t para dos muestras independientes, para comparar más de dos muestras.

Modelos unifactoriales de efectos aleatorizados

Tema 1.3_A La media y la desviación estándar

A. Una pregunta muy particular que se puede hacer a una distribución de datos es de qué magnitud es es la heterogeneidad que se observa.

EJERCICIO 1 1. VERDADERO 2. VERDADERO (Esta afirmación no es cierta en el caso del modelo general). 3. En el modelo lineal general

EXPERIMENTOS ANIDADOS O JERARQUICOS NESTED

Problemas donde intervienen dos o más variables numéricas

EXPERIMENTACIÓN COMERCIAL(I)

LECTURA 06: MEDIDAS DE TENDENCIA CENTRAL (PARTE I) LA MEDIA ARITMÉTICA TEMA 15: MEDIDAS ESTADISTICAS: DEFINICION Y CLASIFICACION

ESTADÍSTICA UNIDIMENSIONAL

Análisis de la Varianza de dos factores con replicaciones: Caso Balanceado (Scheffé, 1959)

Efectos fijos o aleatorios: test de especificación

ESTADÍSTICA. Definiciones

MUESTREO EN POBLACIONES FINITAS

Tema 3. Estadísticos univariados: tendencia central, variabilidad, asimetría y curtosis

Análisis de Varianza no paramétricos

unidad 12 Estadística

Pruebas Estadísticas de Números Pseudoaleatorios

Tema 4: Variables aleatorias

PRÁCTICA 16: MODELO DE REGRESIÓN MÚLTIPLE SOLUCIÓN

2 Dos tipos de parámetros estadísticos

Tema 9. Análisis de Varianza de un factor. Análisis de la Varianza (ANOVA) Conceptos generales

Mª Dolores del Campo Maldonado. Tel: :

LECTURA N 06: MEDIDAS DE TENDENCIA CENTRAL (PARTE I) TEMA 14: MEDIDAS ESTADISTICAS: DEFINICION Y CLASIFICACION

Además podemos considerar diferentes tipos de medidas de resumen. Entre ellas tenemos:

ESTADISTÍCA. 1. Población, muestra e individuo. 2. Variables estadísticas. 3. El proceso que se sigue en estadística

PyE_ EF1_TIPO1_

INTRODUCCIÓN. Técnicas estadísticas

Ejemplo: Consumo - Ingreso. Ingreso. Consumo. Población 60 familias

UNED. DISEÑOS DE INVESTIGACIÓN Y ANÁLISIS DE DATOS [TEMA 5] Diseños con más de dos grupos independientes

MEDIDAS DESCRIPTIVAS

Histogramas: Es un diagrama de barras pero los datos son siempre cuantitativos agrupados en clases o intervalos.

Descripción de una variable

Tema 1: Estadística Descriptiva Unidimensional Unidad 2: Medidas de Posición, Dispersión y de Forma

Población: Es el conjunto de todos los elementos cuyo conocimiento nos interesa y serán objeto de nuestro estudio.

De factores fijos. Mixto. Con interacción Sin interacción. No equilibrado. Jerarquizado

Capítulo 12 CONTRASTES NO PARAMÉTRICOS

ESTADÍSTICA DESCRIPTIVA

Variables Aleatorias. Variables Aleatorias. Variables Aleatorias. Objetivos del tema: Al final del tema el alumno será capaz de:

Tema 3: Procedimientos de Constrastación y Selección de Modelos

Población: Es el conjunto de todos los elementos cuyo conocimiento nos interesa y serán objeto de nuestro estudio.

Tema 1: Análisis de datos unidimensionales

Estadística Descriptiva Análisis de Datos

Maestría en Administración. Medidas Descriptivas. Formulario e Interpretación. Dr. Francisco Javier Cruz Ariza

TEMA 3. VARIABLE ALEATORIA

ESTADÍSTICA (GRUPO 12)

Medidas de centralización

TRATAMIENTO DE LOS RESULTADOS ANALITICOS A- SIGNIFICADO DE LA MEDICION DE UNA MAGNITUD

Tema 8: DESIGUALDAD, Xisco Oliver Economía del Bienestar (2º GECO)

Riesgos Proporcionales de Cox

3. VARIABLES ALEATORIAS.

Reconocimiento de Locutor basado en Procesamiento de Voz. ProDiVoz Reconocimiento de Locutor 1

Análisis de Regresión y Correlación

CARTAS DE CONTROL. Han sido difundidas exitosamente en varios países dentro de una amplia variedad de situaciones para el control del proceso.

Dicha tabla adopta la forma del diagrama de árbol del dibujo. En éste, a cada uno de los sucesos A y A c se les ha asociado los sucesos B y B c.

FE DE ERRATAS Y AÑADIDOS AL LIBRO FUNDAMENTOS DE LAS TÉCNICAS MULTIVARIANTES (Ximénez & San Martín, 2004)

Análisis de Weibull. StatFolio de Muestra: Weibull analysis.sgp

CAPÍTULO 5 REGRESIÓN CON VARIABLES CUALITATIVAS

APLICACIÓN DEL ANALISIS INDUSTRIAL EN CARTERAS COLECTIVAS DE VALORES

EJERCICIOS. Ejercicio 1.- Para el modelo de regresión simple siguiente: Y i = βx i + ε i i =1,..., 100. se tienen las siguientes medias muestrales:

Cálculo y EstadísTICa. Primer Semestre.

PROBABILIDAD Y ESTADÍSTICA

Apéndice A: Metodología para la evaluación del modelo de pronóstico meteorológico

LECTURA 07: MEDIDAS DE TENDENCIA CENTRAL (PARTE II) LA MEDIANA Y LA MODA TEMA 17: LA MEDIANA Y LA MODA

Una renta fraccionada se caracteriza porque su frecuencia no coincide con la frecuencia de variación del término de dicha renta.

T. 9 El modelo de regresión lineal

VARIABLE ALEATORIA DISCRETA. DISTRIBUCIÓN BINOMIAL.

MODELOS DE ELECCIÓN BINARIA

Tema 8 - Estadística - Matemáticas CCSSI 1º Bachillerato 1

Oferta de Trabajo Parte 2. Economía Laboral Julio J. Elías LIE - UCEMA

6 Impacto en el bienestar de los beneficiarios del PAAM

Contraste de Hipótesis

NOMBRE Apellido Paterno Apellido Materno Nombre(s) Porcentaje de defectos producidos Máquina Porcentaje de producción

1 EY ( ) o de E( Y u ) que hace que g E ( Y ) sea lineal. Por ejemplo,

5.0 ESTADÍSTICOS PARA DATOS AGRUPADOS.

Muestra: son datos de corte transversal correspondientes a 120 familias españolas.

El análisis de la varianza de un factor es una extensión del test de t para dos muestras independientes, para comparar K muestras.

EJERCICIOS RESUELTOS TEMA 2

Análisis cuantitativo aplicado al Comercio Internacional y el Transporte

Diseño de la Muestra. Introducción. Tipo de muestreo y estratificación

Especialista en Estadística y Docencia Universitaria REGRESION LINEAL MULTIPLE

Métodos Estadísticos de la Ingeniería Tema 3: Medidas Estadísticas Grupo B

1. Lección 7 - Rentas - Valoración (Continuación)

Organización y resumen de datos cuantitativos

Pronósticos. Humberto R. Álvarez A., Ph. D.

Unidad 14: DISTRIBUCIONES DE PROBABILIDAD

Economía Aplicada. Estimador de diferencias en diferencias. Ver Wooldridge cap.13. Departamento de Economía Universidad Carlos III de Madrid 1 / 19

Tallerine: Energías Renovables

Bloque 2 Análisis de circuitos alimentados en corriente continua. Teoría de Circuitos

GERENCIA DE OPERACIONES Y PRODUCCIÓN DISEÑO DE NUEVOS PRODUCTOS Y SERVICIOS ESTRATEGIAS DE OPERACIONES

ESTADISTICA DESCRIPTIVA COMPETENCIAS

Vida Util, características de la Fiabilidad e Inviabilidad y distribuciones teóricas en el terreno de la fiabilidad

Variable aleatoria: definiciones básicas

Medidas de Tendencia Central y de Variabilidad

E.U.I.T.I. Bilbao. Asignatura: MÉTODOS ESTADÍSTICOS DE LA INGENIERÍA

Análisis estadístico de incertidumbres aleatorias

Métodos específicos de generación de diversas distribuciones discretas

ENCUESTA ESTRUCTURAL DE TRANSPORTE POR CARRETERA AÑO CONTABLE 2011 INSTITUTO NACIONAL DE ESTADÍSTICAS

Transcripción:

Análss de la varanza de un factor El test t de muestras se aplca cuando se queren comparar las medas de dos poblacones con dstrbucones normales con varanzas guales y se observan muestras ndependentes para cada poblacón. Ahora consderaremos una generalzacón para el caso en que se queren comparar tres o más medas. Ejemplo: En la tabla sguente se muestran los resultados obtendos en una nvestgacón acerca de la establdad de un reactvo fluorescente en dferentes condcones de almacenamento. Se conservaron tres muestras en cada una de 4 condcones. Supongamos (porque a veces puede ocurrr) que para una de las condcones, la medcón no pudo realzarse o se detectó una falla y fue elmnada. Los datos observados son:

Condcones Recentemente preparada Una hora en la oscurdad Una hora con luz tenue Una hora con luz brllante Medcones observadas (señales de fluorescenca) Meda Muestral 0 00 0 0 0 0 04 0 97 95 99 97 9 94 93 Mrando los promedos muestrales se ven dferencas y nos preguntamos s las condcones de almacenamento no nfluyeron sobre la fluorescenca de las muestras (ésta será nuestra H 0 ), cuál es la probabldad de que por smple azar se observen dferencas de esta magntud entre las medas muestrales?

Para generalzar podemos pensar que observamos muestras (en el ejemplo 4). Suponemos el sguente modelo: Modelo de muestras normales ndependentes con varanzas guales. Muestra : X, X,... X n v. a...d N(µ, σ )... Muestra :... Muestra : X,..., X X n v. a...d N(µ, σ ) X,..., X X n v. a...d N(µ, σ ) y asummos que las v. a. de una muestra son ndependentes de las v. a. de otra muestra. Llamaremos X y s a la meda y la varanza muestrales de la muestra,,...,. Vamos a testear: H 0 : µ µ... µ vs. H : exsten y j para los cuales µ µ j

Parece natural proponer un estmador de σ basado en un promedo ponderado de las varanzas de cada muestra s, tal como se hacemos con el s P cuando comparamos dos muestras. Se puede demostrar que el mejor estmador nsesgado de σ bajo el modelo anteror es: s p ( n ) * s +... + ( n )* s n +... + n ( n ) * s n SSW n () En la últma expresón hemos llamado al número total de observacones. n n Bajo la hpótess nula: H 0 : µ µ... µ todas las observacones tenen la msma dstrbucón.

Llamemos X n n X j j n n X a la meda general de todas las observacones. El estadístco para el test óptmo para este problema, tene al estmador de la varanza (dado por ()) en el denomnador y una medda de las dferencas (smlar a la varanca) entre las medas de las dstntas muestras en el numerador. Esta medda es: n ( X X ) SSB ()

El estadístco del test se obtene dvdendo () sobre (): n SS SS s X X n F W B p / / ) ( / ) ( (3) S H 0 fuera certa, el denomnador y el numerador serían parecdos, por lo tanto el cocente sería cercano a. S las medas poblaconales no son todas guales, como vmos en el gráfco, el numerador tende a ser mayor que el denomnador y por lo tanto, el cocente será mayor a.

Test F: er. paso: Calculo el estadístco F n ( X X ) s p / ( ) SS SS B W / / n Nota: S H 0 : µ µ... µ es certa, este estadístco tene dstrbucón F con - grados de lbertad en el numerador y n- grados de lbertad en el denomnador. De dónde surgen los grados de lbertad? Se puede demostrar, que s se satsfacen los supuestos del análss de varanza que hemos realzado, entonces: Bajo H 0 : ) SS W B ~ χ ) SS ~ n χ σ σ y además son ndependentes. do. paso: S F > F -,n-;α, rechazamos H 0.

Con frecuenca los resultados del Análss de Varanza se presentan una tabla como la que sgue: Análss de Varanza Fuente SS gl MS F Prob > F Between SSB - MSB SSB/- Wthn SSW n- MSW SSW/n- MSB/MSW Total SST n- MST SST/n-

Veamos como quedaría en nuestro ejemplo: Fuente gl SS MS F P ------- ---- --------- --------- ------ ------ BETWEEN 3.8 40.773 5.84 0.007 WITHIN 7 8.000.5743 TOTAL 0 40.8 Rechazamos la hpótess H 0 : µ µ µ 3 µ 4 al nvel 0.0, es decr las medas de la fluorescenca dferen sgnfcatvamente a este nvel. O dcho de otro modo: conclumos que la meda de la fluorescenca depende de las condcones de almacenamento. La pregunta ahora es: cuáles son las que dferen?

Comentaros sobre la tabla del análss de la varanza. Se puede demostrar que vale la sguente gualdad: n j ( X j X ) n ( X X ) + n j ( X j X ) En la expresón anteror aparecen tres sumas de cuadrados : suma de cuadrados entre grupos (SS B : Between ) suma de cuadrados dentro de grupos (SS W : Wthn) suma de cuadrados total (SS T : Total)

Suposcones del modelo. Dagnóstco. El test F ha sdo deducdo bajo el supuesto de que las muestras aleatoras tenen dstrbucón normal, con gual varanza y son ndependentes. Cuando el tamaño de la muestra de cada grupo es grande, el test F es váldo en forma aproxmada (el valor p calculado es aproxmado) aunque la varable no tenga dstrbucón exactamente normal. En la práctca no es esperable que el modelo se cumpla exactamente, pero sí en forma aproxmada. Al gual que con el test t, hay que analzar los datos para detectar s el modelo es aproxmadamente certo o s en cambo es falso.

Boxplots Paralelos Cuando hay una cantdad sufcente de observacones se pueden realzar boxplots paralelos de las observacones orgnales por tratamento. En el presente ejemplo, hay solo 3 y hasta observacones por caslla, con lo cual no parece muy razonable este gráfco. En su lugar podemos realzar un boxplot de los resduos todos juntos. Para cada observacón, el resduos r j se calcula como: r j X j X

El sguente gráfco muestra el boxplot correspondente a los resduos del ejemplo de fluorescenca: boxplot(salda$res) Los resduos parecen tener una dstrbucón smétrca y no se observan datos atípcos, por lo que no parece haber mportantes apartamentos de la normaldad.

QQ-plot y Test de Shapro-Wl en nuestro ejemplo qqnorm(salda$res) qqlne(salda$res)

shapro.test(salda$res) Shapro-Wl normalty test data: salda$res W 0.908, p-value 0.35 En nuestro ejemplo el estadístco del test de Shapro-Wl es 0.908 y el p-valor correspondente es de 0.35, con lo cual no rechazamos el supuesto de normaldad.

Tests para estudar s las varanzas son guales Para estudar la suposcón de gualdad de varanzas podemos grafcar y tambén se pueden realzar algunos tests. Respecto del gráfco podemos consderar un scatter-plot o dagrama de dspersón de los promedos muestrales versus los resduos. En el ejemplo de Fluorescenca resultaría: Se observan algunas dferencas en la dspersón de los resduos, pero no parece haber grandes apartamentos del supuesto de homoscedastcdad en este caso. Sn embargo, deberíamos aplcar un test para chequear este supuesto.

Respecto de tests exsten algunas alternatvas. Consderemos el modelo X j N(µ,σ ) (,...,; j,...,n ) ndependentes y la hpótess a testear será H 0 : σ σ... σ Hay varos tests. El más antguo es el test de Bartlett. Se basa en un estadístco que tene dstrbucón aproxmadamente χ - bajo H 0.

S hay muestras con tamaño n y varanzas de las muestras, como en nuestro problema, entonces estadístco de prueba de Bartlett, que se basa en una escala logarítmca, es: El numerador tende a dar valores grandes cuando las varanzas muestrales dferen mucho, por lo tanto se rechaza la hpótess nula de gualdad de varanzas cuando el estadístco es grande. La zona de rechazo es X >

bartlett.test(fluor,luz.f) Bartlett test of homogenety of varances data: FLUOR and luz.f Bartlett's K-squared 0.755, df 3, p-value 0.86 En nuestro ejemplo el estadístco del test de Bartlett es 0.755 con un p-valor de 0.86, por lo tanto no rechazamos el supuesto de homogenedad de varanzas Sn embargo, este test tene una alta sensbldad a la falta de normaldad. Por esta razón, es necesaro dsponer de alguna alternatva más resstente a la falta de normaldad.

Un test que es poco sensble a la falta de normaldad es el test de Modfcado de Levene. Para aplcarlo, prmero se calculan ~ d X X X ~ j j donde denota la medana del tratamento. Luego se calcula el estadístco F del análss de un factor a los d j. S la hpótess H: σ σ... σ es certa y los n no son muy pequeños, el estadístco tene dstrbucón aproxmadamente F con - y n- grados de lbertad. Esto permte aplcar un test aproxmado de la hpótess de gualdad de varanzas. Rechazamos la gualdad de varanzas s el estadístco toma un valor muy grande. medans<-tapply(fluor,luz.f,medan) abs.df<- abs(fluor-medans[luz.f]) summary(aov(abs.df~luz.f)) Df Sum Sq Mean Sq F value Pr(>F) luz.f 3 0.667 0. 0.67 0.96 Resduals 7 9.333.3333 Como el p-valor 0.96, no rechazamos el supuesto de homoscedastcdad.