Análisis de la varianza ANOVA

Documentos relacionados
TÉCNICAS ESTADÍSTICAS APLICADAS EN NUTRICIÓN Y SALUD

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

Teorema Central del Límite (1)

ANEXO I. ANÁLISIS DE LA VARIANZA.

Estructura de este tema. Tema 3 Contrastes de hipótesis. Ejemplo

Pruebas de Hipótesis Multiples

Contraste de hipótesis Tema Pasos del contraste de hipótesis. 1.1 Hipótesis estadísticas: nula y alternativa. 1.3 Estadístico de contraste

Tema 5. Contraste de hipótesis (I)

El análisis de la varianza de un factor es una extensión del test de t para dos muestras independientes, para comparar K muestras.

CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS

Tabla de Test de Hipótesis ( Caso: Una muestra ) A. Test para µ con σ 2 conocida: Suponga que X 1, X 2,, X n, es una m.a.(n) desde N( µ, σ 2 )

Pruebas de Hipótesis-ANOVA. Curso de Seminario de Tesis Profesor QF Jose Avila Parco Año 2016

A. PRUEBAS DE BONDAD DE AJUSTE: B.TABLAS DE CONTINGENCIA. Chi cuadrado Metodo G de Fisher Kolmogorov-Smirnov Lilliefords

478 Índice alfabético

CONTENIDO. Prólogo a la 3. a edición en español ampliada... Prólogo...

Tema 4: Probabilidad y Teoría de Muestras

INFERENCIA ESTADÍSTICA. Metodología de Investigación. Tesifón Parrón

ÍNDICE INTRODUCCIÓN... 21

Tipo de punta (factor) (bloques)

Contrastes de hipótesis paramétricos

Regresión con variables independientes cualitativas

INTRODUCCIÓN A LA ECONOMETRÍA (LE Y LADE, mañana) Prof. Magdalena Cladera APLICACIONES DE INFERENCIA ESTADÍSTICA DE EXCEL Y SPSS

1 Introducción. 2 Modelo. Hipótesis del modelo. MODELO DE REGRESIÓN MÚLTIPLE Julián de la Horra Departamento de Matemáticas U.A.M.

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua

Modelos Estocásticos I Tercer Examen Parcial Respuestas

CURSO: Métodos estadísticos de uso frecuente en salud

ESTADÍSTICA. Tema 4 Regresión lineal simple

ESTADÍSTICA DESCRIPTIVA

CAPÍTULO 10 ESTIMACIÓN POR PUNTO Y POR INTERVALO 1.- ESTIMACIÓN PUNTUAL DE LA MEDIA Y DE LA VARIANZA 2.- INTERVALO DE CONFIANZA PARA LA MEDIA

1.- Test de hipótesis de normalidad. 2.- Test de hipótesis para una proporción 6-1

Diseño de Bloques al azar. Diseño de experimentos p. 1/25

Estadística Descriptiva. SESIÓN 11 Medidas de dispersión

Intervalos de confianza y contrastes de hipótesis. Intervalo de confianza de la media.

Este procedimiento prueba hipótesis acerca de cualquiera de los siguientes parámetros:

Práctica 2: Intervalos de confianza y contrastes con SPSS 1

Tablas de estadística

Tema: ESTADÍSTICA DESCRIPTIVA BÁSICA CON SPSS 8.0

Esquema (1) Análisis de la Varianza y de la Covarianza. ANOVA y ANCOVA. ANOVA y ANCOVA 1. Análisis de la Varianza de 1 Factor

CONTRASTES DE HIPÓTESIS PARAMÉTRICOS. La estadística en cómic (L. Gonick y W. Smith)

CAPÍTULO IV TRABAJO DE CAMPO Y PROCESO DE CONTRASTE DE LAS HIPÓTESIS

Tema 4: Probabilidad y Teoría de Muestras

DISTRIBUCIONES BIDIMENSIONALES

EJERCICIOS DE ESTADÍSTICA:

INTERVALOS DE CONFIANZA. La estadística en cómic (L. Gonick y W. Smith)

UNIDAD 6. Estadística

PRUEBAS DE ACCESO A LA UNIVERSIDAD L.O.G.S.E

Se asignaron al azar ratas en condiciones similares a cuatro dietas (A D). Dos semanas después se midió el tiempo de coagulación.

SPSS: ANOVA de un Factor

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO. Facultad de Medicina Veterinaria y Zootecnia. Licenciatura en Medicina Veterinaria y Zootecnia

EJERCICIOS RESUELTOS DE ESTADÍSTICA II

Estadística con. Práctica 5: Intervalos de Conanza. Test de Hipótesis. Objetivo. 1. Intervalos y test (una sola muestra)

ANEXO 1. CONCEPTOS BÁSICOS. Este anexo contiene información que complementa el entendimiento de la tesis presentada.

Técnicas de validación estadística Bondad de ajuste

INFERENCIA ESTADISTICA

Estadística Avanzada y Análisis de Datos

ESTADÍSTICA APLICADA. PRÁCTICAS CON SPSS. TEMA 2

PRÁCTICA 3: Ejercicios del capítulo 5

ESTIMACIÓN PUNTUAL Julián de la Horra Departamento de Matemáticas U.A.M.

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos

Inclusión de la igualdad en la hipótesis nula

Reporte de Pobreza y Desigualdad DICIEMBRE 2015

Técnicas de validación estadística Bondad de ajuste

1 Introducción. 2 Modelo. Hipótesis del modelo MODELO DE REGRESIÓN LOGÍSTICA

ESTADISTICA APLICADA: PROGRAMA

BIOESTADÍSTICA - Posgrado en Ciencias de la Salud pag. 1 BIOESTADÍSTICA. Posgrado en Ciencias de la Salud. Curso

Sistemas de Ecuaciones Lineales y Matrices

Tema 1. Modelo de diseño de experimentos (un factor)

INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 29 de Abril de 2016

GUÍA DOCENTE DE LA ASIGNATURA ESTADÍSTICA APLICADA

Tema 2. Introducción a la Estadística Bayesiana

6. Estimación, DISTRIBUCIONES MUESTREO, Y PRUEBA DE

VARIABLES ALEATORIAS DISCRETAS

Objetivos del tema. Qué es una hipótesis? Test de Hipótesis Introducción a la Probabilidad y Estadística. Contrastando una hipótesis

Tema II. Las muestras y la teoría paramétrica

Práctica 6 ANÁLISIS DE DOS MUESTRAS

F (x, y) = no es la función de distribución acumulada de ningún vector aleatorio. b) Mostrar que. { (1 e x )(1 e y ) si x 0, y 0

Análisis de la Varianza de un Factor

Comparación de Varias Muestras

a. N(19 5, 1 2) P(19 X 21) = P( Z ) = = P = P P = = P P = P = = = El 55 72% no son adecuados.

CAPÍTULO 9 INTRODUCCIÓN AL ANÁLISIS DE LA VARIANZA

Habilidades Matemáticas. Alejandro Vera

b.- Realiza las comparaciones múltiples mediante los métodos LSD, Bonferroni y Tuckey.

CAPITULO 6. Análisis Dimensional y Semejanza Dinámica

INFERENCIAS CON STATISTIX

Máster en comunicaciones. Clase 2. Modelos predictores.

para una muestra Ref: Apuntes de Estadística, Mtra Leticia de la Torre Instituto Tecnológico de Chiuhuahua

A. Menéndez Taller CES 15_ Confiabilidad. 15. Confiabilidad

Conceptos Básicos de Inferencia

Técnicas Cuantitativas para el Management y los Negocios I

1º CURSO BIOESTADÍSTICA

a. Poisson: los totales marginales y el total muestral varían libremente.

proporciones y para la Estadística II Equipo Docente: Iris Gallardo Andrés Antivilo Francisco Marro

Práctica 9: Anova (2).

Reporte de Pobreza. Marzo 2016

INTERPRETACIÓN DE LA REGRESIÓN. Interpretación de la regresión

Distribución Chi (o Ji) cuadrada (χ( 2 )

Tema 1. El Modelo de Regresión Lineal con Regresores Aleatorios.

JUNIO Bloque A

2. Análisis de varianza

Tablas de contingencia y contrastes χ 2

Transcripción:

Estadística Básica. Mayo 2004 1 Análisis de la varianza ANOVA Francisco Montes Departament d Estadística i I. O. Universitat de València http://www.uv.es/~montes

Estadística Básica. Mayo 2004 2 Comparación de k medias

Estadística Básica. Mayo 2004 3 Estatura y voz Los datos de la tabla que sigue se han extraído de Hand, D. J., Daly, F., Lunn, A. D., McConway, K.J. y Ostrowski E. (1994) Small Data Sets. London: Chapman and Hall, p.276, y corresponden a las estaturas, expresadas en metros, de cantores masculinos de la Sociedad Coral de Nueva York. Los cantores se han agrupado según su tono de voz en orden decreciente de tonalidad (de Tenor 1 a Bajo 2). Se sospecha que las voces bajas corresponden a personas de mayor estatura.

Estadística Básica. Mayo 2004 4 Estatura y voz: los datos 1.75 1.83 1.80 1.68 1.93 1.88 1.80 1.68 1.73 1.70 Tenor 1 1.78 1.65 1.83 1.78 1.73 1.63 1.85 1.68 1.73 1.70 1.63 1.63 1.85 1.75 1.80 1.75 1.93 1.80 1.75 1.80 1.68 Tenor 2 1.75 1.80 1.80 1.80 1.75 1.78 1.75 1.73 1.78 1.73 1.75 1.83 1.78 1.83 1.75 1.85 1.80 1.83 1.73 1.73 1.80 Bajo 1 1.68 1.73 1.80 1.85 1.85 1.78 1.73 1.78 1.91 1.73 1.80 1.78 1.88 1.78 1.91 1.91 1.75 1.83 1.80 1.78 1.80 1.73 1.78 1.91 1.83 1.68 1.83 1.78 1.75 1.83 1.91 1.70 1.91 1.88 1.83 1.83 1.88 1.83 1.83 Bajo 2 1.88 1.78 1.68 1.73 1.91 1.73 1.78 1.83 1.70 1.78 1.78 1.75 1.83 1.80 1.88 1.91

Estadística Básica. Mayo 2004 5 Estatura y voz: un gráfico 1 - Tenor 1 2 - Tenor 2 3 - Bajo 1 4 - Bajo 2 - - - - media global o gran media media del grupo

Estadística Básica. Mayo 2004 6 Estatura y voz: hipótesis a contrastar Si µ i, i = 1,..., 4 designa la media de la población i, lo primero que debemos hacer es contrastar que dichas medias no son iguales, H 0 : µ 1 = µ 2 = µ 3 = µ 4, frente a H 1 : las medias son distintas. Obsérvese que H 1 puede significar muchas cosas, por ejemplo, µ 1 = µ 2 µ 3 = µ 4, µ 1 µ 2 = µ 3 = µ 4,...

Estadística Básica. Mayo 2004 7 Cómo contrastar la igualdad de k medias? Si empleamos el test de la t de Student para 2 muestras independientes hemos de efectuar ( 4 2) comparaciones, pero además hay un problema con el nivel de significación final. Si las 6 comparaciones condujeran a aceptar µ i = µ j con un nivel α = 0, 05, el nivel de significación para H 0 : µ 1 = µ 2 = µ 3 = µ 4, sería α = 0, 26. En general α = 1 (1 α) n, donde n es el número de comparaciones. k = 6 n = 15 α 0, 5

Estadística Básica. Mayo 2004 8 Una comparación simultánea: ANOVA Necesitamos poder comparar simultáneamente todas la medias. El test que lo permite es el test ANOVA (de ANalysis Of VAriance). Como su nombre indica, compara varianzas aunque lo que contrastamos sean medias. Para ello parte de 3 requisitos previos: Independencia: las k muestras son independientes, Normalidad: X i N(µ i, σ 2 i ), i = 1,..., k, y Homocedasticidad: σ 2 1 = σ 2 2 = = σ 2 k = σ2.

Estadística Básica. Mayo 2004 9 Fundamentos del ANOVA (1) k grupos 1 2 i k x 11 x 21 x i1 x k1 x 12 x 22 x i2 x k2.... x 1n1 x 2n2 x ini x knk medias x 1 x 2 x i x k varianzas s 2 1 s 2 2 s 2 i s 2 k

Estadística Básica. Mayo 2004 10 Fundamentos del ANOVA (2) El ANOVA se basa en la comparación de la variabilidad media que hay entre los grupos con la que hay dentro de los grupos. Por qué? Recordemos que la media y la varianza muestral verifican var( x) = σ2 n, E(s2 ) = σ 2, lo que nos permite dos estimaciones diferentes para σ 2 cuando disponemos de k muestras de una misma población, ˆσ 2 = s 2 = 1 k k i=1 s 2 i (1) y ˆσ 2 = ns 2 x = n k 1 k ( x i x) 2 (2) i=1

Estadística Básica. Mayo 2004 11 Fundamentos del ANOVA (3) En la tabla anterior, si las k muestras provienen de la misma población todas la medias son iguales, (H 0 es cierta) y tanto (1) como (2) son válidos. Qué ocurre cuando las medias no son iguales? Si suponemos que µ i = µ + α i entonces ns 2 x = ˆσ 2 + 1 k 1 k i=1 n i ˆα 2 i (3) Obsérvese que (1) describe la variabilidad dentro de los grupos, mientras que (2) y (3) describen la variabilidad entre los grupos.

Estadística Básica. Mayo 2004 12 El test del ANOVA Si la observación j-ésima del grupo i es de la forma las hipótesis X ij = µ i + ε ij, con µ i = µ + α i, H 0 : α i = 0, i µ i = µ, i, frente a H 1 : algún α i 0 las µ i son distintas, se contrastan mediante el cociente de varianzas F 0 = ns2 x s 2 = ˆσ2 + 1 k 1 k i=1 n i ˆα 2 i ˆσ 2 (4).

Estadística Básica. Mayo 2004 13 Comparación de varianzas Si X 1, X 2,..., X m y Y 1, Y 2,..., Y n son muestras independientes de N(µ 1, σ 2 1) y N(µ 2, σ 2 2), respectivamente, un test para comparar la igualdad de varianzas se basa en que el cociente corregido de varianzas muestrales, F = S2 1/σ 2 1 S 2 2 /σ2 2 = σ2 2 σ 2 1 S2 1 S 2 2, se distribuye como una F m 1,n 1, una F de Fisher con m 1 gl en el numerador y n 1 gl en el denominador.

Estadística Básica. Mayo 2004 14 La tabla ANOVA Todo se reduce a obtener el valor del estadístico (4) que bajo las condiciones iniciales de independencia, normalidad y homocedasticidad, se distribuye como una F k 1,n k. La comparación con el valor teórico correspondiente nos dirá si debemos aceptar o rechazar H 0. Un método computacional conocido como tabla ANOVA facilita los cálculos. Se trata de disponer en forma de tabla ciertas cantidades que conducen a la obtención de F. El método está incorporado en los paquetes estadísticos más habituales.

Estadística Básica. Mayo 2004 15 Estructura de la tabla ANOVA SS GL MS F Entre Dentro Total SS E = k i=1 ni j=1 ( x i x) 2 k 1 MS E = SS E k 1 = k i=1 n i( x i x) 2 SS D = k i=1 ni j=1 (x ij x i ) 2 n k MS D = SS D n a = k i=1 (n i 1)x 2 i SS T = k i=1 ni j=1 (x ij xi) 2 n 1 MS E MS D

Estadística Básica. Mayo 2004 16 Análisis de los datos de los tenores En primer lugar habrá que comprobar que los requisitos iniciales se cumplen. La independencia es el investigador quien debe garantizarla mediante una adecuada toma de muestras. La normalidad debe contrastarse mediante un test apropiado, por ejemplo el de Kolmogorv-Smirnov. La homocedasticidad debe también contrastarse con un test apropiado: el de la F o el de Levene.

Estadística Básica. Mayo 2004 17 Datos de los tenores: Flujo SPSS 1) GET DATA /TYPE=XLS /FILE= C:\directorio\datos /CELLRANGE=full /READNAMES=on. 2) SORT CASES BY voz. SPLIT FILE. SEPARATE BY voz. 3) NPAR TESTS /K-S(NORMAL)= estatura /MISSING ANALYSIS. 4) ONEWAY estatura BY voz /STATISTICS DESCRIPTIVES HOMOGENEITY /MISSING ANALYSIS.

Estadística Básica. Mayo 2004 18 Datos de los tenores: Prueba de Normalidad

Estadística Básica. Mayo 2004 19 Datos de los tenores: Comparación de medias

Estadística Básica. Mayo 2004 20 Datos de los tenores: Resultados Como el p-valor asociado al valor de F encontrado es menor que α = 0, 05, rechazamos la hipótesis nula y aceptamos que hay diferencias entre las medias de las estaturas de los 4 grupos. Si hubiéramos aceptado H 0 no habría más que añadir, pero en este caso las preguntas a intentar responder son entre que grupos hay diferencias? es posible establecer conjuntos homogéneos de medias?

Estadística Básica. Mayo 2004 21 Comparaciones múltiples Las respuestas a las anteriores preguntas exigen llevar a cabo todas las posibles comparaciones dos a dos, de las que hemos huido al principio. La llevaremos a cabo con métodos que corrigen los problemas que surgen con el nivel de significación final. ONEWAY estatura BY voz /STATISTICS HOMOGENEITY /MISSING ANALYSIS /POSTHOC = TUKEY SCHEFFE ALPHA(.05).

Resultados de las comparaciones múltiples Estadística Básica. Mayo 2004 22

Estadística Básica. Mayo 2004 23 Violación de las condiciones previas La normalidad previa de los datos es de menor importancia que la exigencia de homocedasticidad, porque el Teorema Central del Límite implica que las medias muestrales deben ser aproximadamente normales. Si la igualdad de varianzas no puede ser asumida, es posible llevar a cabo una transformación de los datos para conseguirla. Lo ilustraremos con un ejemplo

Estadística Básica. Mayo 2004 24 Veneno, tratamiento y tiempo de supervivencia La tabla recogen el tiempo de supervivencia (en unidades de 10 horas) de animales que fueron envenenados y se les administró un tratamiento.

Estadística Básica. Mayo 2004 25 Heterocedasticidad Definimos un factor único, Doce, y contrastamos la homogeneidad de las varianzas.

Estadística Básica. Mayo 2004 26 Estimación de la potencia La homogeneidad de varianzas puede conseguirse mediante una transformación de los datos del tipo y = x λ. El valor de λ nos lo proporciona el Gráfico de Estimación de la potencia del procedimiento Explorar en el SPSS.

Estadística Básica. Mayo 2004 27 Gráfico de la estimación de la potencia El resultado es el gráfico, que nos indica la transformación a realizar, λ 1 y = 1/x, se trataría por tanto de un índice de morbilidad.

Estadística Básica. Mayo 2004 28 Índice de morbilidad y homocedasticidad Definida la nueva variable,

Estadística Básica. Mayo 2004 29 Una alternativa no paramétrica: el test de Kruskal-Wallis En ocasiones las condiciones de normalidad y homocedasticidad no pueden asumirse. El test de Kruskal-Wallis es una alternativa no paramétrica al ANOVA.

Estadística Básica. Mayo 2004 30 Un ejemplo del test de Kruskal-Wallis NPAR TESTS /K-W=piezas BY máquina(1 3) /MISSING ANALYSIS.

Estadística Básica. Mayo 2004 31 Equivalencia entre el test t y el ANOVA (1) Si los grupos a comparar son 2 podemos recurrir al test de la t de Student y al ANOVA. Podemos encontrar resultados diferentes? No porque entre las distribuciones t de Student y F de Fisher existe la siguiente relación F 1,ν = t 2 ν, siendo ν = n 1 + n 2 2 el número de grados de libertad de la t de Student o del denominador de la F de Fisher.

Estadística Básica. Mayo 2004 32 Equivalencia entre el test t y el ANOVA (2) Veamos la comparación de la estaturas del Tenor 1 y Tenor 2.