CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS

Documentos relacionados
ESTADÍSTICA 1 o CC. Ambientales Tema 5: Contrastes de hipótesis no paramétricas

Distribuciones de parámetros conocidos

Tema 13: Contrastes No Paramétricos

Curso de Estadística con R: Nivel Medio

Técnicas de Inferencia Estadística II. Tema 3. Contrastes de bondad de ajuste

6. Inferencia con muestras grandes. Informática. Universidad Carlos III de Madrid

Caso particular: Contraste de homocedasticidad

TEMA Nº 2 CONTRASTE DE HIPÓTESIS EN LOS DISEÑOS DE UNA MUESTRA

Estadística Inferencial

10.5. Contraste de independencia de variables cualitativas

Contrastes basados en el estadístico Ji Cuadrado

Tema 7. Contrastes no paramétricos en una población

7. Inferencia Estadística. Métodos Estadísticos para la Mejora de la Calidad 1

CONTRASTES NO PARAMÉTRICOS: ALEATORIEDAD Y LOCALIZACIÓN

Inferencia Estadística

Podemos definir un contraste de hipótesis como un procedimiento que se basa en lo observado en las muestras y en la teoría de la probabilidad para

Estimación de Parámetros.

Técnicas de Inferencia Estadística II. Tema 5. Contrastes de homogeneidad

Tema 6: Introducción a la inferencia estadística Parte 1

Tema 10: Introducción a los problemas de Asociación y Correlación

Intervalo para la media si se conoce la varianza

Conceptos básicos de inferencia estadística (IV): Inferencia no paramétrica: Contrastes de aleatoriedad.

Tema 14: Inferencia estadística

Contrastes de hipótesis estadísticas. Contrastes paramétricos

Soluciones a los nuevos ejercicios propuestos

1 CÁLCULO DE PROBABILIDADES

Tema 6: Introducción a la inferencia estadística Parte 1

INFERENCIA PARÁMETRICA: RELACIÓN ENTRE DOS VARIABLES CUALITATIVAS

Conceptos básicos de inferencia estadística (III): Inferencia no paramétrica: Contrastes de bondad de ajuste.

Tema 8: Contrastes de hipótesis

INFERENCIA DE LA PROPORCIÓN

CONTRASTE DE HIPÓTESIS

Inferencia con una variable Tema 2

Estadística II. Prueba de bondad de ajuste Conceptos, aplicación

Pruebas de Hipótesis

Análisis de Correspondencias Simple

Tema 5: Introducción a la inferencia estadística

CONTRASTE DE HIPÓTESIS

CUESTIONES TEÓRICAS ESTADÍSTICA

U ED Tudela Diseños de investigación y análisis de datos - Tema 2

PRUEBA CHI-CUADRADO. Para realizar un contraste Chi-cuadrado la secuencia es:

Teorema Central del Límite (1)

Inferencia Estadística

Técnicas de Inferencia Estadística II. Tema 1. Contrastes de hipótesis

MATEMÁTICAS II PROBABILIDAD DISTRIBUCIÓN BINOMIAL DISTRIBUCIÓN NORMAL

Tema 7. Introducción Metodología del contraste de hipótesis Métodos no paramétricos

Tema 5: Muestreo sistemático

Técnicas de Inferencia Estadística II. Tema 6. Contrastes de independencia

CONTRASTES DE HIPÓTESES

ESTIMACIÓN Y PRUEBA DE HIPÓTESIS INTERVALOS DE CONFIANZA

Tema 9: Introducción al problema de la comparación de poblaciones

4. Prueba de Hipótesis

DISTRIBUCION DE FRECUENCIAS BIDIMENSIONALES RELACION DE DOS CARACTERES Relación entre variables cualitativas

Proyecto Tema 8: Tests de hipótesis. Resumen teórico

Unidad 15 Estadística inferencial. Estimación por intervalos. Pruebas de hipótesis

Contraste de Hipótesis

Técnicas de Inferencia Estadística II. Tema 4. Contrastes para la mediana y otros cuantiles

Tema 4. Regresión lineal simple

Tema 4: Otros Métodos de Análisis de Datos Cuantitativos y Cualitativos

Estrategia de análisis estadístico de los datos. Inferencia Estadística y contraste de hipótesis

INFERENCIA ESTADÍSTICA: CONTRASTES DE HIPÓTESIS

UNIVERSIDAD TECNICA PARTICULAR DE LOJA ESTADISTICA Y PROBABILIDAD ENSAYO N 8

TÉCNICAS ESTADÍSTICAS APLICADAS EN NUTRICIÓN Y SALUD

Estadística y sus aplicaciones en Ciencias Sociales 6. Prueba de hipótesis. Facultad de Ciencias Sociales, UdelaR

INFERENCIA ESTADÍSTICA

Técnicas de Inferencia Estadística II. Tema 1. Contrastes de hipótesis

Teoría de muestras. Distribución de variables aleatorias en el muestreo. 1. Distribución de medias muestrales

EXAMEN DE ESTADÍSTICA Septiembre 2011

Tema 9: Contraste de hipótesis.

Estadística. Para el caso de dos variables aleatorias X e Y, se puede mostrar que. Pero y son desconocidos. Entonces. covarianza muestral

Estadística Inferencia Estadística

ECONOMETRÍA I. Tema 4: El Modelo de Regresión Lineal Múltiple: inferencia y validación

Tema 3: Estimación estadística de modelos probabilistas. (primera parte)

Estadística II Tema 4. Regresión lineal simple. Curso 2009/10

TODO ECONOMETRIA. Bondad del ajuste Contraste de hipótesis

Tema 5.5: Contrastes de hipótesis

Curso de Estadística Aplicada a las Ciencias Sociales. Tema 12. Contraste de hipótesis. Introducción. Introducción

Estadística II Examen final junio - 17/06/16 Curso 2015/16 Soluciones Duración del examen: 2 h. y 45 min.

Prueba de Hipótesis. Una hipótesis estadística es un supuesto que se establece sobre las características de una distribución poblacional

Contrastes de hipótesis. 1: Ideas generales

Problemas resueltos. Tema 12. 2º La hipótesis alternativa será que la distribución no es uniforme.

Transcripción:

CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS 1

POR QUÉ SE LLAMAN CONTRASTES NO PARAMÉTRICOS? A diferencia de lo que ocurría en la inferencia paramétrica, ahora, el desconocimiento de la población que vamos a estudiar no se reduce al valor de un parámetro poblacional, sino que es mucho más amplio. Las hipótesis que contrastaremos no hacen referencia a parámetros poblacionales. 2

TESTS c 2 Su nombre se debe a que el estadístico que se usará para realizar el contraste tendrá, aproximadamente, una distribución c 2 de Pearson. 1. Bondad del ajuste (Caso I y Caso II) 2. Test de Homogeneidad 3. Test de Independencia 3

CONTRASTE DE BONDAD DEL AJUSTE (I) SITUACIÓN: X es una variable aleatoria poblacional con distribución desconocida. Extraemos una m.a.s. de la población (X 1,,X n ). A la vista de la muestra, es razonable admitir que X sigue la distribución F 0? H 0 : X sigue la distribución F 0 H a : X no sigue la distribución F 0 Distribución teórica 4

PASOS A SEGUIR: PASO 1: Hacer una partición (arbitraria) del espacio muestral (posibles valores de X) en k clases A 1,,A k. PASO 2: Calcular las siguientes frecuencias absolutas para i=1,,k. O i = frecuencia observada en A i = número de elementos de la m.a.s (x 1,,x n ) que se han situado en la clase A i e i = frecuencia esperada en A i si H 0 es cierta = np(a i ) O i (e i ) A 1.. A k O 1 O k (e 1 ) (e k ) n e i es la esperanza de una B(n,P(A i )) 5

PASO 3: Utilizar el estadístico l de Pearson nº de clases Mide la discrepancia entre las frecuencias observadas y las esperadas, si se supone cierta H 0 si n es grande y H 0 es cierta Observación: Si H 0 es cierta, es de esperar que las frecuencias observadas y las esperadas sean parecidas, por lo que si efectivamente H 0 es cierta, el estadístico l debería de tomar valores próximos a cero. 6

Consecuencia: Rechazaremos la hipótesis nula cuando los valores del estadístico l de Pearson sean grandes, y la aceptaremos cuando sean pequeños. La separación entre valores grandes y pequeños viene dada por la elección de un nivel de significación a. Región crítica: C = {l>c 2 k-1,a} Nota: Por comodidad, normalmente se usa la siguiente expresión, equivalente a la ya dada, para calcular el valor de l: 7

EJEMPLO 1: Para comprobar si un dado está o no cargado, se lanzó 600 veces, con los siguientes resultados: 1 2 3 4 5 6 Total O i 103 98 89 109 100 101 600 A la vista de estos datos, podemos afirmar si el dado está cargado o no? H 0 : El dado no está cargado H a : El dado está cargado A i ={i}, i=1,,6 P(A i )=1/6 8

1 2 3 4 5 6 Total O i (e i ) 103 (100) 98 (100) 89 (100) 109 (100) 100 (100) 101 (100) 600 np(a i ) n Tomamos a = 0.05 Aceptamos H 0 con un nivel de significación 0.05, es decir, a la vista de estos datos, no podemos afirmar que el dado esté cargado. Confirma la decisión de aceptar H 0 9

EJEMPLO 2: Se quiere averiguar si el número de hijos por matrimonio, X, en cierta población sigue una distribución binomial de parámetros 3 y 0.5. Para ello se encuestó a 100 matrimonios obteniéndose los siguientes resultados: X 0 1 2 3 O i 22 42 28 8 100 Qué podemos afirmar a la vista de estos datos? H 0 : X sigue una B(3,0.5) H a : X no sigue una B(3,0.5) A i ={i-1}, i=1,,4 P(X=0)=0.125 P(X=1)=0.375 P(X=2)=0.375 P(X=3)= 0.125 10

X 0 1 2 3 O i (e i ) 22 (12.5) 42 (37.5) 28 (37.5) 8 (12.5) 100 Rechazamos que X siga una binomial de parámetros 3 y 0.05 11

BONDAD DEL AJUSTE:CASO 2 En ocasiones queremos averiguar si los datos se ajustan a un determinado tipo de distribución pero sin precisar los valores de los parámetros que la caracterizan. Así por ejemplo, para realizar muchos de los contrastes del tema anterior, necesitamos saber si la variable poblacional sigue una distribución normal. Por lo tanto, debemos contrastar la normalidad de los datos, pero sin precisar la media y la varianza poblacionales. 12

DOS DIFERENCIAS Trabajamos con los estimadores de máxima verosimilitud. Calculamos las frecuencias esperadas si los estimadores fueran los autenticos CUIDADO: Si usamos los mismos datos muestrales para estimar r parámetros poblacionales desconocidos y para realizar el contraste de bondad del ajuste, el estadístico l de Pearson se aproxima a una c 2 k-1-r en lugar de a una c 2 k-1. 13

EJEMPLO 3: Al digitalizar 300 imágenes se ha obtenido la siguiente distribución de frecuencias absolutas del tamaño en Kb del fichero correspondiente: X 36-38 38-40 40-42 42-44 44-46 46-48 48-50 50-52 52-54 54-56 O i 6 9 33 48 54 57 45 30 12 6 300 Podemos afirmar, a la vista de estos datos, que X sigue una distribución normal? ˆ 3.88 H 0 : X sigue una N H a : X no sigue una N 14

X <38 38-40 40-42 42-44 44-46 46-48 48-50 50-52 52-54 54 O i (e i ) 6 (5.9) 9 (12.3) 33 (27.3) 48 (45) 54 (59.5) 57 (59.5) 45 (45) 30 (27.3) 12 (12.3) 6 (5.9) 300 P(X<38)=P(Z<(38-46)/3.88)=P(Z<-2.06)=0.0197 e 1 =0.0197*300=5.9 10-1-2=7 c 2 7,0.01 12.017 Aceptamos al nivel 0.01 15

CONSIDERACIONES ADICIONALES PRIMERA: - Para que l se aproxime a una c 2, además de que el tamaño muestral sea grande, las frecuencias esperadas no pueden ser muy pequeñas. - Por norma se requiere que e i 5 para el 20% de las clases i=1,,k 16

SEGUNDA: -Cuando ni la estructura del problema, ni la agrupación de las observaciones muestrales, nos sugieran las clases A 1,,A k más adecuadas para dividir el espacio muestral, lo más conveniente es elegirlas de forma que P(A i )=1/k para i=1,,k, con k<n/5. - De esta forma conseguimos una mejor aproximación de la distribución del estadístico l a una distribución c 2, y que las frecuencias esperadas no sean pequeñas. 17

CONTRASTE DE HOMOGENEIDAD DE POBLACIONES SITUACIÓN: X es una característica común a r poblaciones independientes. Extraemos m.a.s. de cada población con A la vista de las muestras, es razonable admitir que las poblaciones son homogéneas, es decir, que todas ellas siguen la misma distribución? H 0 : Las poblaciones son homogéneas H a : Las poblaciones no son homogéneas 18

PASOS A SEGUIR: PASO 1: Hacer una partición (arbitraria) del espacio muestral (que es común a todas las poblaciones) en k clases A 1,,A k. PASO 2: Calcular las siguientes frecuencias absolutas para i=1,,k y j=1,,r. O ij = frecuencia observada en A i con la muestra j- ésima= número de elementos de la muestra j-ésima que se han situado en la clase A i e ij = frecuencia esperada en A i con la muestra j-ésima si H 0 es cierta = n j P(A i ) e ij es la esperanza de una B(n j,p(a i )) 19

Muestra 1 Muestra j Muestra r m j A 1 O 11 (e 11 ) O 1j (e 1j ) O 1r (e 1r ) A i O i1 (e i1 ) O ij (e ij ) O ir (e ir ) A k O k1 (e k1 ) O kj (e ki ) O kr (e kr ) m 1 m i m k Frecuencias marginales n i n 1 n j n r n Desconocido Tamaños muestrales Suponiendo cierta H 0 20

PASO 3: Utilizar el estadístico l de Pearson nº de clases nº de muestras Contrastes de hipótesis no paramétricos Mide la discrepancia entre las frecuencias observadas y las esperadas, si se supone cierta H 0 si n es grande y H 0 es cierta Demostración: Para la muestra j-ésima, Sumando los r estadísticos que tenemos,como las poblaciones son independientes, tenemos que Pero como no conocemos la distribución que siguen las poblaciones, hemos tenido que estimar k-1 probabilidades para estimar los e ij, por lo tanto 21

Observación: Si H 0 es cierta, es de esperar que las frecuencias observadas y las esperadas sean parecidas, por lo que si efectivamente H 0 es cierta, el estadístico l debería de tomar valores próximos a cero. Consecuencia: Rechazaremos la hipótesis nula cuando los valores del estadístico l de Pearson sean grandes, y la aceptaremos cuando sean pequeños. La separación entre valores grandes y pequeños viene dada por la elección de un nivel de significación a. Región crítica: C = {l>c 2 (k-1) (r-1),a} 22

EJEMPLO 5: Un estudio sobre tabaquismo en las comunidades de Galicia, Madrid y Cataluña proporcionó los siguientes resultados: Comunidad Fumadores No fumadores Total Galicia 13 87 100 Madrid 17 83 100 Cataluña 18 82 100 Pueden considerarse homogéneas las tres poblaciones en cuanto a sus hábitos fumadores? H 0 : Las poblaciones son homogéneas H a : Las poblaciones no son homogéneas 23

Comunidad Fumadores No fumadores Total Galicia Madrid Cataluña Muestras r=3 c 2 4,605 2,0.1 Clases 13 (16) 17 (16) 18 (16) k=2 87 (84) 83 (84) 82 (84) Contrastes de hipótesis no paramétricos 100 100 100 48 252 300 Frecuencias marginales Aceptamos que las poblaciones son homogéneas Tamaños muestrales 24

CONTRASTE DE INDEPENDENCIA DE CARACTERES SITUACIÓN: X e Y son dos características de una misma población. Extraemos una m.a.s. de la población ((X 1, Y 1 ),, ((X n, Y n ) ). A la vista de la muestra, es razonable admitir que las características son independientes? H 0 : Las características son independientes H a : Las características no son independientes 25

PASOS A SEGUIR: PASO 1: Hacer una partición (arbitraria) del espacio muestral (posibles valores de X e Y) en k x r clases A 1 x B 1,, A i x B j,,a k x B r. PASO 2: Calcular las siguientes frecuencias absolutas para i=1,,k y j=1,,r. O ij = frecuencia observada en A i x B j = número de elementos de la muestra j-ésima que se han situado en la clase A i x B j e ij = frecuencia esperada en A i x B j si H 0 es cierta = n P(A i ) P(B j ) e ij es la esperanza de una B(n,P(A i )P(B j )) 26

Tabla de contingencias k x r Contrastes de hipótesis no paramétricos A 1 O 11 (e 11 ) B 1 B j B r n i. O 1j (e 1j ) O 1r (e 1r ) A i O i1 (e i1 ) O ij (e ij ) O ir (e ir ) A k O k1 (e k1 ) O kj (e ki ) O kr (e kr ) n 1. n i. n k. Frecuencias marginales n.j n.1 n.j n.r n Desconocido Frecuencias marginales 27

PASO 3: Utilizar el estadístico l de Pearson Contrastes de hipótesis no paramétricos Mide la discrepancia entre las frecuencias observadas y las esperadas, si se supone cierta H 0 si n es grande y H 0 es cierta Demostración: Como el número de clases es rk, Pero como no conocemos las distribuciones que siguen las dos variables poblacionales, hemos tenido que estimar k-1+r-1 probabilidades para estimar los e ij, por lo tanto 28

Observación: Si H 0 es cierta, es de esperar que las frecuencias observadas y las esperadas sean parecidas, por lo que si efectivamente H 0 es cierta, el estadístico l debería de tomar valores próximos a cero. Consecuencia: Rechazaremos la hipótesis nula cuando los valores del estadístico l de Pearson sean grandes, y la aceptaremos cuando sean pequeños. La separación entre valores grandes y pequeños viene dada por la elección de un nivel de significación a. Región crítica: C = {l>c 2 (k-1) (r-1),a} 29

EJEMPLO 6: Para averiguar si existe relación entre el peso y la altura de los segovianos, se extrajo una m.a.s. con los siguientes resultados: 1.55-1.65 1.65-1.75 1.75-1.85 1.85-1.95 50-60 10 8 2 1 60-70 6 14 6 2 70-80 2 8 18 5 80-90 0 4 6 8 Qué conclusión podemos extraer de estos datos? H 0 : El peso y la altura son independientes H a : El peso y la altura no son independientes 30

Altura Peso 50-60 60-70 70-80 80-90 1.55-1.65 1.65-1.75 1.75-1.85 1.85-1.95 10 8 2 1 (3.78) (7.14) (6.72) (3.36) 21 6 14 6 2 (5.04) (9.52) (8.96) (4.48) 28 2 8 18 5 (5.94) (11.22) (10.56) (5.28) 33 0 4 6 8 (3.24) (6.12) (5.76) (2.88) 18 18 34 32 16 100 3.78=28*18/100 K=3=r l 39,459 c 2 3*3,0.1 21,66 Rechazo H_0 31

32